新一代大数据中心需求说明_第1页
新一代大数据中心需求说明_第2页
新一代大数据中心需求说明_第3页
新一代大数据中心需求说明_第4页
新一代大数据中心需求说明_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新一代大数据中心需求说明序号功能模块子系统功能要求数量单位1基础环境搭建数据湖基础环境搭建需支持海量原始数据存储,支持结构化和非结构化数据存储;1项2需支持将不同来源的业务数据通过流批一体的方式统一集成,支持业务实时数据捕捉接入数据湖,其他数据按需批量接入数据湖;1项3需支持实时增量数据更新和全量数据更新的湖仓模型;1项4需支持基于数据湖的多种数据查询分析引擎,包括实时查询、实时分析、离线分析;1项5需支持主流数据库的数据采集适配,采用国产或开源大数据技术构建数据湖;1项6数据采集服务数据采集服务需支持Oracle、SQLServer、MySQL、MongoDB等主流数据库全量和增量采集服务;1项7需支持数据日志、数据同步、数据备份、集成接口等数据采集服务方式,按指定频率进行增量数据采集;1项8需提供对数据抽取过程日志的保存功能,保存数据同步及抽取运行情况,方便快速问题定位;1项9数据采集系统范围包括但不限于:HIS、EMR、LIS、RIS、PACS、病理、护理、手麻、重症等业务系统,本次项目建设如产生接口服务费,由项目承建方承担;1项10本平台建设将制定面向数据开放的通用数据模型、面向业务分析的主题数据模型,并按照相关指南制定数据分类分级、业务域标准;1项11数据标准管理服务数据标准管理服务通用数据模型需参考电子病历数据元、电子病历数据元值域代码、电子病历基本数据集、电子病历共享文档规范、HL7等行业标准,制定覆盖患者诊疗、医院运营管理等业务领域的标化通用数据模型;1项12数据分级分类标准需参考《GB/T39725-2020信息安全技术健康医疗数据安全指南》,本项目将制定数据分类分级标准,包括数据分类组及数据分类,业务领域覆盖临床及运营管理等通用模型所覆盖的业务域;1项13支持制定三级业务域标准,内容需覆盖通用模型所覆盖的业务域;1项14标化数据治理服务通用数据模型服务需构建数据模型服务,构建以患者为中心的数据模型,模型需参考HL7、卫健委电子病历基本架构与数据标准等一系列国内国际通用标准;可实现各业务信息系统的数据映射到以患者为中心的数据模型;1项15构建以运营为中心的数据模型服务,采集各业务系统产生的人、财、物数据,根据国内/国际通用/行业标准映射为医院运营数据模型;1项16数据清洗服务需将业务系统采集数据映射到通用数据模型中,并对映射到通用数据模型的数据进行清洗,包括数据映射、数据过滤、删除重复项、统一数据格式、代码转换等;1项17数据脱敏加密服务需参照《个人信息保护法》、信息安全等级保护、HIPAA、个人信息安全规范等法律法规对隐私及其他敏感信息处理的要求,进行数据脱敏或加密处理;1项18数据关联服务需完善表与表之间的关联,还原原本数据表之间的关系,如患者表与就诊表、就诊表与处方表、处方主表与处方明细表,表间应该通过患者号、就诊号、处方号等进行关联;1项19电子病历解析服务需具备电子病历自动解析能力,将电子病历文档类型映射到标准文档类型(如:入院记录、手术记录、病程记录、出院小结等);1项20支持根据每个文档类型的模型定义,从原始电子病历文书中进行章节文本拆分提取(如:入院记录拆分出主诉、现病史、既往史等章节);1项21医学实体识别服务需采用自然语言处理技术,对文本数据进行数据结构化自动提取和实体识别,支持从入院记录、诊断、病理报告中进行结构化内容提取,提取内容包括诊断名称、阳性症状、阴性症状、既往疾病史、个人史、免疫组化等;1项22需具备基于规则的结构化特征提取定义服务能力,如术后第一次血红蛋白检测值;1项23需具备基于实体识别、语法识别、语义理解基础上的文本结构化解析服务能力;1项24医学数据标准化服务医学数据标准化需参照行业标准库,如ICD10、ICD9-CM3、药品ATC标准、卫生信息数据元值域代码及各类常规的行业标准字典,对采集数据自动进行统一的标准化处理;1项25标准化内容应包括但不限于诊断、手术及操作、检验项目、检查项目、药品等;1项26需实现术语到标准术语映射转换服务;1项27数据质控服务需具备数据质量监控、问题发现、问题告警等功能,全程对数据质量进行有效的监督、控制和追溯;1项28数据质控范围包括:数据完整性、一致性、准确性、唯一性、及时性等数据质量问题;1项29质控方式需包括:自然属性评估/完整性校验、规范性校验、传输差异校验、孤儿数据统计、数据精准核查、质控规则校验、多版本数据比对、OLAP质量多维度分析、阈值管理、自动预警等;1项30数据资产管理服务数据资产接入及信息维护需支持由实施人员分别将业务系统原始数据库(如:HIS、EMR、LIS、PACS、护理、手麻、病案等)、增强数据库、主题数据库(结合业务应用需求模型建立的库、表)导入到数据资产上,导入完成后维护数据库资产的厂商名称、数据开始时间、数据更新时间、所属机构、业务系统类型、业务域、数据类型、更新频率等关键信息;1项31原始数据关联关系维护实施人员通过对业务的理解以及与信息科的沟通确认,对原始数据表与表之间的主键、外键关联关系进行标注(维护的信息并非物理表的逻辑主外键);1项32数据分类分级管理服务初始化数据识别规则,客户可结合自身实际情况新建识别规则;实施人员经与客户就关键字段敏感度的处理方案沟通后,创建数据识别任务,识别任务跑完后,实施人员需要人工进行确认;分类分级数据初始化完成后,数据资产中的数据库默认表分级会标记为4级,客户可结合自身实际情况进行调整,本库包含的下属表也会随之进行调整;也可以对业务域进行分级维护,当业务域维护了分级,且数据库、表设置了业务域属性,业务域的分级会高于数据库单独指定的分级设置;1项33业务域管理服务初始化业务域字典,客户可结合自身实际情况对字典进行微调;业务域初始化完成后,会对增强数据进行业务域属性的初始化,通过映射逻辑反推,给原始数据的业务域属性赋值,由于本工作采用自动化完成,还需人工再此确认;1项34数据质控规则维护服务由实施人员初始化默认质控规则,可根据客户关注的特定质控需求自定义质控规则,创建质控调度计划及周期,按需跑出质控报告;对于评分较低的问题项,由实施工程师进行备注说明;1项35同时实施人员会对规则模版、规则标签进行维护管理;1项36标准管理平台主数据管理需支持提供组织机构、人员主数据的统一管理,支持将各系统中的主数据与标准主数据建立映射关系,提供对外主数据共享调用;1项37需支持提供对字典类型及字典项进行新增、修改、删除及查询功能,支持对字典类型进行分类管理;1项38需支持提供医学术语的统一管理和查询功能,包括:手术操作、诊断、药品等;1项39需支持主数据码表及映射关系订阅;1项40元数据管理需支持对各信息系统采集的数据进行元数据自动提取,与之前提取的版本进行自动比对,可查看历次元数据变更历史;1项41需提供自定义数据模型,支持通过上传EXCEL、CSV等格式的模型文件构建新的数据模型;1项42数据资产管理平台资产概览需支持统计展示业务系统类型数量、数据库数量、数据表数量、数据字段数量和总数据量级;1项43需支持统计展示数据质量评分;1项44需支持统计展示数据质量规则;1项45资产地图需支持可视化形式展示数据库间关联关系图谱;1项46资产查询需通过关键字对数据库、数据表、数据字段进行全局检索;通过多维筛选条件对数据库、数据表、数据字段进行筛选,快速定位目标资产;以列表形式展示符合筛选条件的对应资产;1项47数据库资产管理需支持查看数据库概况;1项48需支持列表查看数据库下数据表信息、元数据变更历史、库影响、库血缘等;1项49需支持对数据库属性进行编辑管理;1项50数据表资产管理需支持查看数据表概况;1项51需支持展示某数据表下数据量的时间分布、表结构、表样例数据、主外键关系、表影响、表血缘;1项52需支持对数据表属性进行编辑管理;1项53字段资产管理需支持展示字段画像信息;1项54需支持对字段属性进行编辑管理;1项55SQL资产管理需支持通过关键字对SQL语句的名称及SQL语句内容进行搜索,搜索结果展示命中的SQL语句,包括:名称、SQL语句、创建者等信息,选中一条SQL语句,用户可对SQL语句进行编辑或运行;1项56数据质控管理平台数据质量规则需支持提供对数据质量监控、问题发现、问题告警等功能,全程对数据质量进行有效的监督、控制和追溯;数据质控范围包括:数据完整性、一致性、准确性、唯一性、及时性等;1项57需支持根据实际应用需求,进行质控规则新增、删除、编辑、启用、停用服务;1项58需支持对规则标签的新增、删除、编辑、查询、展示;1项59需支持提供跨数据库的质控规则定义,包括设置规则逻辑、评价标准、规则权重和标签;1项60需支持用户自主新建正则类/SQL类的规则模版,包括规则标签、权重和预警阈值配置;1项61质量规则应用需支持建立单次、周期性调度质控任务,支持查看质控任务应用详情;1项62数据质量报告需支持自动生成数据质控报告;1项63数据分级分类管理平台数据分级管理需支持数据分级标准维护,支持数据分级对应的数据资产面板查看,展示不同分级对应的表数量、字段数量和安全数据分类数量;1项64系统需参考《GB/T39725-2020信息安全技术健康医疗数据安全指南》内置5级数据分级;1项65安全数据分类需支持脱敏过滤条件配置,并基于配置进行行级别的字段脱敏,支持2个及以上条件的联合分类管理;1项66业务数据分类需支持分类基本信息编辑、分类排序,支持业务数据分类查看,并可跳转查看相应资产详情;1项67数据识别规则需支持提供数据自动识别服务,包括数据识别规则、数据识别任务、数据识别记录等;1项68需支持对数据识别规则进行管理,包括规则的查看、编辑、识别阈值设置,并内置地址、姓名、身份证号等数据识别规则;1项69数据识别任务需支持具备数据识别任务查看及搜索功能,包括任务编号、任务状态、数据库名称、数据库中文名称、数据表等内容;1项70需支持自助添加数据识别任务,支持数据识别自定义表范围设置;1项71数据识别记录需支持具备数据识别记录管理功能,支持对识别结果的确认和移除;1项72需支持字段分类识别、业务域识别记录查看及模糊搜索定位;1项73业务域管理需支持提供业务域三级管理、业务域排序功能;1项74需支持支持业务域对应的表数量的统计和展示;1项75数据分级分类初始化需支持内置数据分类字典,包含人口学信息、健康史、就诊记录、体格检查、病案首页、药品、手术麻醉、医嘱执行、随访、体检、生物样本、病理检查、护理、影像学检查、基因检测、实验室检验、医学诊断、处方医嘱、病程记录、费用、放疗、输血等内容;1项76需支持提供数据分类、业务域的初始化服务;1项77需支持基于映射逻辑自动解析字段血缘关系;1项78需支持提供基于数据识别规则的自动识别分类功能;1项79数据开放平台数据查询需支持对数据资产进行SQL数据查询(需秒级响应)、数据导出(EXCEL、CSV、关系数据库)和操作日志记录;1项80需支持SQL查询语句可保存并分享,分享后的SQL语句可以在资产平台查询,实现SQL语句的复用;1项81需支持对原始数据、加工数据、主题数据进行跨库查询,支持库、表目录搜索及详情查看;1项82需支持对角色账号设置脱敏或加密规则权限,根据权限级别查询和导出对应类型数据;1项83数据集管理需支持提供直连数据集、加工数据集、文件导入数据集等多种数据集构建功能;1项84需支持提供数据集的申请、创建、查询、发布、展示、授权、使用等功能;1项85数据API需支持基于数据集封装数据API申请,包括API名称、API描述、接口方式、请求方式;1项86需支持提供数据API,包括结构化、标准化、脱敏技术等接口,支持第三方开发者在授权条件下调用;1项87需支持API中心提供列表显示、关键词搜索、在线申请、审批及调用功能;1项88数据开发需支持具备在线数据加工功能,包括拖拽组件、可视化数据处理逻辑编排、多种开发组件组合编排;1项89需支持具备周期调度任务的统一查看和管理功能,可配置单次、周期性任务调度;1项90需支持具备数据开发任务执行及查看功能,包括任务运行、运行日志及样例数据等;1项91需支持具备运行记录管理功能,包括列表查看、详情查看、运行监控、异常通知等;1项92数据上报需支持通过平台数据沙箱将数据上报的数据抽取与医院实时业务相分离,有效降低抽取数据对医院实时业务的影响;1项93需支持提供上报任务调度、数据转换、数据推送、任务日志、失败告警、超时告警等功能;1项94需支持全院上报数据集中管控,统一出口输出、所有上报数据与操作都在平台沉淀留痕;1项95数据安全管理平台账号角色管理需支持提供统一的账号角色管理功能;包括角色新增、修改及删除;支持角色设置,包括基本信息、数据权限和功能权限等;1项96数据安全管控及脱敏需支持提供数据安全管控及脱敏功能;1项97需支持具备角色安全等级设置,可自动过滤超出安全等级的数据库表,超出角色安全等级的数据自动脱敏展示;1项98需支持授权高于角色安全等级的安全分类数据明文展示;1项99需支持对数据进行防泄漏安全配置,例如提供水印、防复制配置等;1项100审批管理需支持提供数据集审批管理功能,包括在线数据集申请、查看待审批记录、申请同意或驳回操作;1项101运维监控管理需支持提供数据采集、数据治理、数据导出、API监控、SQL执行记录等操作日志,及资源运行运维监控;1项102数据采集平台数据源管理系统需支持待接入数据源的管理,增加数据源的配置相关信息,包括数据库来源编码、数据库来源名称、源数据库名、发布前置机IP、数据发布器、发布器配置、源库操作系统等相关内容;1项103数据源配置需支持配置选定医院的数据源信息,包括数据库基础信息、数据库系统信息和数据库备份恢复机制,配置完成后,在生产过程中,数据源会按照其配置去进行备份和恢复数据库;1项104参数配置需支持配置备份接收目录、存储目录、保留备份次数、告警目标;1项105表规则管理需支持对前置机的数据库表和生产库的表进行监控配置,包括结构变化、行总量变化、行数辈分比变化、值变化等,配置完成后,当监控到相应变化后,系统会进行预警;1项106脱敏配置需支持对前置恢复脱敏、DBLoader脱敏、TN脱敏配置统一管理;1项107脱敏配置文件需支持自动解析校验存储,支持DB和HIVE两种类型输入;1项108需支持实现对前置恢复脱敏、DBLoader脱敏、TN脱敏配置的统一管理;1项109需支持脱敏版本管理,所有的历史数据变更可追溯;1项110需支持版本差异对比功能,提高问题排查追溯效率;1项111表监控系统需支持对已配置监控规则的表进行相应的监控预警,系统展示表名、触发的监控规则及相关信息、告警时间等;1项112监控告警系统需支持实时获取各医院下的数据库状态,及时发现数据采集问题,监控数据每天凌晨会自动汇总,通过邮件通知到数据采集人员及时处理;1项113数据治理平台数据治理平台系统为数据治理工程师提供数据汇聚、映射转换等治理功能,解决数据治理的流程规范、过程追溯、以及任务调度和监控困难等问题,提升数据治理的能力和效率;1项114投标人需具备一定的数据治理平台开发能力;115需支持通过SQL语句将源数据映射到目标数据库;1项116需支持数据快速预览功能,在数据映射过程中可实时查看映射逻辑生产的真实数据,并对重点字段的异常进行预警;1项117需支持SQL的语法、完整性和规则性校验,提前拦截可能出现的问题,并可定位到对应的错误行;1项118数据标注平台数据标注非结构化文本标注:1项119需支持对自然语言文本进行关键词实体的标注,标注过程中会记录标注结果,实体类型,开始位置和结束位置信息,为了保证数据质量,标注任务可设置质检环节;1项120实体标注:1项121标注结果中会包含文本内容、文本开始位置和结束位置、实体类型等信息,需支持利用该工具方便的获得各项NLP任务需要的标注语料;1项122工具需支持用算法模型对原始文本进行预标注,人工对算法结果进行确认,减少标注的工作量;1项123关系标注:1项124主要用于解决实体标注组件,无法标注实体关系的问题;1项125病历标注:1项126病历标注需支持提供根据病历内容进行结构化字段的标注功能,支持按照PID进行拆分任务、根据CRF表自动生成Form表单、支持多种字段类型、支持算法辅助的智能化标注、支持字段关键词标注;1项127标注统计分析概览统计:1项128需支持从月、周、日三个维度,查看参与人数、数据量、订单数、任务数四个方面的数据趋势;1项129标注工作量统计:1项1301、标注工作量统计、质检工作量统计、标注效率统计,为三个通用的统计报表,需支持根据项目自定义统计报表;1项1312、各统计页面,需支持总览统计和明细统计,并且可把统计数据以csv格式导出到本地;1项132标注效率统计:1项133需支持按照用户和任务两个维度查看标注效率,默认展示最近一个月的统计信息,支持自定义时间范围;1项134需支持按照用户维度的标注统计包括姓名、登录账号、任务数、数据条数、标注总量、总标注时长、平均注时长等信息;1项135需支持任务维度的标注统计包括姓名、登陆账号、任务名称、任务编号、数据条数、标注总量、总标注时长、平均注时长、领取时间、提交时间等信息;1项136数据导出:1项137需支持项目结束后支持下载标注结果文件,用于辅助算法模型及其它的用途,支持三种方式的数据导出;1项138标注组件管理注册管理:1项139需支持平台后台管理,选择“组件管理”,点“添加组件”,把组件名称、组件英文名称、组件类别、组件简介等相关内容填写完成即可;1项140样例数据维护管理:1项141需支持在对应的组件中,按照组件注册的信息维护部分样例数据,实现样例数据管理;1项142样例图片维护管理:1项143需支持在对应的组件中,选择组件进行样例图片上传功能;1项144标注组件库管理:1项145需支持针对添加的所有组件,支持在组件库中进行查看、增加、删除、修改操作,实现组件库的维护管理;1项146数据评估校验完整性校验需支持字段值有值率统计,实现字段值完整性校验;1项147需支持跨字段或者跨表的完整性L2规则校验,比如就诊表出院状态下,诊断表需要有入院诊断和出院诊断;1项148规范性校验需支持字段值非标准率、违规率校验;比如:药品医嘱类型对应的医嘱内容存在血常规等检验信息、婚姻状态值超出了标准字典的范围等;1项149传输差异性校验需支持不同数据层之间相同业务类型表量级的传输差异校验,便于预警生产流程中是否存在数据丢失;1项150孤儿数据统计需支持统计存在关联关系的表与表之间的关联率以及非关联率统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论