基于数据空间的电子病历数据融合与应用平台
- 格式:docx
- 大小:285.07 KB
- 文档页数:18
基于大数据的多平台数据融合系统一、引言随着信息技术的迅猛发展和互联网的普及,各个领域产生的数据量呈指数级增长。
不同平台上的数据具有差异性和分散性,如何有效地将这些数据进行融合和整合,成为了当前亟待解决的问题。
本文将介绍一种基于大数据的多平台数据融合系统,旨在提供一种高效、可靠的数据融合解决方案。
二、系统架构1. 数据采集层数据采集层是系统的基础,负责从各个数据源中收集数据。
该层包括数据源管理模块、数据抓取模块和数据清洗模块。
数据源管理模块用于管理各个数据源的连接信息和权限控制;数据抓取模块负责从数据源中抓取数据,并进行初步的清洗和预处理;数据清洗模块用于对原始数据进行清洗和格式转换,确保数据的准确性和一致性。
2. 数据存储层数据存储层用于存储采集到的数据,包括结构化数据和非结构化数据。
该层包括数据仓库、分布式文件系统和数据库。
数据仓库用于存储结构化数据,提供强大的查询和分析能力;分布式文件系统用于存储非结构化数据,如图片、音频和视频等;数据库用于存储实时生成的数据和中间结果。
3. 数据处理层数据处理层是系统的核心,负责对采集到的数据进行处理和分析。
该层包括数据清洗模块、数据集成模块和数据挖掘模块。
数据清洗模块用于对存储在数据存储层中的数据进行进一步的清洗和预处理;数据集成模块用于将不同数据源中的数据进行整合和融合,消除数据冗余和重复;数据挖掘模块用于从融合后的数据中挖掘有价值的信息和知识。
4. 数据展示层数据展示层用于将处理后的数据以可视化的方式展示给用户。
该层包括数据查询模块、数据分析模块和数据可视化模块。
数据查询模块用于根据用户的需求进行数据查询和检索;数据分析模块用于对查询结果进行统计和分析;数据可视化模块用于将分析结果以图表、报表等形式展示给用户。
三、系统特点1. 多平台适配性该系统具有良好的多平台适配性,可以支持各种类型的数据源,如关系型数据库、非关系型数据库、文件系统等。
同时,系统还提供了灵活的数据接口和数据格式转换功能,可以方便地与其他系统进行集成。
智慧医疗平台一、介绍智慧医疗平台的概念和背景智慧医疗平台是一种基于互联网和先进技术的医疗信息化解决方案,旨在提升医疗服务的质量和效率,改善医患关系,推动医疗行业的数字化转型。
随着信息技术的发展和医疗需求的不断增长,智慧医疗平台已经成为医疗行业的重要组成部份。
二、智慧医疗平台的功能和特点1. 电子病历管理:智慧医疗平台可以实现电子病历的存储、管理和共享,提高病历的准确性和完整性,方便医生对患者的诊疗历史进行查看和分析。
2. 预约挂号系统:患者可以通过智慧医疗平台在线预约挂号,避免了传统挂号的排队等待,提高了就诊效率。
医院也可以通过平台进行资源调度和排班管理。
3. 在线问诊服务:患者可以通过智慧医疗平台进行在线问诊,与医生进行远程沟通,减少了患者的等待时间和医生的工作压力,提高了医疗资源的利用效率。
4. 医疗知识库:智慧医疗平台可以建立医疗知识库,包括疾病诊疗指南、药物说明书、医学文献等,方便医生和患者获取医疗知识和信息。
5. 数据分析和挖掘:智慧医疗平台可以对大量的医疗数据进行分析和挖掘,提取实用的信息和规律,为医疗决策和科学研究提供支持。
三、智慧医疗平台的应用场景和效益1. 优化医疗资源配置:智慧医疗平台可以实现医疗资源的合理配置和调度,提高医疗服务的供需匹配度,减少资源的浪费,提高医院的运营效率。
2. 改善医患关系:智慧医疗平台可以提供便捷的医疗服务,减少医患之间的沟通障碍和矛盾,增强医患之间的信任和合作,改善医疗体验。
3. 促进远程医疗:智慧医疗平台可以实现医生和患者之间的远程沟通和诊疗,解决了患者就医难的问题,提高了医疗服务的覆盖范围和质量。
4. 提升医疗质量和安全:智慧医疗平台可以提供全面的医疗信息和数据支持,匡助医生做出准确的诊断和治疗决策,减少医疗事故和误诊的发生。
5. 促进医学科研和教育:智慧医疗平台可以提供丰富的医疗数据和知识资源,为医学科研和教育提供支持和便利,推动医学领域的创新和发展。
国家卫生健康委员会关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知文章属性•【制定机关】国家卫生健康委员会•【公布日期】2018.08.22•【文号】国卫办医发〔2018〕20号•【施行日期】2018.08.22•【效力等级】部门规范性文件•【时效性】现行有效•【主题分类】医疗管理正文关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知国卫办医发〔2018〕20号各省、自治区、直辖市及新疆生产建设兵团卫生计生委:为全面实施健康中国战略,落实《国务院办公厅关于促进"互联网+医疗健康"发展的意见》,持续推进以电子病历为核心的医疗机构信息化(以下简称电子病历信息化)建设,现将有关工作要求通知如下:一、提高对电子病历信息化建设工作重要性的认识习近平总书记在党的十九大报告中强调,实施健康中国战略,全面建立优质高效的医疗卫生服务体系,健全现代医院管理制度。
李克强总理指出,运用"互联网+"促进重点民生领域改善潜力巨大,要注重用互联网、大数据等提升监管效能。
推进电子病历信息化建设,对建立健全现代医院管理制度,保障医疗质量和安全,提高医疗服务效率,改善群众就医体验,加强医疗服务监管,促进"智慧医院"发展等,具有重要意义。
地方各级卫生健康行政部门和各级各类医疗机构要进一步提高认识,大力推进电子病历信息化建设,努力为人民群众提供全方位全周期的健康服务。
二、建立健全电子病历信息化建设工作机制地方各级卫生健康行政部门和各级各类医疗机构要将电子病历信息化建设列为重点工作任务,将其作为推进现代医院管理制度建设的重要抓手,强化电子病历在医疗机构信息化建设过程中的核心地位,建立健全长效工作机制,持续深入推进有关工作。
医疗机构主要负责同志是电子病历信息化建设的第一责任人;医务部门作为牵头部门,统筹负责电子病历信息化建设,协调信息技术部门、临床科室、药学部门、医技科室以及有关职能部门等其他部门,加强管理与质量控制,确保电子病历信息化建设服务临床工作,保障医疗质量和医疗安全;临床科室、药学部门、医技科室以及有关职能部门等其他部门要以服务临床为导向,以病人为中心,结合工作实际,提出电子病历信息化建设需求,并在应用信息系统过程中不断改进和完善需求;信息技术部门要建立与各相关部门的沟通协调机制,根据需求,加强系统开发、维护、运行和技术支持。
HIS(LIS、PACS、RIS、EMR)系统简介一、定义说明医院信息系统(Hospital Information System, HIS),利用电子计算机和通讯设备,为医院所属各部门提供病人诊疗信息和行政管理信息的收集、存储、处理、提取和数据交换的能力,并满足所有授权用户的功能需求。
实验室信息管理系统(Laboratory Information Management System, LIS),是专为医院检验科设计的一套信息管理系统,能将实验仪器与计算机组成网络,使病人样品登录、实验数据存取、报告审核、打印分发,实验数据统计分析等繁杂的操作过程实现了智能化、自动化和规范化管理。
有助于提高实验室的整体管理水平,减少漏洞,提高检验质量。
医学影像存档与通讯系统(Picture archiving and communication systems, PACS),是近年来随着数字成像技术、计算机技术和网络技术的进步而迅速发展起来的、旨在全面解决医学图像的获取、显示、存贮、传送和管理的综合系统。
放射信息管理系统(Radioiogy information system, RIS),是优化医院放射科工作流程管理的软件系统,一个典型的流程包括登记预约、就诊、产生影像、出片、报告、审核、发片等环节。
电子病历 (Electronic Medical Record, EMR),是指将传统的纸病历完全电子化,并提供电子贮存、查询、统计、数据交换等管理模式,它是信息技术和网络技术在医疗领域应用的必然产物,是医院计算机网络化管理的必然趋势,目前改领域研究已成为一个新的研究应用热点。
二、概述医院信息系统(HIS)是一个庞大而复杂的现代化信息管理系统,它包含财务、人事、住院、门诊、挂号、医技、收费、分诊、药品管理等多个子系统,经过多年的发展,HIS系统被赋予更多的功能:随着医院内部业务流程的不断梳理和整合,HIS与LIS,PACS,RIS,EMR等外围模块不断融合;随着卫生信息化的内涵与外延不断扩展,HIS与社保,医保,甚至银行系统的业务及数据交互越来越频繁。
关于智慧医院建设的实践与思考随着技术水平的飞速发展和生活水平的不断提高,快速攀升的健康需求给医疗服务带来诸多挑战。
在医疗服务不断“蜕变”的程中,信息技术发挥着重要作用,谁占有信息的制高点,谁就占有发展的制高点;谁在信息化建设方面早走一步,谁就赢得发展的先机。
没有信息化,就没有卫生事业的现代化。
智慧医院就是以大数据、人工智能、物联网等新兴信息化技术为依托,以跨界融合、创新驱动、重塑结构、开放生态等互联网思维为指导,通过重构医疗业务流程、改善医疗服务,创建健康与疾病管理模式,并逐步将新技术融入诊疗方法和疾病处理能力临床决策的医疗核心环节,不断推动和创造新的医疗生态,让服务、医疗资源在互联网上流动,推动优质医疗资源下沉,缓解若干现存的就医矛盾。
一、我院智慧医院建设现状我院信息化建设起步于1998年,现有信息系统于2008年开始建设,以管理为引领,以患者方便、医护快捷为中心。
先后建设了四大体系90余个子系统,覆盖业务信息体系、运营信息体系、临床信息体系、安全管理体系与硬件信息体系。
在系统应用方面,基于信息集成平台、数据中心搭建了以电子病历为核心的应用体系,建设了电子病历系统、HIS系统、PACS系统、LIS系统、移动护理、手术麻醉管理系统、重症管理系统、临床路径、合理用药、财务管理、科研管理等等。
建成了病理诊断、放射影像、心电诊断三大共享中心,实现了区域互联互通,推进检查结果同质化、检验质量共享化。
2020年,医院通过了国家信息互联互通标准化成熟度四级乙等测评,完成了医院内、外信息系统之间的互联互通和标准化建设。
2020年,通过了国家电子病历系统应用水平4级测评,为医院信息化持续发展打下了坚实基础,更好的保障医疗质量与安全。
在不断完善医院信息化的基础上,我院积极推进智慧医院建设,建设以智慧病历为核心的智慧医疗(智慧医生、智慧护理),以质量控制、绩效管理为抓手的智慧管理,以互联网医院、云影像中心为特色的智慧服务。
互创电子病历系统设计电子病历不仅是对病人综合医疗信息的电子文件集合,更重要的是其在医疗质量控制、临床决策支持、医院运营管理、区域医疗信息共享、医疗行为监管中起着十分重要的作用。
建立以病人为中心,以电子病历为核心,围绕与电子病历相关的诊疗业务、管理业务以及支持体系,通过医院信息平台促进信息资源在临床医疗和管理运营中的高效利用,进而提高医疗质量、减少医疗问题、降低医疗成本、优化资源配置、提高医疗效率。
2011年启动的高端电子病历系统研发与综合医药应用863课题主要研究内容是研究高端电子病历系统功能模型;研究医疗文书结构化、集成可视化、中文医学语言处理、受控医学词汇表(CMV)、计算机化医嘱系统(CPOE)、闭环医嘱、医疗工作流技术,以及与临床数据存储库(CDR)、医学决策支持系统(CDSS)、临床路径的集成整合技术,构建先进架构的高端电子病历系统;研究大型综合医药实施电子病历系统的工程技术,建立标准化、可配置、面向不同科室的病历模板库,开展电子病历系统应用示范。
电子病历体系架构电子病历系统将成为医务工作者的综合信息获取平台、加工平台、应用平台。
借助计算机系统的计算、存储与信息利用展示能力为临床工作提供更好的信息支撑。
这样对电子病历系统的设计提出了设计要求,从最终用户的角度来看需要遵循以下5项基本设计原则:1. 各类医疗信息融合电子病历系统作为一个临床医务工作者最主要的信息工作平台,一个以临床医务工作者和病人信息为双中心的信息工作平台,将网络所及范围内的信息系统的数据与信息进行集成是至关重要的。
临床信息集成的越充分,给临床医务工作的临床工作所能提供的辅助能力也就越强。
丰富的信息资源加上正确完整的临床逻辑判断是完成好临床诊疗工作的重要助力推手。
病人登记系统、计费系统、检验信息系统、医学影像信息系统、心电信息系统、手术麻醉信息系统以及其他各种临床辅助科室所使用的各种各样的信息系统都将成为电子病历新系统的重要信息与数据来源。
医疗卫生领域的电子病历整合与共享平台建设随着信息技术的快速崛起,医疗卫生信息化正成为一个新兴的领域。
在这个领域,医疗卫生领域的电子病历整合与共享平台建设是其中的重要一环。
本文将从背景、意义、目的、技术难点和发展前景等方面入手,详细阐述这个话题。
一、背景传统的医疗病历都是纸质的,难以长期保存、共享和精确查询。
而电子病历作为一种新兴的医疗信息化手段,已经广泛应用于医疗行业,并已成为医生病人交流的重要工具。
但由于各大医疗机构的信息系统各异,存在着病历数据相互孤岛、难以实现共享和交互使用的问题,这给医疗安全和医疗服务带来了巨大的风险。
因此,建设医疗卫生领域的电子病历整合与共享平台,逐渐成为医疗信息化发展的主要方向和解决医疗服务难点的关键。
二、意义1.提高医疗服务质量医疗卫生领域的电子病历整合与共享平台能让病历数据共享到整个医疗机构,实现电子病历的精细化管理,改善医疗服务质量,避免因病人转移医院、医生转科、门诊住院等导致的信息缺失,减少误诊、漏诊等不必要的医疗问题。
2.推动医疗卫生信息化医疗卫生领域的电子病历整合与共享平台是医疗卫生信息化建设的重要一步,是建设学科协同、科研协作和学科发展的发展基础。
有效地推进医疗卫生信息化建设,能够提高行业的信息化水平,促进卫生服务资源的利用效率,为医疗行业发展提供良好的信息化支撑。
3.促进医疗资源合理流动医疗卫生领域的电子病历整合与共享平台能够帮助医生更好地了解患者的病史,对病情作出更加科学的判断和决策,避免不必要的检查和治疗,减少医疗资源的浪费。
同时,可为交流医疗资源建立一个长期的协作平台,实现行业资源共享、效益优化。
三、目的医疗卫生领域的电子病历整合与共享平台的目的是整合各大医疗机构的电子病历,并构建一个可靠、安全、高效的电子病历共享体系,解决医疗机构电子病历数据孤岛、信息割裂、难以共享的问题,实现医疗信息互通,提升医疗服务质量。
四、技术难点医疗卫生领域的电子病历整合与共享平台建设是一个综合性、复杂性的工程,要克服多项技术难点,主要包括:1.数据整合各大医疗机构系统的差异,使得电子病历的规范和格式不同,如何将这些不同格式的电子病历数据整合成一个标准化的数据体系,是电子病历整合与共享平台建设亟待解决的难点之一。
数据融合概念数据融合是指将来自不同来源和不同格式的数据整合在一起,以生成更全面、准确和实用的信息。
通过数据融合,可以将分散的数据集合合并为一个统一的数据集,从而提供更深入的洞察和更好的决策支持。
数据融合的过程包括数据采集、数据清洗、数据整合和数据分析等多个阶段。
首先,需要从各种数据源采集数据,这些数据源可以是来自不同部门、不同系统或者不同组织的数据。
采集到的数据可能存在格式不一致、缺失值或者错误等问题,因此需要进行数据清洗,包括去除重复数据、填充缺失值、纠正错误等操作。
数据整合是数据融合的核心步骤,它将清洗后的数据按照一定的规则和逻辑进行合并。
数据整合可以通过数据匹配、数据链接或者数据转换等方式实现。
数据匹配是指根据某些属性或者关键字将不同数据集中的记录进行匹配,以建立数据之间的关联关系。
数据链接是指将不同数据集中的记录按照某些共同属性进行连接,以形成一个更大的数据集。
数据转换是指将不同数据集中的数据转换为相同的格式或者单位,以便进行比较和分析。
数据融合后,可以进行进一步的数据分析和挖掘。
通过对融合后的数据进行统计分析、机器学习或者数据挖掘等方法,可以发现数据中的潜在模式、关联规则或者趋势,从而提供更深入的洞察和决策支持。
数据融合还可以匡助发现数据之间的相互关系和依赖性,为业务流程优化、资源配置和风险管理等方面提供指导。
数据融合在各个领域都有广泛的应用。
在企业管理中,数据融合可以匡助企业整合来自不同部门和系统的数据,实现全面的数据分析和综合决策。
在金融领域,数据融合可以匡助银行或者保险公司整合客户的交易记录、信用评分和行为数据,以提供个性化的金融服务和风险管理。
在医疗健康领域,数据融合可以整合患者的电子病历、医学影像和基因组数据,以支持个性化的诊断和治疗。
总之,数据融合是将来自不同来源和不同格式的数据整合在一起的过程,旨在生成更全面、准确和实用的信息。
通过数据融合,可以实现对数据的全面分析和深入挖掘,为决策提供更好的支持。
精心整理HIS(LIS、PACS、RIS、EMR)系统简介一、定义说明医院信息系统(HospitalInformationSystem,HIS),利用电子计算机和通讯设备,为医院所属各部门提供病人诊疗信息和行政管理信息的收集、存储、处理、提取和数据交换的能力,并满足所有授权用户的功能需求。
HIS 与LIS,PACS,RIS,EMR等外围模块不断融合;随着卫生信息化的内涵与外延不断扩展,HIS与社保,医保,甚至银行系统的业务及数据交互越来越频繁。
HIS系统已成为医疗行业业务驱动,流程整合与服务能力提升的核心引擎系统。
1.建设目标v以病人为中心,以电子病历为核心,以全面集成为手段,提高医院管理水平和经营效益为目标,打造先进的、全面的现代化的数字医院。
数字化医院建设是建立全面的管理信息系统和临床信息系统,用最新的最先进的IT技术对全院的信息资源(人,财,物,医疗信息)进行全面的数字化,全面的优化和整合医院内部的资源以及医院外部全社会的信息资源为医院临床、管理服务,运用所有的信息资源为患者提供先进的、便捷的、人性化的医疗服务;v人性化:以人为本,以病人为中心的原则,在系统的每个细节都应该体现人文关怀主义,考虑如何更加的方便患者,更加方便业务人员,更加的人性化。
v集成化:医院信息系统建设将有众多不同的系统组建而成,并形成有机的统一整体,规避医疗信息孤岛。
vv化。
vv2.vvvvvv一体化设计,简化了系统软、硬件结构,降低了系统开发、实施和维护成本,提高了系统运行效率,便于升级。
v与区域医疗卫生信息系统无缝融合。
三、总体建设思路1.以病人为中心,以医疗信息为主线。
v采用就诊卡技术,简化病人就医流程,方便医生和患者;其PACS系统和LIS系统,将影像和化验结果与病人的基本信息相结合,在医生工作站上可以及时、准确地得到病人的各种生命指标。
v系统的设计思想是:通过临床信息的记录将各种医疗信息整合,并在此基础上生成费用的信息积累,直至在医疗方面形成以医、教、研为核心的临床信息系统。
摘要:为了建立高效可扩展且易于管理的数据融合与应用平台,利用数据空间技术,按照数据敏感性将电子病历数据按照原始数据空间、匿名数据空间、模型数据空间的框架进行集成、融合,对匿名数据进行二次分析与挖掘,并针对各数据空间设计实现了不同的存储、安全保护、数据访问机制。
平台已在国家医疗服务分析以及北京大学附属医院医疗能力、质量、效率的分析中得到应用。
关键词:电子病历;数据平台;数据空间;数据质量;数据脱敏1 引言我国电子病历的应用越来越广泛,使用电子病历数据进行临床研究、医院管理以及数据共享利用的研究越来越常见。
做到数据收集、数据质量控制、数据分析处理、分析模型发布的“兼容差异、深入利用”,是承担国家医疗数据中心数据平台建设任务的基本要求。
其中“兼容差异”规则是指在数据输入端,可以读入目前主流应用生成的数据文件格式,可以识别语义相容的数据内容,不同版本不同标准的数据(如疾病编码标准、手术编码标准、病历编码标准)都可以向一个版本进行映射与转换等;在输出端,则可以按照需求定制输出接口与输出格式,包括变量的定制、值的自定义等。
“兼容差异”的规则主要用于应对我国由于各种实际系统建设、应用差异所导致的数据差异,最大限度地兼容各个医院的数据,并使之能在一个基准线上进行分析。
同时,要对差异不大的数据(如病案首页)、差异较大的数据(如电子病历文档以及病例系统数据)进行区分处理,最大限度地提高处理效率。
“深入利用”规则既要求设计能够集成、融合所有数据进行各个维度、各个层面的分析建模的平台,又需要平台的结构能够保护敏感数据,同时面向特定需求发布匿名数据,进而利用各种优质资源进行数据挖掘分析、二次利用,并将分析结果、模型也作为数据进行存储、管理。
2 国家医疗数据中心系统架构国家医疗数据中心所获得的数据主要来自医院的不同数据源,包括病历系统、影像系统(PACS)、检验系统(LIS)等,数据类型也包括了文本、图像、视频等多种形式。
对于同一家医院,数据可能经历多次迭代,期间可能有错误数据的替换、缺失数据的补充等数据层面的操作。
为了管理分散、异构的数据,国家医疗数据中心建立了以数据空间技术为基础的三层结构,在层次内部,针对数据模式固定的数据采用数据仓库进行管理。
数据空间是与主体相关的数据及其关系的集合,主体、数据集、服务是数据空间的3个要素。
在数据模型上,内部的数据不依赖严格的数据模式,可以以一种松散的数据模式来组织。
在构建方式上,数据空间不需要提前提出所有可能的需求以设计合适的数据库模式,而是在演化过程中,根据新增的需求建立主体、数据集和服务三者之间的关系和逻辑,同时可以根据不断改变的需求,以较低的成本重新建立新的关系。
数据空间包含围绕数据集提供的服务,可以对业务过程进行很好的分层和组织。
数据仓库是一系列具有继承性、主体性和持久性的数据集合,与数据空间不同,数据仓库需要有固定的数据模式,对于数据的查询效率有很好的提升,但对于数据变化的适应比较迟钝,因此国家医疗数据中心仅对一些有固定数据模式的数据(如病案首页)采用基于数据仓库的管理。
目前国家医疗数据中心主要提供数据集成、匿名化处理及数据查询与分析服务。
为保证敏感数据的安全,从数据存储结构和结构内部脱敏操作两个层面进行了处理。
根据涉及的数据的敏感性,通过物理隔离的3层数据空间进行数据管理,即原始数据空间、匿名数据空间、模型数据空间。
原始数据空间的数据集为直接从安全通道获取的原始数据,这部分数据未经过任何脱敏操作,因此所有数据都以加密形式存储,并且有物理隔离和严格控制的访问策略。
在这一层次主要进行数据清洗以及基本的数据有效性的校验,因此在这一层次的数据迭代次数是最多的。
符合数据有效性检验的数据均视为合格数据,进行脱敏处理后,下发至匿名数据空间,使得数据迭代的成本降至最低。
匿名数据空间主要进行匿名数据的管理。
首先去除相应字段,再使用训练好的机器学习模型识别自由文本中的敏感信息,予以去除。
将经过脱敏的匿名化数据输入匿名数据空间,建立匿名数据库;提取的敏感数据被存储在与匿名数据空间有物理隔离的模型数据空间的敏感信息数据库中。
在匿名数据空间中,部分数据(如病案首页)有较固定的数据模式,还需进行部分关键信息的抽取和加载,并存入数据仓库。
模型数据空间的数据集为下发的模型数据,根据用户的需求,将所需的数据下发至用户的虚拟空间,进行模型计算。
模型数据空间整合用户的需求,同时,这些需求也进一步完善了各数据空间的数据组织和管理。
各层次的数据存储均使用多级存储机制,采用Hadoop开发团队开发的开源Hadoop分布式文件系统(Hadoop distributed file system,HDFS)。
在不同的物理磁盘上保存至少3份数据的备份,以保证数据的可靠性。
总体而言,由于医疗数据格式多样,国家医疗数据中心主要采用数据空间技术进行数据管理,对于其中数据模式较为固定的部分,在层次内以数据仓库的方式进行管理,提升查询效率。
3层数据空间的功能如图1所示。
图13层数据空间的功能3 基于数据空间结构和空间内功能的敏感信息保护医疗数据涉及病人隐私,信息内容复杂,从安全通道获得的原始数据从自动清洗到数据分析与发布,涉及多个数据处理环节,每一环节所需的数据结构均不同,涉及的敏感数据也不同,需要不同的数据安全级别。
因此本文提出基于数据空间的数据管理,不同数据空间存在物理隔离,数据空间之间的数据流动也有详尽的安全控制和日志记录。
对于敏感信息的保护,本文在两个层面上进行实现。
一是从数据存储和管理结构上,根据数据的敏感程度,定义了3层数据空间:原始数据空间、匿名数据空间和模型数据空间;二是在数据空间中设置了多层次的脱敏处理及敏感信息的严格管理。
除此之外,记录所有操作生成的数据世系也可对每步操作进行回溯。
3.1 基于3层数据空间结构的敏感信息保护3.1.1 原始数据空间原始数据空间处理和存储的数据集为直接从安全通道获得的原始数据经自动清洗和标准化转换后的结果数据集。
这一数据空间中的输入数据包含了可识别身份的敏感数据,因此安全级别最高。
在这一数据空间中,主要进行敏感信息的检测、提取,存储以及数据匿名化处理,输出匿名数据到匿名数据空间。
本层数据空间存在物理隔离的数据层和应用层,这是由于在抽取敏感信息的过程中,国家医疗数据中心需要针对敏感信息进行必要的数据统计,统计结果存储于统计数据库中,并向部分经过严格安全审计的用户开放统计数据的查询功能,这一过程归入应用层的范围。
3.1.2 匿名数据空间匿名数据空间包含匿名化处理、匿名化数据存储及匿名化数据下发过程,分为数据层及应用层。
数据层主要执行匿名化数据存储和管理,应用层主要提供数据需求的审核及定制数据的下发。
3.1.3 模型数据空间模型数据空间主要处理数据请求、下发数据至用户虚拟机以及对下发数据进行数据存储。
不同数据请求单独建立数据库文件,通过安全通道下发至个人工作区,同时在数据备份存储空间备份。
3.2 数据空间的存储、安全与访问机制3.2.1 存储机制数据空间包含以下数据。
(1)各医院提交的原始数据由于各医院病案室采用的文件归档系统不同(如DBase系统的DBF文件、Excel格式文件和CSV格式文件等),这部分数据经过自动清洗并生成元数据后,主要以文本文件形式进行存储。
(2)各数据层中的数据这部分文件已经经过清洗,形成了完整的数据结构,因此主要以数据库形式进行存储,常见的格式有MySQL、SQL Server数据库文件格式。
(3)用户使用过程中生成的数据这部分数据是用户对个人数据库操作产生的,主要以文件(如CSV)和数据库(如MySQL、SQL Server)形式存储。
在数据的存储模式上,首先根据各数据空间中数据的敏感程度进行物理隔离的数据分区,将3层数据空间的数据严格存储在不同的服务器集群中,设立不同的安全机制。
在各数据空间内部,主要采用分区、分片的分布式存储方式。
在数据的分区上,对数据量大、集成度要求高而数据查询和分析又较为频繁的匿名数据空间的分区机制进行了较为详细的探索。
在数据库层面,最频繁的查询有2种:第一种是按医院的多列数据查询与提取,用于DRG计算、秩序列、TOPSIS等模型的计算;第二种是按主要疾病分区的数据查询与提取,由于主要疾病频数的差异较大,因此在分区时需要考虑将频数在前10位(或100位)的疾病按照历史数据统计结果进行分区策略的动态调整。
基于这2种查询模式,通常以医院和主诊断来进行分区,其中医院节点数目相对小,而主诊断的节点数目较大。
在分配主分区键和次分区键时,常见的方法有2种:第一种是以医院为主分区键,以主诊断为次分区键;第二种方法是以主诊断为主分区键,以医院为次分区键。
从并行计算的角度考虑,越分散查询效率越高,但网络开销也会相应增大,此时要根据具体的需求平衡网络开销和查询效率,例如提取某个医院的某个疾病时,在集群中可能只会集中在一台机器上,可能会导致查询效率下降;而在模型计算时,一般的查询会分布在多家医院,因此查询会被分发到不同节点上去。
2种方法在网络开销和查询效率上各有优劣,应注意其中的平衡点。
主诊断数目相对节点数目庞大得多,需要专门配置映射文件,对分区进行映射转换后进入数据库。
3.2.2 安全机制由于3层数据空间本身是根据数据的敏感性划分的,因此对于各层数据空间,本文设立了不同的安全机制,其中原始数据空间的安全级别最高,模型数据空间的安全级别最低,各层数据空间之间保持物理隔离。
在原始数据空间中,网络层面运行在与其他空间物理隔离的计算机集群上,用户认证等方面则从严格的审计机制、操作日志记录机制等多角度实现对原始数据的完全隔离。
查询、处理等均局限于数据库,而文件则经过加密压缩后,密码文件独立存放,非特殊权限或特殊原因不再打开或提取。
在模型数据空间中的安全保障机制方面,本文为每个用户分配相互隔离的虚拟机,用户以虚拟桌面的方式登录,以实现个人数据的独立、安全。
针对每个用户提供不同的数据,在个人虚拟机上实现不同的应用,以解决整个平台上多用户的不同需求。
3.2.3 访问机制在访问内容上,本文只提供对数据库的访问,各医院上传的原始数据文件均不开放对外访问权限,数据库访问主要以B/S结构查询。
传统关系查询可以使用Oracle BI等平台型工具,将原始数据作为后台数据模型,直接将一些可以维度化的列建立为维度,在此模型下,直接用OBIEE客户端对相关数据进行查询、展现即可。
元数据查询也会提供B/S查询接口,但只开放基本的统计数据,目前包含医院上传数据的问题、反馈次数、修改问题而带入的新问题等。
关键字查询的接口依然是B/S结构,但其查询结果以表关联的方式返回,在该表上可以查询对应的数据条目。
模型数据空间中的访问接口与其他两个数据空间没有很大的区别,只是在用户的数据权限(列、行、导出、计算、数据总量)方面,需要在大数据虚拟语言环境模型(model in virtual language environment of big data,MVLB)中进行监控,并记录实际操作序列等数据。