基于慢性病的数据仓库架构与应用

基于慢性病的数据仓库架构与应用

ID:76129745

大小:8.35 MB

页数:64页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于慢性病的数据仓库架构与应用_第1页
基于慢性病的数据仓库架构与应用_第2页
基于慢性病的数据仓库架构与应用_第3页
基于慢性病的数据仓库架构与应用_第4页
基于慢性病的数据仓库架构与应用_第5页
基于慢性病的数据仓库架构与应用_第6页
基于慢性病的数据仓库架构与应用_第7页
基于慢性病的数据仓库架构与应用_第8页
基于慢性病的数据仓库架构与应用_第9页
基于慢性病的数据仓库架构与应用_第10页
资源描述:

《基于慢性病的数据仓库架构与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

学校代码举束,警该含学健施冀 学位论文使用授权声明本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华东理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编学位论文。保密论文在解密后遵守此规定。论文涉密情况办保密口保密,保密期年月日至年月日十匕曰“迁艺,不人吞犬学位论文作者签“协释日、了洲〔二少甲全艺们日期多。,,年。“月砰日日期必年又月刁日 分类号密级华东理工大学学位论文基于慢性病的数据仓库架构与应用汪文华指导教师姓名刘江副教授华东理工大学申请学位级别工学硕士专业名称计算机应用技术论文定稿日期一一论文答辩日期一一学位授予单位华东理工大学学位授予日期溯年月班答辩委员会主席高大启教授评阅人蔡笠高级工程师党齐民副教授 作者声明我郑重声明本人烙守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的结果。除文中明确注明和引用的内容外,本论文不包含任何他人已经发表或撰写过的内容。论文为本人亲自撰写,并对所写内容负责。论文作者签名砂年,年以月岁日声 华东理工大学硕士学位论文第页基于慢性病的数据仓库架构与应用摘要慢性病是指那些发病率、致残率、死亡率较高,医疗费用昂贵,长期不能自愈、也几乎不能被治愈的,但具有明确预防及控制措施的疾病。找出影响慢性病发病的因素,从而进行预防是目前防治慢性病的主要且有效的手段。本课题在深刻理解了数据仓库基本概念、体系结构和构建方法论的基础上,率先将数据仓库技术引入到慢性病数据分析领域。但由于慢性病业务的特殊性,用户对慢性病数据仓库系统有其特殊的需求,如需要在数据仓库系统中不断加入新的数据源,其数据源也有一系列的特点,包括数据元定义繁多、业务系统类型各异、数据源结构复杂等。从而也使得传统数据仓库的体系结构与架构方法无法有效适应慢性病数据仓库的构建。本课题中,在原有的数据仓库体系结构中加入了中心库组件,该组件的加入有效解决了慢性病数据仓库构建过程中遇到的难题。该组件的加入不但可以使得向数据仓库系统中引入其它慢性病业务数据源变得容易,而且还可以大大方便数据仓库架构过程中的很多工作。关键词慢性病数据仓库数据挖掘中心库兴 第页华东理工大学硕士学位论文台苗,,一,一,,月七,】叭,,,,,,,,恤,,、汾娜 华东理工大学硕士学位论文第页目录第章绪论……八··············……课题研究背景························……数据仓库发展概况……,国内外数据仓库技术的应用现状……国外医疗卫生领域的数据仓库应用……国内医疗卫生领域的数据仓库应用……课题的研究意义……论文结构······……·第章数据仓库技术概述……数据仓库定义··························……主题及主题域……集成的数据··························……不可更新·······……随时间变化·······················……数据仓库的主要构成……源数据层···············……数据准备层·························……数据存储层···························……元数据部分··························……数据仓库架构方法论……自上而下与自下而上……第三范式建模与维度建模……数据仓库难点……数据抽取·········……数据质量……数据装载·····················……数据仓库实施过程中需要注意的几个问题……粒度……元数据······……数据仓库应用之数据挖掘……数据挖掘概念……基于数据仓库的数据挖掘……,了 第页华东理工大学硕士学位论文第章中心库组件……中心库的提出……中心库定义……中心库的作用……中心库建立原则与方法……中心库部署方案……加入中心库组件的数据仓库系统架构方法……中心库总结说明……第章慢性病数据仓库实施……慢性病防治业务流程……慢性病业务系统数据源……需求分析……用户分类……各类用户应用需求分析……系统实施的资源需求……主题及主题域分析……。…主题分析……主题域分析……中心库及数据仓库模型建立……中心库模型建立……数据仓库模型建立……数据仓库系统架构……业务层……中心库层……数据存储层……信息传递层……数据仓库系统网络拓扑结构……项目实施的方法……数据仓库逻辑模型设计方法论……。……数据仓库物理实现方法论……数据仓库……数据抽取……数据质量……结构级数据清洗…… 华东理工大学硕士学位论文第页业务规则级清洗……数据装载·············……”第章数据仓库应用设计……应用……应用架构……聚集……效果图……数据挖掘应用实现……数据挖掘需求……,数据准备……统计分析……数据挖掘结果应用……第章总结与展望……总结……展望……参考文献……致谢……君 华东理工大学硕士学位论文第页第章绪论课题研究背景近十年来,中国慢性病死亡人数比例呈现持续上升的趋势。据世界卫生组织一项研究报告,年全球有万余人死亡,其中死于慢性非传染性疾病。我国年代后期因慢性病等主要生活方式病死亡的人数占总死亡数,每天约有一万人死于慢性病。心脑血管病是造成国人死亡的首要原因,占人口总死亡率的,每秒就有一个中国人被心脑血管病夺去生命。高血压是危害中老年人健康的“第一杀手”。据统计,以上的脑梗塞病人、的脑出血病人有高血压史,一的冠心病人有高血压史,的糖尿病人同时患有高血压。我国因高血压引发的半身不遂、痴呆、植物人高达万人,全国每年因高血压并发症导致的死亡人数高达万人,据了解,我国高血压、糖尿病发病率已分别达和。到了今天,慢性病已经不仅仅是老年病,它的发生正在向年轻人群转移。据流行病学调查显示,我国有的人中年早逝,有很大一部分是由慢性病造成的。总而言之,慢性病已经成为国人健康的巨大威胁,针对慢性病的研究已经刻不容缓。数据仓库发展概况年代初期,提出了数据仓库的概念。在其后的几年中,数据仓库的研究和利用受到了人们广泛的关注。随着数据库技术的不断进步,数据仓库技术也得到了长足的发展,并在多个领域中发挥了重大作用。数据挖掘作为数据仓库上层的应用,在发展过程中,同样受到了人们广泛的关注。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。据悉,数据挖掘和人工智能被评为未来到年内最有影响力的技术。数据仓库和数据挖掘技术是在长期的“数据爆炸,知识贫乏”的矛盾中诞生的。年以后,这些技术在我们国内开始盛行,并被广泛应用于电信业、银行业、零售业等领域,同时也为这些企业创造了巨大的经济利益,并大大提高了其市场竞争力。随着医疗卫生行业信息化的不断发展与普及,数据仓库技术在医疗卫生行业也慢慢的流行起来。当今市场上,充斥着各类繁多的数据仓库解决方案以及数据挖掘工具,给人们的研究应用带来了相当大的便利。夕 第页华东理工大学硕士学位论文国内外数据仓库技术的应用现状国外医疗卫生领域的数据仓库应用数据仓库技术被广泛用在银行、零售、电信等多个领域。在医疗卫生行业,数据仓库也同样发挥了它的强大优势。因为国外医疗卫生行业的信息化起步较早,所以信息系统的发展比较完善,也为数据仓库以及数据挖掘技术的应用提供了一个良好的数据基础。年美国的研究者从新泽西地区位糖尿病患者的病历信息子系统中整合而成了糖尿病数据仓库,采用决策树的方法对血糖控制水平关键影响因素进行分析。美国加利福尼亚大学放射医学部构建了一个图像归档与传输系统环境基础上的数据仓库,其中包含图像与非图像信息,对癫痛病的诊断和治疗提供了很大帮助。加拿大医院建立了基于数据仓库的费用疗效估计系统,从而达到降低医疗事故率、促进疗效、减少医疗费用的目的。年日本大阪大学附属医院从临床数据仓库中抽取了一年的患者诊疗信息,对种常用药物的数据进行了常用药物用错频率的数据挖掘分析,为医院有针对性的改进医疗质量提供了有力的决策支持〔`〕。国内医疗卫生领域的数据仓库应用年月,非典袭击之后,卫生部信息化领导小组在“国家公共卫生信息系统建设方案“中明确指出,将突发公共卫生事件指挥决策系统的建设作为国家公共卫生信息系统建设的五大重任之一。在这一系统的具体建设方案中提出,要建立国家公共卫生及其相关信息的数据仓库并完成指挥中心与决策系统的软件开发,同时也要在卫生部统计信息中心建立卫生资源和医疗救治信息数据仓库〔`〕。目前,已经有一部分医疗机构着手建立了自己的数据仓库,如上海市某几家大型的医疗机构。但是出于效益、需求、技术等方面的考虑,大部分单位还只是基于各自的财务类数据建立了部门级的数据仓库,还有的可能只是建立了一个数据中心,而非企业级的数据仓库。同时,基于数据仓库的应用也只是停留在较为初级的报表、分析等数据可视化应用,而很少会涉及到深层次的数据挖掘。鉴于当前慢性病的发展趋势,为了有效进行慢性病防治工作,很多社区医疗机构都开发了自己的慢性病监测管理系统,并且这些系统也在日常生活中发挥了重大的作用。但是信息系统在医疗领域的发展还不完善,也造成了数据仓库技术在慢性病领域广泛应用的诸多障碍。主要表现有以下几点。医疗卫生领域的信息化脚步不一致目前,虽然很多医疗机构都拥有了自己的慢性病信息管理系统,但是相对于总体来说还未普及,而且系统实施时间有先有后。系统平台以及开发技术都有很大的不同。各系统独立运行,无法很好的共享信息,形成了很多所谓的“信息孤岛”。标准不完善 华东理工大学硕士学位论文第页在医疗卫生领域里,有很多术语、编码都还没有统一的标准。在不同的系统里,不同的名字可能代表同一个实体,同样的名字却又代表不同的实体,这就造成了数据很难集成、并统一应用。数据质量较差首先因为最初慢性病信息系统的设计不完善其次操作人员大部分都是医务人员,计算机知识比较薄弱,且缺少系统的培训再者系统投入应用之前已经积累大量有质量问题的历史数据,这些原因造成了系统数据质量低下的现状。对质量差的数据进行分析,难免会影响结果的准确性,这也相应增加了数据仓库实施过程中数据清洗的工作量。课题的研究意义世界医学研究表明,在诱发慢性病的众多因素中,遗传因素占、社会因素占、气候因素占、医疗条件占、而个人生活方式占。从这些数据可以看出,对慢性病发病率上升的诸多原因进行分析,揭示慢性病诱发性因素并进行预防,对降低发病率是有很大作用的。除此之外,我们可以将从慢性病业务上进行研究的这一套框架方法经过相应的改变,然后推广到其它领域,如流行病领域。这样一来,我们可以从各方面对流行病进行分析,从而达到诊断和预防流行病的效果。论文结构本论文共分为六章,结构如下第一章绪论。主要介绍了本论文课题的业务背景、数据仓库的发展概况、数据仓库在国内外医疗卫生领域的应用状况第二章数据仓库技术概述。主要描述数据仓库、数据挖掘的理论知识,并对一些容易模糊的概念提出自己的理解第三章中心库组件。主要提出了中心库组件的概念,以及提出背景、作用以及建立原则与方法等,也是本课题的创新点所在第四章慢性病数据仓库的实施。主要描述了本数据仓库系统的体系结构,与详细的数据仓库实施过程第五章数据仓库应用设计。主要介绍了几种基于数据仓库平台设计出来的数据分析应用,并将应用嵌入到数据仓库系统中,实现数据仓库系统的体系化第六章总结与展望。主要描述了该系统实施过程中遇到的问题,并对系统未来发展的方向提出展望。 第页华东理工大学硕士学位论文第章数据仓库技术概述数据仓库定义数据仓库是面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。下面详细介绍上述的四大特点。主题及主题域主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。与主题相对应的另一个重要概念就是主题域。每个主题都有一个主题域与之对应,主题域是一系列属性的集合,该属性集合需包含所有在分析主题时,需要用到的数据。集成的数据数据仓库的数据是从原有的分散的数据库、数据文件和数据段中抽取来的。数据来源可能既有内部数据又有外部数据。面向应用的数据与面向主题的数据在结构上的差别很大。因此,在数据进入数据仓库之前,必然要经过转换、统一与综合。这一步是数据仓库建设中最关键、最复杂的一步,也是最耗费工作量的一步。统一源数据不同的应用系统中,开发人员对同一对象的表现方法不尽相同,如性别有男、女,,等。因此,当把数据加载到数据仓库之前,必须消除由不同应用造成的差异,将数据进行标准化、统一化。数据标准化工作主要从命名规则、编码规则、度量单位等方面进行。汇总与计算许多情况下,在原有的数据库中抽取数据生成数据仓库时,并不仅仅涉及到转换,同时还涉及到数据的汇总与计算。因为,为了满足各种分析应用,数据仓库中的数据必须以最细节粒度进行存储,且会存储相当长一段时间的历史数据。这就造成数据仓库中的数据量异常的庞大甚至达到级。但是据统计,以上的应用基于汇总之后的数据。如果在用户提出需求时再进行数据计算汇总,往往效率很低。于是,开发人员会在分析了用户需求的基础之上,预先对很有可能要被访问的汇总数据进行预计算,以满足大部分用户的查询需求。以上所述也解释了为什么数据仓库往往采取双重粒度或多重粒度结构。关于粒度的 华东理工大学硕士学位论文第页问题,后面还会讨论不可更新数据一旦从源数据库经过转换、汇总等程序,加载到数据仓库后,一般不会再被更改。数据仓库作为支持各种数据分析利用的平台,普通用户只能以只读方式访问数据仓库,而不能对数据进行修改。随时间变化不可更新和随时间变化往往会被认为互相矛盾,其实不然,数据仓库中的数据不可更新是针对应用来说的,即用户只能分析数据,而不是进行数据更新操作。而随时间变化表示随着时间的不断迁移,开发人员会不断的向数据仓库中导入新的数据,同时汇总、删除旧的数据内容。而且,随着新数据的不断导入,往往会造成一些数据的不一致,这时需要对数据仓库中的数据进行一定的更改。缓慢变化维就是很好的例子,它表示随着新数据的导入,要对维度数据进行适当的更改以避免新的应用中出现的问题。数据仓库的主要构成不同的企业内部建立的数据仓库系统,其基本组成都是相同的。所不同的是不同的数据仓库系统中对不同组成部分的重视程度不同。图为数据仓库的系统组成结构图。口洲自女创目数据准备致据存储数招展示层图数据仓库结构图价源数据层数据仓库的源数据主要分为四个主要类别生产数据、内部数据、存档数据、外部数据。生产数据该类数据主要来源于单位内部的各种操作型系统。开发人员需要从不同的操作型系 第页华东理工大学硕士学位论文统中选择数据段。在处理这些数据的时候,开发人员往往会遇到很多不同的数据格式,同时会遇到各种不同的硬件平台。此外,支持这些数据的是不同的数据库系统和操作系生产数据的多样化特性,使得开发人员必须花费大量的精力将来自不同系统的生产数据进行标准化、并且将它们转换、整合成数据仓库可以存储的有用数据。内都鳅站二`,、一'一'石一、砧。口由。田。,右白尸的申子表格、文档、客户信息等等,这些就属于内部数据辰币融部分对数据仓库是很有用的。在医疗领域的一些专齐可户护亮胜复严毓巍进而结,这些经验对数据仓库建模、数据挖掘应用等都具有很强的竿腿二'一弄颧员示能忽略这些存在于私人资料中的内部数据。数据仓库霓严粤育愁蟹数据'藕苗开碗人员共同决定。工部门也应该与用户部门一起收集这些内部数据。存档数据、,,,、'一'一`薪垫赢是用来运行当前业务活动的,在每一个操作型系统中衅钟对竺据进藉荐石丁轰'巍接删除日的数据。数据仓库中的数据主体是历史数据,因此,存档数据对数据仓库无疑具有重要的意义。一、,,,人一`目又亨褥勤访更数据,我们就需要检查各操作型系统产生的存档文件。根据数据仓库的需求不同,应该包含足够多的历史数据。如通过其它国部数据无法替代生产和存档数据撤熟扮澡自己企业的竞争力,就需要通过其它渠道获得外部数据。数据准备层,开发人员需要对这些数据进一旦从不同的操作型系统和外部数据源得到数据之后,开发人员需弩呀砰节愁竺份行不同方式的处理,并以适合应用的方式存储。而这些数据处理过程就友生在数贴乍奋层。数据准备层完成的功能主要有抽取、转换和加载。数据抽取这些数据源往往基于不同的软硬件平台,开发数据抽取工作是针对多个数据源,人员往往要针对不同的数据源使用不同的技术。目前市场上,己经存在多数况仃卜抽取工具,它们提供多种数据接口,可能从大多数现存数据源中方便的抽取数据数据转换数据转换工作可以说是数据仓库项目实施过程中会遭遇的最大挑战。主要包括三个方面一、要对每一个不同来源的数据进行清洗。二、各数据元素的标准化。三、设计 华东理工大学硕士学位论文第页数据的汇总数据加载数据加载过程由最初加载和增量加载两个部分组成。最初加载工作需要花大量的时间将大量的数据加载到数据仓库中。之后,每隔一段时间会将业务系统中新生成的数据加载到数据仓库中,这就需要新的技术能够在源系统中识别新生成的数据。相比之下,虽然最初加载工作涉及的数据量大,且花费时间长,但是难度却比增量装载工作要小得多。目前市场上,存在着很多的数据转换工具采用的是的策略,即先将源系统数据直接加载到目标数据库中,再利用数据库管理系统本身的数据处理功能来完成数据的转换,并最终将处理后的数据加载到数据仓库数据库中。数据存储层数据仓库存储平台数据仓库应该是一个独立的部分,因为数据仓库存放大量的历史数据,并且经常要进行大规模的运算,如果将其部署在操作型系统平台上,会极大的影响操作型系统的性能,同时也无法满足分析用户的需求。目前,绝大多数的数据仓库仍以关系型的数据库管理系统作为数据存储平台。一方面是因为,关系型数据库有完善的理论基础,至今己经发展的非常成熟。其次关系型数据库对处理大数据量有明显的优势可以达到级别,这对多维数据库等新型数据库来说,是无法达到的。再者,关系型数据库擅长执行查询、聚合、分组等操作,能够很方便的满足用户的分析需求。其实,在企业级的数据仓库应用中,数据仓库往往只作为一个数据平台,支撑各种类型的数据应用。分析人员一般不会直接在数据仓库平台上进行数据分析操作。而是在有新的分析需求时,从数据仓库中抽取出特定的数据,形成一个数据集市供用户作分析。下面介绍数据集市相关的内容。数据集市数据集市又被称为部门级的数据仓库,它应该是企业级数据仓库的一个子集。数据集市通常是按照某个主题从数据仓库中抽取有时需作相应转换出来的数据集合。此外,数据集市也可以直接以操作型系统为数据源,这涉及到先建立数据仓库还是先建立数据集市的问题,后面会详细介绍。数据集市的优点就在于它在效率、易用性等方面迎合了专业用户群体的特殊需求。由于数据集市的数据量相对较小,所以数据集市一般以星型结构或雪花型结构进行数据存储,这种结构更有助于用户对数据进行分析,而且可以显著提高分析操作的执行效率。星形模型结构如图所示。数据集市并不一定是一个独立的部分。当数据仓库基于维度模型来构建,且数据仓库中包含的数据量相对较小时,数据集市可以是基于数据仓库的一个逻辑视图。即人们 第页华东理工大学硕士学位论文基于数据视图进行应用设计,但具体操作却是由数据仓库平台实现的。相对的,当数据仓库以第三范式模型构建或基于维度模型的数据仓库中包含相当大量的数据时,就应该基于数据仓库抽取出部分数据建立单独的数据集市。基于第三范式的数据仓库建立独立的数据集市,是因为生成数据集市一般需要进行相对复杂的数据转换,而基于维度数据仓库建立单独的数据集市时更多的是出于对数据仓库性能上的考虑。、口脚云,落李砂`山料幸,,叮了艺妞公红萝叮以肛公耳的“万。肛图星形模式星型结构由维表和事实表两部分构成维表维度是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构级别。这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析事实表指其中保存了大量业务度量数据的表。事实表中的数据一般不会更改,只会在数据超过了有效年限后被汇总删除。多维数据集多维数据集中的数据以星型结构进行存储,由一个事实表和一组维表组成其实一个多维数据集中可以包含多个事实表,这种多维数据集称为超立方体,多维数据集主要支持数据汇总分析,因此它的分析对象大多是可聚合的度量值。多维数据集可以基于数据仓库,也可以基于数据集市生成。针对多维数据集进行上钻、下钻、切片等操作总称为分析。设计并存储多维数据集,以支持用户进行分析的工具,就称为服务器。其实在多维数据集的具体实现中,维表和事实表并没有明确的区分。目前,越来越 华东理工大学硕士学位论文第页多的工具支持一个表既作为事实表,同时又作为关联另一个事实表的维表。另外,多维数据集与数据集市有一定的相似之处,即都以星型模型来构建。但它们又有以下几点区别。多维数据集的事实表中一般包含可累加的事实,而数据集市则无此类要求,可以是任意类型事实数据集市一般存储最细节粒度的数据,而多维数据集一般存储经过聚合的数据数据集市通常采用关系型数据库存储,而多维数据集通常采用多维数据库存储。信息传递层信息传递部分就是将数据转换为信息的组件,为了向不同级别的用户提供信息,信息传递部分需要包含多种信息传递的方式。如对普通用户需要一些预先订制好的报表,商业分析人员需要复杂的查询以及多维分析分析,行业专家可能需要利用数据挖掘工具对某一部分数据进行深度挖掘,从而发现一些自己感兴趣的商业趋势和模式。元数据部分元数据被定义为关于数据的数据。数据仓库中的元数据与操作型系统中的元数据相似,但用法并不相同。操作型系统中,用户几乎不与元数据打交道,用户通过界面及预定义报表等手段来使用系统和从系统中获取信息。相对而言,用户在使用数据仓库中的数据时,除了通过预定义的应用设计来获取信息外,往往还需要自己定义查询或设计新的应用来获取信息。由于这些原因,用户在设计查询之前,就需要了解数据仓库中的数据,这时用户就需要元数据。其实元数据的应用贯穿了数据仓库的整个生命周期。关于元数据后面会详细介绍。数据仓库架构方法论自上而下与自下而上“当今经理们面对的最重要的问题就是到底是先建立数据仓库还是先建立数据集市。”—数据仓库创始人“自上而下”方法,即先对企业的整体情况进行研究,建立一个企业级的数据仓库,其中的数据都经过转换、整合、清洗等一系列程序,并最终对用户提供一个统一的数据视图。理想状况下,由于数据是规范化的,没有太多冗余,数据质量能够得到保证。当用户提出应用需求时,往往需要而且能够从数据仓库中抽取出特定的数据形成一个独立的数据集市,以支持用户的分析应用。该流派的代表人物有。“自下而上”方法,即先调研用户的需求,针对不同的需求建造数据集市。当建造多个数据集市以后,这些数据集市从逻辑上构成了一个整体的数据仓库。该种方法通过需求来确定应该抽取哪些操作型系统中的数据。“自下而上”方法的宗旨是一切立足于需求。该流派的代表人物有。自上而下和自下而上的建造方法都有其得弊,列表如表所示。 第页华东理工大学硕士学位论文表自上而下和自下而上的比较几一一自上而下—自下而上这种方法的优点是这种方法的优点、可以从整个企业的角度来看待数据、可以快速实施、整个数据仓库是一个有机的结合,不由彼、良好的投资回报率此分离的数据偏高组成、失败的风险小、对数据内容采取惟一、集中的存储方式、可以先建立重要的数据集市,坚定投资者、能够满足各种分析应用需求的信心、项目团队可以从中学习和成长这种方法的缺点是这种方法的缺点、需要花费大量的时间和费用来建造、数据仓库只能完成特定的需求,单有新的、失败的风险很大需求时,需要修改数据集市的模型或者重、需要开发人员有高水平的综合技能新建造新的数据集市、过多的数据集市,容易造成结构上的混乱、存在矛盾和不一致的数据就国外的数据仓库厂商而言,他们以自上而下的方法为主,即先建立一套完整的企业级数据仓库,并且他们通常针对行业已经设计出了抽象程度比较高的概念模型。当具体实施时,他们会考虑用户最终有哪些应用,再根据应用来做取舍。一般来说,数据仓库的实施是分阶段完成的,如一般的企业会先针对财务数据作分析,那么,建设者就会先抽取财务数据建成一个小型的数据仓库或称为数据集市。当出现新的需求时,会在原数据仓库的基础上进行扩展。如此反复迭代,最终形成一个企业级的数据仓库。由于有企业级的概念模型作向导,因此不会出现数据仓库结构混乱的现象。与国外相反,国内的数据仓库厂商的做法大多是自下而上。其中一部分原因可能是客户要求尽快看到结果以坚定其继续投资实施数据仓库的信心。另一方面,也因为目前为止用户对数据仓库的应用还处在比较初级的阶段。最初若能经过详细的需求调研,就能够满足用户的绝大多数的需求。其实,比较按照两种不同理念完成的第一版本,我们就会发现,这两种交付版本非常相像。当今一种比较流行的做法,是将自上而下与自下而上相结合。具体步骤如下从整个企业的角度来计划和定义需求建造一个完整的企业级数据仓库模型使数据内容一致而且标准化将数据仓库作为一个超级数据集市来实施,每次一个。如此一来,既能保证多个数据集市在逻辑上可以构成一个完整的数据仓库。也可以快速、及时的从数据仓库项目中获得收益,从而坚定投资者的信心。第三范式建模与维度建模了解数据仓库的人经常接触两个名词,即第三范式建模和维度建模。所谓第三范式建模并不仅仅是指数据模型需要满足第三范式,更说明仓库设计人员需要采用自上而下 华东理工大学硕士学位论文第页的方法来设计数据仓库模型。而维度建模则是以自下而上的方式设计数据仓库模型,结果模型应该是星型结构或者雪花型结构。值得一提的是,雪花型结构也是满足第三范式要求的,这就很容易让人产生误解。正确的理解第三范式建模与维度建模的区别对数据仓库模型设计者来说非常重要。数据仓库难点在建立数据仓库的过程中,数据的抽取、转换、装载过程往往要占用以上的项目实施时间和工作量。创建一个系统通常需要考虑现实业务需求、源数据系统、人力物力资源预算等多个方面,这往往是非常困难的。一般在数据仓库实施之初,很多设计者往往会低估数据仓库过程的复杂性、困难度。下面针对过程中几个重要步骤进行简要介绍。数据抽取简而言之,数据抽取就是把数据从源系统中抽取出来的过程。数据仓库的实施往往是迭代式的,即每次实现一个主题,所以数据抽取工作的实现思路往往是按需所取,即当前数据仓库或数据集市中需要哪些数据,则从业务数据库中抽取相应数据进行填充。数据抽取过程中主要有两大难点一是各业务系统平台互不兼容。二是增量数据的有效获取。对于第一个问题,由于目前市场上流行的工具提供了大量标准的数据传输转换接口,所以一般不存在数据无法抽取的问题。而增量数据获取的则需要对源系统业务进行有效分析,并设计相应的数据获取策略。难度相应较大,因此下面主要说明增量数据获取的不同实现方法。数据抽取过程分为最初抽取和增量抽取两类,最初抽取操作只需要按变量将所有需要的数据全部抽取出来,而增量抽取操作指的是抽取在前一次数据抽取操作之后新产生的数据。所谓新产生的数据可以是业务系统中新生成的数据,也可以是在原数据基础上修改过的数据。开发人员则需要制订严谨的新增数据识别策略。下面列出几种常用的识别新增数据的方法,每一种方法都有其适用的环境。基于日期属性很多数据源中都包含着时间属性,如确诊事实表中包含确诊日期、随访事实中包含随访日期等。在这种情况下,可以基于该时间属性来实现新增数据的抽取,即每次抽取过后记录下抽取截止时间,下一次只抽取数据表中,该时间属性值在记录时间点之后的记录。这种方法适合于表中带有明确的时间属性的情形。完全差异比较这种情况下,保持了对以前数据的快照,并且将该快照和当前数据记录一一进行比较,找出存在变化的地方。这样可以识别每一处的变化,但是这种方法非常消耗资源,一般在数据量较小的时候使用。数据库日志分析通过数据库日志来得出数据源变化的情况,迅速、准确的识别新增数据或新修改的数据。这种方法一般只有大型数据库才能有效支持,如、 鱼些——一一一一兰鱼墅主塾全丝些、等,并且这种方法需要数据库中保存大量的日志数据,一旦数据日志被删除或被损坏,则会造成数据的丢失,而无法恢复。触发器即通过在相应的表上创建触发器,一旦相应的动作在表上进行,则触发器执行相应的动作,这种方法能有效识别数据源的更改,但是使用触发器非常昂贵。一般在数据较少的情况下使用。数据质量数据质量问题可以说是数据仓库系统中最应该受重视的问题,它直接关系到数据分析结果是否准确。数据质量应该从数据生成之初就加以严格控制。然而,目前的现状是很多残留的旧系统仍在使用,数据使用人员也缺少系统的培训,从而造成了大量有质量问题的历史数据,而且这种数据还在不断生成。除了与数据提供方进行交流,建议其从各方面提高数据质量之外,人员还需要设计完善的数据清洗方案,对现有数据进行数据清洗。虽然中心库中己经对各变量的取值进行了一定的约束,但是由于各种原因,中心库中还是会存在有质量问题的数据,如空值等。这就需要人员在数据处理过程中进一步进行数据清洗操作。数据清洗往往需要花费大量的时间与精力、这也说明了为什么工作占了总的数据仓库开发工作量的左右。数据清洗方案一般可以总结为下面三个级别,分别是属性级别清洗、结构级清洗和业务规则级清洗。属性级别清洗属性级别清洗指对各个变量的不属于值域范围的取值进行清洗。该清洗过程中,首先需要通过对源系统数据库说明文档的分析和与源系统开发人员的交流来确定各个属性的数据类型、值域、可否为空等元数据。然后对不满足属性约束的取值进行处理。属性级别清洗类型主要有缺失值处理、错误值处理。缺失值处理的主要方法有以下四种忽略包含缺失值的记录从本数据源或其它数据源推导出特定值用平均值、最大值、最小值或其它概率统计函数值代替人工输入一个可接受的值。错误值处理的主要方法有以下两种。对格式错误的值,则以标准格式替换对超出值域的值,则以平均值、最大值等统计函数值代替。结构级数据清洗结构级数据清洗主要是对违反数据库结构约束的数据进行清洗。结构级数据清洗主要包含三个方面,即主键冲突、外键冲突和重复记录剔除。由于数据仓库是一个集成的数据源,一个主键值可能同时存在于多个业务数据库中,并且代表着不同的实体,当这 华东理工大学硕士学位论文第页些数据源集成以后便会出现主键值冲突的情况。相应的,外键也会相互冲突。另外,数据仓库中也可能会存在由不同主键标识,却代表同一实体的情况。这时就需要对这些重复记录进行剔除。业务规则级清洗业务规则符合性分析主要用来分析数据符合应用规则的程序。在不同的业务中,存在着很多规则,而这些规则在数据库中的反应就是多个变量间存在的关系,如一条记录中的多个属性取值是一一对应的。但是很多时候开发人员无法用约束属性的取值类型、格式或主外键的方式来对反映业务规则的属性间关系进行约束。原因主要有以下几点。这会使得系统的设计和开发过程过于复杂系统中经常会存在空值,对空值无法验证业务规则的符合性系统设计之初,很难穷举出所有的业务规则。日常业务活动中涉及的规则主要有三种类型,分别是联合数据有效性规则、计算型规则和时间规则。联合数据有效性规则该规则主要表现为两个或者多个数据元素之间有一个特殊的有效性关系,如一个城市只能属于一个省份,一个邮编只能对应一个地区计算型规则该规则主要表现为同一张表或不同表的不同的字段间存在着一定的函数关系。如总医疗费用医药费诊疗费住院费化疗费··…时间规则该规则主要表现为事件发生的时间有着先后顺序,如随访日期必须在专项报告建卡时间之后,随访记录审核时间必须在随访之后。数据装载最初装载最初装载指的是将数据仓库中需要的,且目前已经抽取上来的,并且已经经过清洗、转换的数据加载到数据仓库中,该次装载涉及到大数据量的迁移,所以相对要花费更多的时间。但由于最初装载的数据对象非常明确按变量抽取所有数据,所以最初装载的实现也显得相对容易。只需要将数据统一清洗、转换并加载到数据仓库中,同时记录中心库中最新的数据导入时间即可。增量装载随着业务活动的不断发生,用户会不断向中心库中导入数据,新导入的数据也需要被加载到数据仓库中。由于大多数数据仓库表都非常庞大,所以不能把每次数据装载过程都当作最初装载来实现,往往只能也只需要导入增量抽取过程所获得的数据。只装载新增数据的过程就称为增量装载。数据仓库增量装载过程由维表增量装载和事实表增量装载两部分组成。维表增量装载 第页华东理工大学硕士学位论文根据维表的定义可知,维表中存放着相对稳定的数据。但随着时间的推移,维表中的数据也会发生变化。如医生维中的数据可能因为医院招聘了新的医生、原来的医生评了高级职称,又或者老医生离职了等等。所有这些情况都会造成医生维中数据的变化。但是,维表增量装载过程并非只是导入数据的过程,也包括对原始数据的更改。处理维度表中数据变化的方法主要有三种。覆盖维度属性该方法处理方式为一旦属性发生了变化,就用最新的属性值来更新旧的值。这样一来,维表中记录着相应属性的最新状态,但是历史数据将会丢失。这种处理方式最简单,适用于历史值对业务没有意义的情况。如患者基本信息维中有每个患者的手机号码的记录,当患者更换了手机号码以后,由于历史手机号码对业务没什么意义,所以可以直接用更换后的手机号码代替以前的手机号码。添加一个新的记录行直接覆盖历史属性值的方法最容易,但维表中的历史数据也往往有益于后续的数据分析。这是就可以采用添加一个新的记录行的方法来处理这种维表数据变化的情况。该种方法也是处理维度表中属性值变化的最常用的,也是最有效的方法。该处理方式为向维表中插入新记录,并用新的代理键来标识,以反应新的属性值变化。另外,还将记录每条记录的生效日期、有效终止日期和是否当前标识符。例如,患者张三在离婚,而该数据并不适合直接丢弃,于是在维表中添加另一条张三的记录,同时用新的代理键来标识,并且注明该条记录的起始有效日期、有效终止日期和是否当前的指示符。具体例子如表所示。表添加记录行的维变化处理方法几代理键患者患者姓名婚姻状况有效日期终止日期当前行指示符张三已婚非当前李四未婚当前张三离异当前添加一个新的维度属性该种类型并不常见,书上将其称为“软”变化,表示尽管发生了变化,但是逻辑上可以认为变化并没有发生。医疗卫生领域涉及该种处理方式的场景描述如下假设南汇区在年并入了浦东区,在按区县进行发病人数统计时,有的决策者可能把南汇区并入浦东区,而有些决策者更倾向于把南汇和浦东分开进行统计分析。为了满足不同决策者的需求,我们可以在维表中加入一个属性表示区县合并后的情况。具体实现如表所示。 华东理工大学硕士学位论文第页表添加新属性的维变化处理方法代理键患者患者姓名原所属区县合并后所属区县张三南汇浦东李四浦东浦东王五徐汇徐汇事实表增量装载事实表中存放着各机构日常工作中产生的业务事实。新导入的数据中,大概以上都会被加载到事实表中。事实表的数据导入方式,一般只需要直接插入新记录即可,历史数据则不会发生变化。这也符合“已经发生的历史是不会改变的”这一原则。增量事实装载与最初事实表装载是不同的。首先,由于增量装载过程相对频繁,所以增量事实表装载应该尽量实现自动化。其次,增量事实装载过程发生在数据仓库向外界提供服务之后,所以增量装载过程需要考虑在尽量不影响性能的前提下高效的完成。对于小型或者中型系统来说,插入操作的性能就能够满足要求。如果事实表很大,就应该为了便于处理而采用不同的处理方式。主要的措施有删除索引进行数据快速插入,将数据插入不同的分区,然后将分区合并等。数据仓库实施过程中需要注意的几个问题粒度粒度的概念粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别就越小反之,细化程度越低,粒度级别就越大。确定数据粒度的原则数据仓库中粒度级别的确定是一个非常复杂的问题,表列出不同粒度级别的优缺点。表不同级别粒度的优缺点几最细节粒度汇总级粒度造成的问题、数据仓库中庞大的数据量、损失一些细节信息、需要分析汇总数据时,效率非常低、无法满足用户提出的所有需求下带来的好处、可以满足用户的任何需求、数据量相对很小、能满足用户的大多数应用、作分析时,效率很高 第页华东理工大学硕士学位论文由此可见,数据仓库采用何种粒度级别是数据仓库实施人员需要考虑的一个非常重要的问题。下面列出几点确定粒度时需要考虑的因素。数据仓库要完成的分析任务类型、可接受的数据最低粒度和能存储的数据量确定粒度前,应该粗略估算数据量的大小如果存储空间有限,就只能适当提高数据仓库中数据的粒度级别粒度的确定实质上是业务决策、分析需求、软硬件和数据仓库使用方法的一个折衷粒度的划分一定要满足用户决策分析的需求,这是数据粒度划分策略中最重要的一个准则〔随着软硬件的发展,数据仓库中能存储的数据量越来越大,为了同时兼顾“满足用户决策分析需求”和“分析效率”这两点,现代的数据仓库一般采用双重粒度级或者多重粒度级的数据仓库结构。双重多重粒度的数据仓库结构当一个数据仓库中存储了大量的数据时,考虑使用双重或多重粒度级别是很有意义的。下面简要介绍双重粒度级的数据仓库结构。下面举例说明双重粒度的数据仓库结构。结构图如图所示。先月姚甚至更乡的于含析处习皿充月挽甚互查更少的于全书斤处月皿图双重粒度结构的数据仓库衍如图所示,准备区的数据一方面加载到细节数据中,另一方面,经过汇总计算加载到轻度综合的数据库中。且综合级数据库中的数据量要比细节级数据库中的数据量小得多。当然,轻度综合级的数据库中,对能访问的细节级别存在一定的限制。由于数据仓库一般面向分析人员使用,所以大多数分析应用可以在数据量小、存储效率高的综合级数据库上完成。而只有少量细节的查询请求需要从细节级数据库上查询。由于细节级数据库中的数据量往往很庞大,因此,有必要将细节数据存放在磁带或其它廉价的海量存储介质上。 华东理工大学硕士学位论文第页最后需要说明的是,人们往往从数据仓库中抽取出特定的数据形成一个新的数据集市来满足分析需求,这也可以看成是双重或多重的仓库体系结构。元数据在本文的节中,简单的介绍了元数据的概念,下面将详细介绍元数据。元数据的必要性元数据对数据仓库使用的必要性对数据仓库的使用,关键在于如何从数据仓库中获得信息。用户需要自己从数据仓库中获取信息。大体上来说,用户自己制订报表、创建特定的查询。但他们在定制自己的应用之前,需要了解数据仓库中的数据。而了解数据仓库中数据的方法就是通过对元数据的访问。元数据对构建数据仓库的必要性在构建数据仓库时,需要对操作型系统中的数据进行操作。而操作型系统中的数据的结构、所在位置,数据仓库中数据的结构、源到目标的映射、源到目标的转换规则等信息都必须通过访问元数据来获得。元数据对管理数据仓库的必要性当数据仓库投入使用以后,当有新的数据源要加入到数据仓库中时,如何设计新的操作仓库运行过程中如何维护系统的安全要解决这些问题,都需要元数据的协助。元数据的分类对元数据有多种分类方法。由于在本文节中,将数据仓库分为四个区域数据源区域、数据准备区域、数据存储区域以及信息传递区域。且每一个数据仓库处理过程都只出现在这四个区域中的一个。所以,我们也按功能区域划分元数据。数据源区域元数据数据源区域元数据主要描述数据源的数据结构等内容,是数据标准化、数据转换等操作的基础。数据准备区域元数据数据准备区元数据主要描述了准备区的数据结构,源数据到目标数据的转换规则等内容。信息存储区域元数据数据存储区元数据主要包括数据仓库的逻辑结构、物理结构、软硬件平台等的说明内容。信息传递区域元数据信息传递区域元数据主要描述数据仓库中的数据内容,以便用户能方便的进行应用查询设计,并方便的解释结果。 第页华东理工大学硕士学位论文数据仓库应用之数据挖掘数据挖掘概念数据仓库作为支持数据分析应用的平台,主要作用在于提供了一个完整的、一致的、准确的数据源。基于数据仓库的应用主要有分析和数据挖掘。数据挖掘更是当今信息技术领域研究的热点。广义的数据挖掘可以理解为从数据中发现知识。精确定义为数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学等。基于数据仓库的数据挖掘通用数据挖掘流程主要包括数据抽取、数据预处理、数据转换、数据挖掘、模型评估这五大步骤。较为典型的数据挖掘流程图如图所示。数招挖招、效掘抽取转换洲口口尹户户`分,数据淑目标数捆清洗后效招转换后数招模式知识图数据挖掘流程图对数据挖掘来说,数据仓库基础不一定是必须的。数据挖掘的数据源可以是任何类型的,如结构化的数据库表、半结构化的文件、文件、无结构化的文本文件,甚至可以是图像文件、视频文件等。但数据挖掘任务成功的关键之一是基于一个完整的、准确的、一致的数据源。而数据仓库恰恰提供了这样一个数据平台。基于数据仓库进行数据挖掘的主要优势有以下几点。方便的数据获取。因为数据仓库几乎包含了企业内部所有的数据,所以数据挖掘人员可以直接从数据仓库中获取任何想要的数据高效的数据挖掘过程。数据挖掘项目中,有以上的工作量都花在数据预处理上。然而,数据仓库中的数据已经经历过数据探查、数据清洗等一系列数据 华东理工大学硕士学位论文第页质量控制工作。从而为挖掘人员省去了绝大多数工作,而可以把主要精力放在模型模拟、评价及应用上工作量的复用。数据仓库中的数据经过处理后,稳定的存储在数据仓库中。不同的挖掘项目可以反复存取同一部分数据。而基于其它数据源的挖掘项目结束后,往往会丢弃曾经用到的数据,而下次再用到同样的数据时,又需要重复原先的数据预处理工作,造成工作量的大量浪费更准确的结果。基于复杂数据源的数据挖掘项目,往往涉及到数据抽样等过程。相对于基于数据仓库的以海量数据为基础进行的数据挖掘,减少了因抽样造成的误差,从而使得结果更准确。数据仓库与数据挖掘技术的结合是今后发展的一个大趋势。数据挖掘也是数据仓库可支持的主要应用之一。基于数据仓库的数据挖掘流程如图所示。刁口,弋甩甲公于△贝女彬组它绷之卜。`·绷文创目抽周江转荆跳、扮月比拍吧七刀林特换眉朔橄书目袍陇,弋图基于数据仓库的数据挖掘流程扯 第页华东理工大学硕士学位论文第章中心库组件中心库的提出信息技术在医疗卫生领域已经取得了长足的发展,医院信息管理系统、临床信息系统工等均被广泛应用于各医疗卫生机构。此外,糖尿病信息管理系统、高血压信息管理系统等也相继被开发出来,并被应用于疾病控制中心、社区医疗等机构。就上海市而言,目前各区县乃至下属各社区都相继开发了自己的慢性病信息管理系统。随着各区县慢性病信息系统的使用,各机构都积累了大量的业务数据,这就为数据仓库技术的应用提供了前提条件。原始的数据仓库构建方法是,对原始特定的几个数据源进行深入分析,然后基于这些数据源进行模型设计、并最终部署在数据库中。但在该课题中,在数据仓库建设之初,仅有少数几个医疗机构愿意构建数据仓库,但在数据仓库投入使用并产生效益之后,可能还因为其它原因,会不断的有新的机构同意将其业务数据数据源加入到该数据仓库系统中。但由于各机构的慢性病信息系统都是自行开发,而且开发的时间不同,开发技术各异,从而造成了各系统数据源类型、数据库结构、所包含的数据元内容等都不相同,这可能也会导致有些机构的业务数据在数据仓库中不存在对应的数据元,即数据无法装载到数据仓库中的情况。此种情况下,要将新数据源加入到数据仓库系统,就必须对数据仓库模型、过程等作一定的更改,甚至是重建新的数据仓库。本课题中率先在数据仓库系统中引入了中心库组件,有效的解决了上述问题,它能尽量保证在己建成的数据仓库系统中新增数据源的情况下,维持数据仓库系统的稳定,甚至不需要对数据仓库系统的任何组件作任何修改。下面各节将着重介绍中心库定义、作用、建立原则与方法等内容。中心库定义中心库是业务数据源层与数据仓库层之间的一个基于业务数据元标准的高范式的数据库它基于最小业务单元来构造,并将各个最小业务单元反应在业务数据元标准中定义的数据元的分类上。简而言之,就是通过对慢性病防治业务的理解,尽量将慢性病防治业务系统规范化为多个彼此无交集的最小业务单元也可理解为表,并将每个最小业务单元与相应的数据元进行对应。如此一来,业务标准中定义的数据元就被划分成为多个高范式的表。而所有这些规范化程度很高的表即组成了一个完整中心库。需要明确说明的是,中心库中的所有数据项并非基于各业务源系统定义的,而是来自慢性病业务数据元标准。而业务元数据标准中定义了所有慢性病防治业务中涉及到的数据元。这也解释了为什么所有的慢性病管理系统中的数据都可导入中心库,从而最终 华东理工大学硕士学位论文第页载入数据仓库。中心库的作用中心库组件的加入使得整个数据仓库体系结构更具扩展性和稳定性。总结数据仓库体系结构的主要作用有以下几点。可方便的扩展数据源按传统的数据仓库架构方法建成的数据仓库系统,当要求加入新的数据源时,轻则可能会导致数据仓库模型、程序等的更改,重则导致整个数据仓库的重建。根据中心库的定义以及生成原则可知,几乎所有慢性病管理系统中的数据元在中心库中都有定义标准的数据元与之对应。而新数据源的加入,只需根据源数据的特点设计数据转换、加载程序将数据导入中心库即可,而不会对数据仓库系统的其它组件产生影响。能有效减轻数据仓库的压力中心库中的数据在被导入数据仓库之后,并不会被全部清空,而是会根据业务需求存储部分数据,以支持某些用户的普通查询等操作。如由系统的分析需求可知,普通患者也存在查询需求,而相应的服务就是由中心库支持的。这就大大的减轻了数据仓库服务器的压力。方便数据仓库的过程本课题中的数据仓库过程分为两个部分数据由数据源导入中心库的过程中心库和数据由中心库导入数据仓库的过程数据仓库。方便的中心库过程中心库过程根据数据源的不同而不同,而且对每一个数据源,需要设计专门的过程。这与传统的数据仓库过程类似,但其过程实现却相对容易。因为根据中心库的概念可知,中心库中的表一般可以通过对源数据模型的规范化操作来得到,即通常情况下,源数据库中的一张表可以按列拆分成中心库中的多张表。直接通过关系代数计算中的投影操作来完成过程,相对于要经过复杂的笛卡尔积、选择等操作来完成操作则要简便得多。方便的数据仓库过程本课题中的数据仓库实施过程与传统数据仓库过程相比要相对困难,但其有一个非常大的好处,即只需要开发一次,并且在新的数据源加入数据仓库系统的情况下,也不需要对该过程作任何的更改。中心库建立原则与方法中心库作为业务数据源与数据仓库之间的一个数据层,其建立需要遵循几个大的原 第页华东理工大学硕士学位论文则。业务可理解每张表中仅包含着一类关系最密切的数据,结构非常清晰,易于各类开发人员的理解完整性包含业务数据元标准中定义的几乎所有的数据元规范性每个数据元都参照业务数据元标准来定义,其值域、类型等都有明确的定义最小化每张表都对应一个最小的业务分割无冗余每张表都达到第三范式甚至更高,除了主键之外,一般不存在冗余的问题生成简便所有的表都是基于最小业务单元设计的,表中各数据元的联系非常紧密。因此这些数据元在业务源系统中经常被设计在一张表中,这就大大方便了中心库的生成工作。图形象的展示了中心库的设计方法。通过对相关的国家数据元标准进行综述,可以总结出慢性病业务领域的一个标准的数据元集合。此后,可将慢性病防治业务进行划分本课题中划分为患者信息管理业务和医疗机构服务信息管理业务。进而,将这两大业务划分成多个最小业务单元。依次针对每个最小业务单元从标准数据元集合中选取出与之相关最密切的一系列数据元,并组织成相关的表,即最小业务构件简单理解为表。通过此种手段生成的一系列最小业务构件即形成了中心库模型。中心库内每张表中的记录都以人标识符和服务标识符来惟一标识,各表间也通过这两个标识符组成的联合主键来相互关联。谨病防治业务患者信息管理业务医疗机构服务信息管理业务卑墓白要亘乡月曰司口口口月月刁卜口月忍者社名一高血一压`随址访一状态一妇吟患者性万明高血压随访报告时问息者生日高血压陇访民告医生患者民抉圈匿巫习高血压随访才民告机构息者格贯一,身份证兮标准数据元集合国困中,心序模型图中心库设计方法柳 华东理工大学硕士学位论文第页中心库部署方案中心库的部署可以非常灵活,中心库可以部署在单服务器上,也可以分布部署在多台服务器上,甚至可以与一些对实时性要求不高的信息系统数据库共享一台服务器。当中心库分布部署时,不同服务器上的中心库必须共用同一套数据库模型。不同的数据源可以导入到不同的中心库中可以一对一、也可以多对一,数据源、中心库与数据仓库的关系如图所示,集中部署方式的关系图与分布式部署的关系图相类似,不同的是集中部署时,反应在图中仅有一个中心库图标,此处不再列图说明。而不同的中心库到数据仓库的数据转换过程可共用同一套程序来实现。由本文第节可知,中心库服务器可支持普通患者提交的查询需求,这不会因中心库的部署方式的不同而有所改变。当中心库分布部署时,可通过简单的查询判断将请求发送到不同的中心库服务器上。目前,流行的集群技术可方便的满足这一需求。数据仓库层中心库层业务层图数据源、中心库与数据仓库的关系图叭扯加入中心库组件的数据仓库系统架构方法本课题中的数据仓库架构方法也是通过需求分析、主题分析等一系列活动,最终建立第三范式或维度数据仓库模型。与传统方法不同的是,数据仓库中的数据元也是来自标准数据元集合。这样就可保证所有中心库中的数据都可导入数据仓库中。本文节已经详细阐述了中心库的构建方法,在得到中心库模型和数据仓库模型并部署成功后,即可设计程序将数据导入到中心库和数据仓库中。由图可知,每个数据源对应惟一的中心库程序,而中心库到数据仓库的数据传输仅需要一套程序即可。 华东理工大学硕士学位论文图加入中心库组件的数据仓库系统架构方法即叮汀中心库总结说明加入中心库的数据仓库架构在其稳定性上有了很大的提高。当需要加入新的数据源时,只需要针对特定数据源设计中心库程序,而不需要对数据仓库的其它组件作任何修改,同时也为在数据源不确定的前提下建立数据仓库提供了一种可行的方法。一旦业务条件满足以下两种情况,都可以利用中心库组件技术。数据源不确定由第章的描述可知,中心库组件的加入可有效解决在数据源不确定的情况下将会遇到的新数据无法导入的问题。可以总结出相应的标准中心库的构建基于一套标准的、完整的数据元集合。标准一般指的是国家标准,但也可以是由个人总结定义的,而对标准的要求则是完整、标准和惟一。虽然标准也可以由个人定义,但定义标准需要对业务有熟练的把握,并且需要花费巨大的工作量。然而,任何系统都不可能绝对的稳定,中心库也只能在目前各国家数据元标准的基础上最大程度上保证数据元的完整性。同时,我们也可以在一定程度上认为,不存在于中心库中的数据元对数据分析的影响并不大。 华东理工大学硕士学位论文第页第章慢性病数据仓库实施出于对项目内容、病人资料的保密。本课题实施仅以所有数据源集合中所包括的高血压、糖尿病管理系统中名患者的健康档案数据、专项报告数据以及随访报告数据等来论证带有中心库组件的数据仓库架构的可行性和优越性。本章主要介绍慢性病数据仓库的实施过程。慢性病防治业务流程各类慢性病的病情都有其特殊性,各类慢性病防治的业务流程也略有不同,但是抽象之后还存在着一些共同之处。出于文章篇幅及编写目的的考虑,本节对各类慢性病的防治流程进行总结抽象,并将各类慢性病防治的通用流程进行描述。慢性病防治机构主要分为三个层次。其中最低的层次包括社区卫生服务中心、服务站点、村卫生室等。第二层机构是各区县的疾病控制中心。第三层机构是市疾病控制中心。最低层机构的职责主要体现在以下两个方面。发现慢性病患者,进行报病。通常社区医生可以通过多种途径如健康档案、家庭访视、社区门诊等,发现慢性病患者如果该患者没有相应的慢性病报告卡,社区医生则为患者建立慢性病报告卡,并将该报告卡上报社区所在区疾控中心对慢性病患者进行属地化管理。所谓的属地化管理就是社区对属于本社区的慢性病患者进行管理。主要体现在完善病例报告卡信息、随访患者、指导患者合理用药、促进社区人群掌握高血压防治知识等等。第二层机构的职责主要体现在三个方面组织慢性病报告工作,为医务人员提供培训指导。区疾控负责组织本社区内社区卫生服务中心进行慢性病报告的管理工作,并对区内社区医生提供相应的报告指导培训慢性病报告卡的审核与质量控制。区疾控负责审核社区卫生服务中心上报的慢性病报告卡和随访记录定期或不定期的对辖区内慢性病报告信息进行抽查质控,保证数据报告准确并对漏报的慢性病患者进行补充报告汇总信息并进行分析总结。区疾控会定期对慢性病报告的数据进行汇总统计、并进行特定的分析,对社区慢性病报告管理工作进行绩效考核,并对己施行的慢性病防治措施的效果进行评价,进一步制订有效的慢性病干预防治策略。第三层机构的职责在于对各区县提交的报告进行汇总,并对各区县所提交的数据进行深度分析。该层机构职责与第二层机构的较为相似,只是会在更宏观的情况下执行相 第页华东理工大学硕士学位论文应职能。如市疾控职责相对于区疾控而言,组织的是全市慢性病报告工作,并为区疾控、甚至社区卫生服务中心提供慢性病报告指导培训。此处不再赘述。慢性病防治业务流程图经总结后如图所示。夭夭斑兔人群份理念古缨服心卫中务社区生纂藉孽望,触墨爽娜例以进塑愁习发现服务卫室村生站点、黔弊扮麟礁橄建卜冬菊探科失牛,站点藻件,卫牛食深件鑫魏蒙爵钦〕建入活户展犷神电十嚓鳖毅图慢性病防治业务流程图 华东理工大学硕士学位论文第页慢性病业务系统数据源由慢性病防治业务流程图图中可以看出,慢性病防治系统的数据库中包含的数据源主要有居民健康档案数据、病例报告卡数据、随访卡数据、编码表数据等。健康档案数据指居民身心健康正常的健康状况、亚健康的疾病预防健康保护促进、非健康的疾病治疗等过程的规范、科学记录。是以居民个人健康为核心、贯穿整个生命过程、涵盖各种健康相关因素、实现信息多渠道动态收集、满足居民自身需要和健康管理的信息资源。目前己有多个城市为本市常驻居民建立了较为完整的健康档案,如北京、上海等。这为对本市居民进行有效监测提供了极大的便利病例报告卡又称报病卡,指对发现的患者进行信息记录,并向上级单位报告该病例的载体,包含的内容主要有患者基本信息,患者慢性病危险因素信息,患者所患慢性病诊断信息等等。病例报告卡可以帮助业务医务人员有效的收集慢性病发病相关资料,了解人群慢性病的发病趋势、流行特点以及影响因素,这对制定慢性病防治规划、干预措施,探讨慢性病流行规律和病因,评价卫生规划等都具有重要意义随访卡指在对患者的随访过程中,对患者体征、生活习惯、行为方式等进行记录的载体。包含的内容主要有患者基本信息,患者慢性病危险因素信息,患者所患慢性病诊断信息,患者每次随访记录、患者日常用药信息等。随访卡能帮助业务人员有效的收集慢性病随访管理相关资料,了解人群慢性病的发病及转归趋势、流行特点以及影响因素,对制定慢性病防治规划、干预措施,探讨慢性病流行规律和病因,评价卫生规划等都具有重要意义。随访卡主要与慢性病例报告卡相结合,进行综合分析考虑。需求分析数据仓库需求分析位于数据仓库项目周期的中心位置,几乎影响到整个数据仓库实施过程所做出的全部决策,并且决定了数据仓库所能支持的具体应用。人们经常认为若采用自上而下的方法构建数据仓库,那么需求分析就显得不是那么重要。但现实却并非如此,即使开发人员确定以自上而下的方法构建数据仓库,并且已经建立了一套完美的企业数据仓库业务模型。但是实施过程中,无论从资金、效益、时间等方面考虑,他们都会基于具体的需求分析结果来确定先实施数据仓库业务模型中的哪一部分,而哪一部分是不需要实施的。下面简要介绍了该数据仓库系统的需求分析过程。用户分类数据仓库是面向最终用户的,对客户进行分类能指导工作分析人员进行有效的需求分析。本系统的用户群主要分为三类,分别是医疗卫生行业的决策者、普通医务人员以 华东理工大学硕士学位论文第页及普通患者。各类用户应用需求分析医疗卫生行业的领导的需求医疗机构的决策者要从宏观上把握疾病的发病趋势、进而及时分析本市实施慢性病防治的工作情况,研究防治策略,为制订相关政策提供依据。并且,有针对性的安排对区县疾病预防控制中心进行业务指导和培训等工作。因此,他们关注的往往是一些反映人群特征的概化性的指标,从而做出宏观的决策。而不会关注发病的起因、预防的手段等细节问题。下面简要一些决策人员较为关注的指标,主旨在于说明数据仓库需求的分析方法。》分析人群分布情况人群特征指标主要描述某人群的特征,如地区分布、年龄分布、性别分布、身高体重分布等。简要列出指标,如表所示。表人群特征指标肠指标名称指标定义指标计算方法备注老龄人口比例区域岁以上区域内,岁以上人口占总判断人群老龄化趋势老龄人口人口比例男女性别比例男女性别人数比男性人口与女性人口的比值判断人口组成特征例地区分布各地区人口占总各地区人口数除以总人口数看人群分布状况人口比例》分析人群健康影响因素分布情况主要描述健康影响因素在人群中的分布情况,如人群超重比例、吸烟比例、人群总体运动情况。简要列出人群健康因素指标,如表所示。表人群健康因素指标几指标名称指标定义指标计算方法指标采集方法备注超重人口比例超重人口所占总值大于标准可预先计算各判断人群健康状人口的比例值的人口数占总值,也可利况人口比例用身高体重实时计算吸烟人口比例吸烟人口所占总吸烟人口总数除先统计吸烟人口人口的比例以总人数数,指标展示放在前台组合完成人群运动情况人一天平均运动按时间分组,每先统计每组的人 华东理工大学硕士学位论文第页多少小时组人口所占百分数,指标展示放比在前台组合完成》分析人群疾病分布情况该类指标主要描述人群发病率及死亡率等指标,且可能需要针对相关维度进行下钻,如某一地区的发病率及死亡率,各年龄段的死亡率等。该部分指标的计算需以人群的发病及死亡为事实。简要列出指标如表所示。表人群疾病分布指标几指标名称指标定义指标计算方法指标采集方法备注发病率确诊为发病的人计算满足条件的先统计满足条件了解人群的发病口数除以总人口发病人口数,除的病例数,然后情况,可以通过数以总人数计算与总人口的多个维度进行下比值钻患病率也称现患率或流患病率某一时先统计满足条件了解人群的发病行率,是指特定点或某观察期的病例数,然后情况,可以通过时间内一定人群间一定人口中计算与总人口的多个维度进行下中某病新旧病例现患某病的新旧比值钻所占比例病例数该时点或同期间的人口或平均人口数、或万死亡率死亡人口除以总计算满足条件的对满足各种条件了解人群死亡情人口数死亡人口数,除的发病人数进行况,通过死亡原以总人口数计算,然后除以因等多个维度进总人数行下钻医务人员应用需求医务人员主要包括社区医生、领域专家等专门从事慢性病防治的工作人员。他们要需要分析各种影响会慢性病的因素。》分析疾病与生活方式、遗传因素、疾病史等的关系,提出合理有效的疾病预防建议,如吸烟对疾病发病的影响,经常锻炼能够抑制疾病的发生等等》以人的健康档案数据为基础,通过挖掘工具发现挖掘模式,进行疾病预测,提醒高危人士提前进行预防》以人的基本数据为基础,进行疾病筛检,选出高危人群进行干预,从而使得有限的医疗资源达到最大的利用率等。 第页华东理工大学硕士学位论文普通患者应用需求普通患者指那些己被确诊为慢性病患者,且其资料己经被录入业务系统的人群。他们主要通过该系统来了解自己的身体状况。》在线查询自己的体征数据如历来测量的血糖浓度、收缩压等,了解自己历年来的身体状况,及病情好转情况等等系统实施的资源需求这一部分主要确定建立数据仓库需要哪些资源,资源除了包括源数据外,还因包括所有已经投入应用的报表等。主要资源如表所示。表系统实施的资源肠,需要的数据表》糖尿病管理系统,基本卡表、随访卡表、区县代码表、街道代码表、迁出记录表》高血压管理系统,基本信息荞中心信息表、症状表、高血压专项表、疾病史表、随访表、医疗机构代码表、地址代码表需要的业务系统卜糖尿病管理系统说明书说明文档糖尿病管理系统数据库设计文档高血压管理系统说明书一卜高血压管理系统数据库设计文档需要的报表系统所有者的常用分析报表所有报表需要的人力资源卜糖尿病管理系统开发人员或者熟悉该系统的人员高血压管理系统开发人员或者熟悉该系统的人员需求分析人员主要与用户进行交流系统模型设计人员〔丁开发人员报表开发人员主题及主题域分析主题分析数据仓库的主题也是基于用户需求的。本数据仓库系统的主题生成过程中,对数据仓库需求进行了深入的理解、分类、总结,并广泛听取医疗卫生领域专家的意见。从而保证数据仓库能够满足各类用户的需求。该数据仓库选定两个大类的主题,即人主题、服务主题。人主题主要用于对人群进行分析,如分析人群的基本特征高龄人口比例、本地人口比例、男女比例等,人群健康状况超重人口比例、吸烟率、人群运动比例等,疾病分布特征高血压发病率等。而服务主题主要针对各卫生机构进行绩效考核,如糖尿病发现率、糖尿病管理率、 华东理工大学硕士学位论文第页随访及时率、医院报病错误率等。下面详细列出本数据仓库系统的各个主题以及主题间的拓扑关系,值得说明的一点是,大部分主题之间是相互独立的,但偶尔也存在主题之间相互重叠的现象,如疾病诊疗主题就同时涉及医生主题、药品主题等。该系统中,人主题分为人群基本特征主题、人群健康影响因素主题、人群疾病分布主题这三个子主题。疾病分析主题包括同时涉及行为因素、客观因素和人群疾病分布特征主题。行为因素主题同时涉及人群健康影响因素主题和人群疾病分布主题。客观因素主题同时涉及行为因素、客观因素和人群疾病分布特征主题。而服务主题则分为疾病确诊服务、糖尿病专项报告服务、糖尿病随访服务、高血压专项报告服务、高血压随访服务、人口迁移服务这六个子主题。各个分析主题的拓扑关系如图所示。图数据仓库主题甘主题域分析主题域分析主要是针对不同的主题确定要满足其需求所需要包含数据的范围。由于数据仓库中的数据来源于中心库,因此,主题域也针对中心库中的数据结构来划分。在实际的主题库分析文档中,需要针对每个主题详细列出其主题域中所包含的表以及每张表中需要包含的字段。由于详述该部分会占用大量篇幅,且本文的重点并不在此,所以不再详细说明。中心库及数据仓库模型建立中心库模型建立中心库的概念、构建方法及构建原则等内容都己经在本文的第章中作了详细说明。由于中心库的构成涉及多个业务源系统,以及表的重组操作,且数据表相对较多,因此,如何设计表的主键就成为中心库设计过程中的一个问题。 第页华东理工大学硕士学位论文由于源系统中的所有数据都由各卫生医疗机构通过为人群提供各种类型的服务来获得,如社区卫生服务中心通过为居民提供健康检查服务获取健康档案数据、提供专项报告服务获得患者确诊数据、提供随访服务来获得患者随访数据等等。因此,中心库中所有表都以服务标识和人标识作为联合主键。基本信息居住职业人旧仁人旧仁服务旧服务旧居住地址工作单位居住状况行业婚姻类型开始时间职业婚姻类型绪束时间人职时间离职时间职业史记录医生居住地而办职业史记录时向二一职业功户籍一残疾家族史过敏史人旧」仁服务仁服务旧教育类里家族关系人学时间疾病类型一毕业时间家族史公一、图部分中心库模型每个源系统中都会存在以人标识单独作为主键的情况,如每个被发现的患者有且仅有一份高血压专项报告卡,此时人标识符即可作为主键。此种情况下,服务标识符可以在人标识符的基础上通过一定的转换生成,如在人标识符的基础上加上数据库来源表的名称。中心库的实施也并非一墩而就的,而是循环迭代的过程。因为并不是中心库中的所有数据都会立刻加载到数据仓库中,并最终展现给客户。只对目前需要分析的数据进行处理并加载到中心库,可以有效的提高系统实施效率并节省资源。图给出了一部分最小业务构件的图示,以便读者对中心库有一个感性的认识。数据仓库模型建立,基于人群基本特征主题建模人群基本特征主题涉及的分析内容较广,本人在详细分析了客户需求、以及主题域所包含的内容的基础上,抽象出了六张事实表分别是稳定人群基本信息事实表、人群家族史事实表、人群过敏史事实表、人群死亡事实表、渐变的人群基本信息事实表、健康检查情况事实表。 华东理工大学硕士学位论文第页稳定人群基本信息事实表该事实表主要包含与人最密切的客观信息,主要有生日、性别、民族、最高学历、当前住址等。此类信息的特点是数据几乎是确定不变,如果发生变化则只需要直接覆盖旧数据。该事实表中,每个居民对应一条记录。这类数据主要由区域卫生机构在为居民建立健康档案时采集。另外,该事实表还同时充当了维表的角色,并与其它事实表相关联,如渐变人群基本信息表、家族史事实表等。这也作为一个实例说明了一张表可以同时作为事实表和维表。同时扮演事实表和维表角色的表还有渐变的人群基本信息事实表。与稳定人群基本信息事实表相关的维度主要有日期维、地址维、学历维等。出于对模型复杂度、存储空间、复杂度等方面的综合考虑,对事实表中的某些低基数的属性如性别直接填写具体值,而不生成单独的维表。人群家族史事实表该事实表主要记录每个人的家族史信息。每个人涉及的一种家族病史即为一条记录。如果一个人同时涉及两种类型家族病史,那么事实表中就存储两条关于这个人的记录。这类数据主要也由区域卫生机构在为居民建立健康档案时采集。与人群家族史事实表相关的维度主要有家族史类型维和稳定人群基本信息表。人群过敏史事实表该事实表主要记录人群的过敏史信息。每个人涉及的一种过敏源则为一条记录。即如果一个人同时存在多种过敏源,那么该事实表中就存储与此人相关的多条记录。这类数据主要也由区域卫生机构在为居民建立健康档案时采集。与人群过敏史事实表相关的维度主要有过敏原类型维和稳定人群基本信息表。人群死亡事实表该事实表主要记录死者的基本信息。每一个死亡的居民对应事实表中的一条记录,主要记录死者的死亡日期、死亡地点以及死亡原因等数据。从不同方面分析死者的总体情况可以帮助人们了解人群的健康状况。如通过基本信息表中的出生日期与死亡事实中的死亡日期属性,可以计算出当前人群的平均寿命。通过每个死者的死亡原因数据,可以计算出不同原因造成的死亡率,从而提高居民的疾病防治意识,加大对高死亡率疾病的防治力度。当然业务人员还可以分析出很多其它有意义的结果。与人群死亡事实表相关的维度主要有日期维、死亡地点类型维、死亡原因维等。渐变人群基本信息事实表该事实表主要记录随时间变化而变化的人的基本信息,如住址信息、婚姻状况、残疾状况等。一旦事实表中的相应信息发生变化,则往事实表中增加一条新记录而不会覆盖已存在的记录,不同的记录会用不同的代理键来唯一标识。在该事实表,一个居民可能对应多条记录。与渐变人群基本信息事实表相关的维度主要有稳定人群基本信息表、地址维、婚姻 华东理工大学硕士学位论文篓丝二一—状况维、职业维等。健康检查情况事实表该事实表主要记录各人的健康体检信息。居民的一次健康体检信息对应一条事实表记录,主要记录人群常规体检产生基本体征信息,如身高、体重、血压、血糖等。其黝图基于人群基本特征分析的数据集市模型第一部分中血压、血糖的测量值比较特别,因为它们在高血压专项和随访事实表、糖尿病专项和随访事实表中都会存储。而同类数据的存储位置则由提供数据的服务来决定。即由常规 华东理工大学硕士学位论文第页体检而得到的血压、血糖测量值则存储在健康检查事实表中。而由专项报告服务提供的血压、血糖测量数据则存储在专项报告事实表中。健康检查情况事实表中的数据主要用来反映人群的总体健康状况。该类数据主要由区域卫生机构为居民提供常规体检服务时采集或者居民主动去医院体检时由医院采集的数据。居碗址夫一片扒事职缪信息变化的人基本信息变化日期黯鳃躁翼巍薰糟摄黍赣篡鬓酬羹图基于人群基本特征分析的数据集市模型第二部分叭别件`与健康检查情况事实表相关的维度主要有稳定人群基本信息表、日期维。图和图展示了基于人群基本特征主题的数据集市的逻辑模型。由于原模型结构较为复杂,为了能够清晰的显示,遂将模型分割成两个部分进行显示。在图中,省略了原 第页华东理工大学硕士学位论文模型中与渐变的人群基本信息事实表相关的所有维表。在中,省略了原模型中与稳定人群基本信息事实表相关所有相关维表。这表示稳定人群基本信息事实表在模型中也以渐变人群基本信息事实表相关的维表的角色存在。基于疾病分析主题建模疾病分析主题主要针对可能影响慢性病发病的各种因素进行分析。其中包括主观因素、客观因素、行为因素等。主观因素主要包括患者的基本体征信息,如身高、体重、年龄等。客观因素主要包括一些环境因素,如居住状况、职业、受教育程度。行为因素主要包括患者日常生活习惯等信息,如抽烟、喝酒、膳食高盐、锻炼情况等。疾病分析主题的数据集市结构较为复杂。因为这涉及到大量属性,并且数据采集频率有可能不同。图展示了疾病分析数据集市的简化后模型,该图省略了维表。通过各个事实表的内容即可得知模型中需要哪些维表。患者治疗情况个人健康检查情祝一一—个人生活习惯患者随访情况礴镇巍鬓馨黝囊觑黔霎蘸嫩个人图基于疾病分析主题的数据集市模型斌】基于专项报告服务主题建模专项报告服务主题主要针对各类疾病专项报告数据进行分析,通过对各类慢性病的 华东理工大学硕士学位论文第页专项报告事实进行分析,从而得出慢性病报告人数、报告卡审核率、慢性病错报率等对医疗机构进行绩效考核的重要指标。同时,医疗机构还可以根据各种疾病的发病率及发病人数,调整后期疾病防治工作的重点。在详细研究了主题的分析需求及主题域所含内容的基础上,本人抽象并总结出了慢性病专项报告事实表。事实表中的一条记录表示一个慢性病发现病例。由于一个人可能同时患有多种疾病,于是渐变人群基本特征事实表中的一条记录可能对应专项报告事实表中的多条记录。该事实表除了包含患者标识号之外,还包含了医疗机构提供的各类服务以及反映服务质量的信息。与慢性病专项报告事实表相关的维度主要有渐变人群基本信息表、医生维、医疗机构维、日期维等。基于专项报告服务主题的数据集市模型图如图所示,图中渐变人事实表还与其它的维表相关联,但为了图示清晰,所以此图中将其省略。慢病患者服务医生价服务提供机构各种服务提供日斯患病类型图基于专项报告服务主题的数据集市模型叭基于随访服务主题建模随访报告服务主题主要针对各类疾病随访报告数据进行分析,通过对各类慢性病的随访报告事实进行分析,可以得出机构随访次数、随访及时率、失访率、转归率等对医疗机构进行绩效考核的重要指标。在评价医疗机构工作的同时,医疗机构还可以根据各 第页华东理工大学硕士学位论文指标值调整其今后的工作重点。在详细研究了主题的分析需求及主题域所含数据内容的基础上,本人抽象并总结出了慢性病随访报告事实表。事实表中的每一条记录都记录着一个患者的一次随访信息。由于一个人可能同时患有多种疾病,且一个人会有多次随访,所以渐变人群基本特征事实表中的一条记录会对应随访报告事实表中的多条记录。该事实表除了包含患者标识号之外,还包含了医疗机构提供的各类服务以及反映服务质量的信息。与慢性病专项报告事实表相关的维度主要有渐变人群基本信息表、医生维、医疗机构维、日期维等。基于专项报告服务主题的数据集市模型图如图所示,图中渐变人事实表还与其它的维表相关联,但为了图示清晰,所以此图中将其省略。随访的惠著关晖撬鬓翼服务机构各活动日期黔罄一病例类型图基于随访服务主题的数据集市模型一数据仓库系统架构本文中所构建的数据仓库并未遵循通用的系统架构,而是从现实需求、以及业务实施的有效性等方面的考虑出发,在业务层和数据仓库层之间添加了一个中心库组件。慢性病数据仓库系统的整体架构如图所示。系统总共分为四层业务层、中心库层、 华东理工大学硕士学位论文第页数据存储层、信息传递层。业务层本文档所描述的数据仓库系统的业务层主要包含三个部分,分别是的业务用户、源系统数据层、数据准备区。中心库层业务层结果棋式图慢性病数据仓库架构图价业务用户所谓业务用户,是指业务系统方的工作人员。他们既包括了利用业务系统完成日常工作的普通员工如医院挂号工作人员等、又包括了对业务数据进行管理的人员如医院信息办的数据管理人员。业务用户完成的任务主要有两个方面。在日常工作中,将各类数据输入到业务系统中参照中心库的数据元标准,将源数据进行清洗、转换、映射,并将最终数据导入到中心库中。源系统数据层源系统指用户单位针对特定应用而开发的各种业务处理系统。如医院信息管理系统、慢性病跟踪系统等。存储在目标系统中的患者数据作为中心库和数据仓库中数据的主体,是分析的主要对象。系统的数据库模型等元数据可以有效指导开发人员进行数据仓库的实施,而代码表等业务元数据则可作为数据分析的辅助,帮助人们理解数据仓库中的数据内容。源系统中预定义的业务报表可有效指导开发人员进行系统需求分析。此外,我们关注的除了系统中存储的业务数据外,还应该包括由开发人员在系统中设计的一些分析应用,以及业务系统的工作流程等内容。 第页华东理工大学硕士学位论文数据准备区在前面讨论的典型的数据仓库结构中,数据准备区被单独看成一层。但是在本系统中,数据准备区被划在业务层之中。主要原因如下两点在本系统中,数据从业务系统流入中心库的工作是由各用户单位的人员完成的。每个业务系统对应着各自的数据准备区。由于各单位的源系统结构不一,使得各自对应的准备区结构也不相同。当有的单位涉及的数据量很小、结构较简单时,甚至不需要刻意进行准备区的设计虽然数据由中心库流入到数据仓库的过程中,也涉及到数据过程。但是由于中心库的设计是基于行业数据元标准的,并且是高范式的。因此,中心库是一个一致、规范的数据源。也正因为如此,数据由中心库导入到数据仓库的过程不需要太复杂的设计,甚至不需要专门的数据准备区。因此,中心库与数据仓库间的数据准备区并不作为单独的一层。中心库层中心库层在第章中已经作了详细的阐述,此处不再赘述。数据存储层数据仓库作为整个数据仓库系统的核心,支持着几乎所有的应用需求。本系统的数据仓库中并没有包含中心库中所有的数据。而是在需求分析的基础上抽取了特定的数据加载到数据仓库中。数据仓库中的数据以最细节粒度存储,从而保证能够满足所有的用户应用。当数据仓库中的数据量达到一定程度时,出于性能上的考虑,数据仓库服务器不应该再支持大规模的数据聚集、查询等操作。此时,在用户提出需求以后,可以从数据仓库中抽取特定数据形成一个独立的数据源供用户分析,这个独立的数据源就是所谓的从属数据集市。另外,对大量细节数据进行聚合、汇总,往往会耗费大量的时间,而且出现不同的需求时就需要重新进行数据聚合。如第一个用户查询是按月汇总不同地区的糖尿病发病率,第二个查询是按年汇总不同地区的糖尿病发病率。如果两次都是以细节数据为基础进行计算,无非造成工作量的浪费。相对的,若第二个查询以第一个查询得到的数据集为基础,效率则可以提高倍左右。于是在很多情况下,人们会基于最细节数据在多个层次上建立多个预定义聚合数据集。这些聚合数据集都可称为多维数据集。信息传递层信息传递层负责完成所有的应用设计,主要应用类型有分析、报表生成、数据挖掘、即席查询等。在本系统的信息传递层,用户应用设计集中在分析和数据挖掘应用两方面。并且将数据挖掘结果应用到了业务源系统中。并且用户应用的嵌入使得该数据仓库系统形成了一个有机的整体。 华东理工大学硕士学位论文第页数据仓库系统网络拓扑结构大部分企业建立和维护一个集中式的数据仓库环境,但数据仓库系统往往需要部署在网络系统中。这两个说法看似矛盾,其实不然。所谓集中式数据环境是指数据从多个业务源系统被汇总到一个数据中心。而数据仓库系统不仅包括了数据仓库平台、往往还包括了数据源、数准备区、数据集市、客户端等组件。这些组件间往往通过网络来进行连接。如业务源系统通过网络将数据传送到数据中心,客户端通过网络访问数据挖掘服务器、服务器、报表服务器等。当然,人们出于性能上的考虑,在不同组件间往往会选择不同类型的网络来连接,如数据仓库和数据集市间往往需要进行大数据量的传输,这时就需要选用高速以太网,甚至直接通过交换机等设备来实现服务器互边。而客户端对报表服务器的访问,则可以通过普通的来进行。图画出了慢性病数据仓库系统的网络拓扑结构,其中闪电表示通过一般网络连接,服务器之间的箭头表示通过高速链路连接,甚至是部署在一台服务器上。中心序产︸一淤户圆一图服务器石藤示、、数丝全产蚤龚邵缘理,橄扰极`翻妇眺服务器前端应用及展示数据源数据源数据派图数据仓库系统网络拓扑图项目实施的方法项目实施分逻辑模型设计和物理实现两部分。逻辑模型的设计采用了自上而下和自下而上相结合的方法,而数据仓库的物理实施过程中则采用了分主题分时段进行迭代实施的方法。数据仓库逻辑模型设计方法论该数据仓库的模型设计过程中,采用了自上而下和自下而上相结合的方法来设计数据仓库模型。首先,对中心库进行分析,了解中心库中包含的所有内容。利用实体一关 第页华东理工大学硕士学位论文系一建模的方法建立一个包含几乎所有数据的一个统一数据视图,即企业级数据仓库模型。并将中心库中的所有的数据字段准确的映射到数据仓库模型中的相应字段上。待企业级数据仓库模型设计完成之后,通过用户需求调研、分析源报表等方法对当前较为急迫的数据仓库需求进行分析。将需求总结为几个特定的主题,并划定各个主题对应的主题域。针对不同的主题设计其事实表和维表,至于不同的事实表都会关联到的维度,则尽可能将其设计为标准化的维度,与多个事实表进行关联。多个事实表的共享的维度又称为一致性维度或数据仓库总线。本课题的数据仓库设计过程中,由于从一开始就注重总体上的规划,力求多个数据集市能够进行有效的关联,所以维度的设计尽可能保持其通用性。从而使得多个数据集市最终在逻辑上构成一个完整的企业级数据仓库。数据仓库物理实现方法论在整个数据仓库模型设计完成之后,即可进行物理上的实现。数据仓库的物理实现并非一蹦而就的,而是针对不同的主题分时间先后进行实施。即先建立一个满足用户最急迫需求的数据集市,在各项需求和性能均达到预定目标之后,再着手实现下一个数据集市。每个数据集市实施过程中均需要进行反复的测试,测试的重点则主要集中在两个方面一是基于数据集市能否得到准确的分析结果,二是数据集市的性能能否达到用户的需求。一般情况下,只要各数据集市的逻辑模型设计以及各度量值的聚合方式定义准确,分析结果是可以预知的。然而,各数据集市的性能则需要通过反复的测试、优化来提升。数据集市性能优化主要从数据分区、索引这两方面来实现。通过前人实施的数据仓库经验可知,良好的数据分区及索引设计可以大大提高数据仓库的性能,甚至是几个数量级的提升。数据仓库根据本文中的数据仓库体系结构图图可知,系统实施过程中的工作主要集中在数据由中心库转移到数据仓库的过程之中。而数据由业务系统导入中心库的工作则由业务用户自己完成。本系统中的中心库与数据仓库都构建在数据库平台之上。数据仓库的过程则由的集成服务组件来完成,由于数据库平台相同,所以该过程无需过多考虑数据类型、元数据获取等问题,大大方便了的开发过程。数据抽取由本文节可知,数据抽取过程的难点在于平台异构性和增量数据获取。由于该数据仓库系统中的中心库与数据仓库都建在平台上,因此数据抽取过程无需考虑数据数据类型、元数据获取等问题。 华东理工大学硕士学位论文第页本系统中采用基于表的日期属性这一方法来识别增量数据。因为本系统的过程是将数据由中心库加载到数据仓库中。而在中心库设计之初,就考虑到增量数据抽取的问题,于是在每张表中都增加了一个新属性,即数据导入日期,意义为数据由外部数据源导入到中心库的日期。数据增量抽取只需要将上次抽取时间与数据导入日期进行比较,就可以完成新增数据的识别。这也是加入中心库组件的优点之一。数据质量由于过程是基于中心库实施的,中心库中己经严格定义了各数据项的类型、格式等,数据在导入中心库之前,就必须对数据进行相应的清洗工作。因此,中心库中的数据已经在属性级上满足了数据的有效性。下面将对数据结构级以及业务规则级的数据质量问题进行简要的描述。结构级数据清洗在本文的节中描述了结构级数据清洗主要包含三个方面,即主键冲突、外键冲突和重复记录剔除。在本系统的数据清洗过程中,开发者基于对业务的理解设计了一套较为完善的方法来解决结构级数据清洗的问题。主外键冲突的问题的有效解决,主要得益于中心库组件的优越性,而重复记录的有效识别则归功于慢性病业务的特殊性。中心库中各表主键的生成方法相对简单,只需要对业务系统中的主键值以及个人标识作一些简单的变换,就可以保证不同数据源中主键值间不会存在相互冲突的情况。再通过在中心库结构上定义严格的主外键约束,即可避免中心库中的主外键冲突问题,进而避免了数据仓库中的主外键冲突的情况。另外,由于慢性病数据一般来源于健康档案、专项报告、随访报告等。而特定人群的健康档案等数据往往由特定的机构定期采集当存在着重复记录时,由于人存在着姓名、出生日期、身份证号等能有效标识个体的属性,因此可以通过这些属性值的匹配来判断两条记录是否对应同一个体。业务规则级清洗慢性病系统中,各属性间存在着很多显式或隐式的业务规则。当然也涉及了节所述的联合数据有效性规则、计算型规则和时间规则。联合数据有效性规则主要涉及属性值与代码值的对应。在两者冲突的情况下,根据用户的建议以及对源数据的分析,以其中一个为准,修改另外一个使两者对应。计算型规则该规则主要表现为同一张表或不同表的不同的字段间存在着一定的函数关系。如总医疗费用医药费十诊疗费住院费化疗费··…。时间规则该规则主要表现为事件发生的时间有着先后顺序,如随访日期必须在专项报告建卡时间之后,随访记录审核时间必须在随访之后。数据清洗过程与具体业务的关系非常紧密,而且大多的数据清洗任务是机械式的劳动,很少会涉及到相对复杂的技术,于是在此不再赘述。 第页华东理工大学硕士学位论文数据装载最初装载本系统的最初装载指的是将数据集市中需要的,且目前已经抽取上来的,并已经存在于中心库中的数据导入到数据库中,该次装载涉及到大数据量的迁移,所以相对要花费更多的时间。但由于最初装载的数据对象非常明确按变量抽取所有数据,所以最初装载的实现也显得相对容易。只需要将数据统一清洗、转换并加载到数据仓库中,同时记录中心库中最新的数据导入时间即可。增量装载随着业务活动的不断发生,用户会不断向中心库中导入数据,新导入的数据也需要被加载到数据仓库中。由于大多数数据仓库表都非常庞大,所以不能把每次数据装载过程都当作最初装载来实现,往往只能也只需要导入增量抽取过程所获得的数据。只装载新增数据的过程就称为增量装载。数据仓库增量装载过程由维表增量装载和事实表增量装载两部分组成。维表增量装载根据维表的定义可知,维表中存放着相对稳定的数据。但随着时间的推移,维表中的数据也会发生变化。如医生维中的数据可能因为医院招聘了新的医生、原来的医生评了高级职称,又或者老医生离职了等等。所有这些情况都会造成医生维中数据的变化。但是,维表增量装载过程并非只是导入数据的过程,也包括对原始数据的更改。处理维度表中数据变化的三种方法已经在节中作了说明,此处不再赘述。本系统的数据增量装载过程主要用到覆盖维属性值和添加新记录的方法。事实表增量装载事实表中存放着各机构日常工作中产生的业务事实。新导入的数据中,大概以上都会被加载到事实表中。事实表的数据导入方式,一般只需要直接插入新记录即可,历史数据则不会发生变化。这也符合“已经发生的历史是不会改变的”这一原则。增量事实装载与最初事实表装载的过程有很大不同。首先,由于增量装载相对频繁,所以增量事实表装载应该尽量自动化。其次,增量装载应该在固定的装载周期中进行,除了保证装载速度之外,还需要设置数据质量检查点来判断导入过程中是否存在质量问题、需要采取何种处理方式,或者忽略错误继续装载数据等等。 华东理工大学硕士学位论文第页第章数据仓库应用设计应用妙应用架构基于本数据仓库平台的应用,主要集中在人群基本特征主题和各服务主题上。该功能主要面向决策层,使决策者能按自己的意愿进行多维分析。本文中主要利用来实现以下三方面的应用。通过人群老年率、男女比例等来判断人群基本特征,如人群老龄化现象是否严重、男女比例是否失衡等通过肥胖率、吸烟率、慢性病发病人数等来判断人群健康状况基于各服务主题的分析,可以得出患者检出率、可以对各医疗机构进行绩效考核。多维数据集作为分析的基础,存放在数据库中,并由负责创建、管理与维护,客户通过网络连接到服务器,调用多维数据集进行上卷、下钻、切片等各种多维分析。同时,可以将开发人员设计的应用嵌入,方便用户通过浏览器进行数据分析。具体的应用架构如图所示。是决策者〔飞一︸﹃客户端刊产月书省牡徽碳刻洛挂朔滩时翻懊集飞巨沪是一训慢病。认分析职务幼……图应用架构图聚集在实时计算无法满足用户需求的情况下,人们往往会采取将结果预先计算好相应结果并存储起来的方式,待需要的时候直接通过查找的方式来提高响应速度。为了满足客户对及时响应速度的要求,分析也用了这种方式。即先基于最细节粒度的多维数据集进行汇总计算,这就是所谓的聚集。待用户提交需求后,分析服务器首 第页华东理工大学硕士学位论文先会进行判断,该用户所提需求的响应是否已经被预计算并且存放在中,若已经计算则直接查找结果,若未进行计算则基于细节粒度数据当即进行汇总计算。聚集可以采用手动和自动的方式建立。所谓手动聚集,是指通过用户需求调研等手段,人工确定从哪个维度层次上进行数据聚集,并通过执行的查询来生成汇总表。并在汇总表的基础上建立多维数据集。而自动聚集则是通过设置服务器的参数,使其自动进行建立有效的聚集。在本系统的优化过程中,同时结合了手动聚集和自动聚集两种方式进行优化。一方面,通过用户需求分析可知,用户主要从月份、区县、病例类型等维度层次来分析数据。因此基于选中层次设计汇总表,并在此基础上建立多维数据集。另外,还可通过设置优化参数来让服务器自动建立一些多维数据集聚集。这样就可以大大提升响应用户查询的速度,而且可以有效的降低存储空间消耗,并能最大限度的满足查询请求。以期达到存储空间与效率的最大平衡。效果图本系统开发过程中,设计了一系列针对决策层的应用,并通过客户端连接服务器进行多维分析。出于篇幅及隐私考虑,下面仅列出一部分分析效果图。由效果图即可大概了解基于数据仓库的分析的强大功能。图展示了对人群基本特征的分析效果。道曝翁萎献主盖蕊工作人员机器装配仪器制造技术管理和辅助教学人员金属奋包陈处理工人经济业务人员料学研究人员林业劳动者收业劳动者一端图效果图 华东理工大学硕士学位论文第页数据挖掘应用实现数据挖掘需求各卫生组织的一系列调查研究表明,慢性病的发病与多种因素有关,如生活方式、工作等等。但哪些因素会导致慢性病高发,哪些因素又会抑制发病这就需要基于大量准确的数据进行有效分析。数据仓库中几乎包含了与患者相关的所有数据。基于数据仓库平台,抽取患者的基本体征数据、行为习惯数据、生活方式数据等进行慢性病影响因素的分析无疑能大大提高分析效率以及准确率。数据准备面板数据面板数据是用来描述一个总体中给定样本在一段时间的情况,并对样本中的每一个样本单位都进行多重观察。这种多重观察既包括对样本单位在某一时刻上多个特性进行观察,也包括对该样本单位的这些特性在一段时间内的连续观察,这样观察得到的数据集称为面板数据〔,,。面板数据相关符号表示如下,二二从二二表示因变量在横截面和时间上的取值对应面板数据中不同个体,表示面板数据中含有个个体,对应面板数据中不同时点,表示时间序列的最大长度。叮,二几二从二二叮表示第个解释变量在横截面和时间上的数值面板数据研究经常应用于医学和社会科学领域。本文节中提到的数据挖掘需求就非常适合使用面板数据分析方法。如我们要掌握慢性病的发病规律,探讨各种影响发病的因子等,我们就可以抽取居民在各个时期的各类指标测量值,如身高、体重等基本体征数据,吸烟、喝酒、膳食等生活习惯数据,体育锻炼等行为习惯数据,这样我们就可以得到用于分析的面板数据集。数据采集方法本文中采用软件对慢性病数据进行分析,因此所有的数据需要转换到一张长宽表包含所有内容的表中。但慢性病业务有其特殊性,其一是个体的不同类数据采集频率不同,如某高血压患者的舒张压与收缩压的采集频率是每月一次,而行为因素和生活习惯数据的采集频率是每季度一次,而其身高、体重等基本体征数据的采集频率是每半年一次。其二是不同个体的数据采集频率不同。如对高血压高危患者有每月一次的定期随访服务,而对普通患者则只有每半年一次的随访服务。因此,应制订相应的策略进行数据转换。针对第一个问题,本文中采用的方法是以最高频率的数据为准,设定若干个时间结 第页华东理工大学硕士学位论文点。将采集频率低的数据按时间映射到不同的结点上。如某高血压患者的身高、体重等基本体征数据的采集结点是每年的月份和月份,而伸张压与收缩压等数据的采集结点是每年的月、月、月、月、月、月,但是在数据合并时,需要将这些数据组合成一条记录。这时月、月、月的身高、体重等数据均引用月采集的数据进行填充。而、、月的数据记录均引用月份采集的身高、体重等数据进行填充。针对第二个问题,本文中的解决方法与第一个问题的解决方法思路一致。如患者一年有次随访,而患者一年有次随访,于是患者的一次随访进行扩充与患者的两次随访的时间点进行对应,最终会得到患者的次随访数据。统计分析单方程的面板数据模型一般形式为,,,戏。产。,,…,,,…,基于面板数据通常可以建立三种模型即混合效应模型、固定效应模型和随机效应模型。面板数据建模的一项重要任务就是判别模型中是否存在个体固定效应。统计学中常用检验法和检验法来进行判别。统计量定义如下必义磷溉一品段人吸产附二一伽,八伙了`不`一通过与,、一的比较来确定模型的种类。而检验原理为口一夕一笋面板数据的检验原假设和备择假设如下个体随机效应回归模型个体固定效应回归模型本实验利用软件的过程,以患者的收缩压测量值为因变量,以基本体征数据身高、体重等,生活习惯数据食物、烟酒等,行为因素数据工作时间、体育锻炼等为解释变量进行拟合。结果如表至表所示表豪斯曼检验结果啤巨二石一叫。一川。…一一 华东理工大学硕士学位论文第页软件中采用豪斯曼检验方法来验证面板数据模型的设定应该是固定效应还是随机效应。通过表可知,值小于,因此判定需要使用固定效应模型。表参数估计结果几,留…”…一一卜呵一即叫卜一',一一娜州…一。`…·。。,。下。…一,`…一。习…。·一…。·。`平““、…一·…。·”。…。·。。,一…·。德呼刊………洲…下,。同……川。·”…·”一一。·,。。,,。。…………·。,·。。同…一疏。一协”…一…。·。,,。。。一…楠…。·`。一…“一……。·。一…。·,……丫。一…·。。…一…。·`表……中,变量名」…表示变量名,…表示自由度…,表示参数估计值,表示标准误差,表示统计量的值,而…表示回归 第页华东理工大学硕士学位论文系数显著性检验的值。确定使用固定效应模型之后,剔除对模型影响不显著的因子,得到模型估计系数。由表的结果显示,个体指数、腰臀比等基本体征,吸烟数量、脂肪食物食用情况等生活习惯都会对血压值产生影响。数据挖掘结果应用在得到较为准确的数据挖掘模型之后,可以通过各种方式将其应用到日常业务中。如开发带有自动评价功能的健康档案管理系统,该系统会利用模型定期对其内部的数据进行计算,并将被评定为高危人群的居民信息以邮件或门户网站等方式通知医疗机构人员进行上门随访。一旦确诊,则生成报病卡并提供后续的一系列服务,反之,则从生活方式、饮食习惯等方面给予针对性建议。此外,由于人的总体生活水平在不断提高、自我保健意识不断加强,一段时间以后会造成模型无法与数据相匹配。所以还需定期利用新数据对挖掘模型进行校正。数据挖掘结果的应用方式非常灵活,开发人员可以结合自己的情况进行设计。 华东理工大学硕士学位论文第页第章总结与展望总结鉴于社区医疗机构主要通过手工方式对数据进行采集和维护,数据上报、汇总时间长,数据质量差。业务数据分散在多个系统,无法进行有效的统计。没有完整、准确、一致的数据源,数据分析利用则无从谈起。数据仓库是数据库领域的一个全新应用,是决策支持技术的基础。同时也是数据利用方向的一个主流发展趋势。利用数据仓库理论并结合现有的数据仓库解决方案,可以针对慢性病数据建立一个数据仓库,如此一来就为各种数据分析应用提供了一个强大的支撑平台。同时,采用基于数据仓库的分析策略对医疗机构进行绩效评估,对人群状态进行监测可有效指导部门领导进行决策。结合数据挖掘等数据深度分析的技术,可以对数据进行综合利用。通过本文第五章的应用实践,可以证明本文中数据仓库系统的设计方法及技术路线是非常合理的,数据仓库技术在慢性病领域的应用也是可行的。文中数据仓库的建模理论、实施流程对类似系统开发都具有一定的参考价值。展望本项目的目的在于构建一个慢性病行业的数据仓库,支持各种针对慢性病进行的深入分析。同时,从公司产品化的角度出发,推广这一套行业数据仓库系统的架构模式。将其应用到其它领域,如流行病领域等。本人在该项目中参与了数据仓库主题分析、仓库建模、程序的编写、各种应用的设计。在取得成果的同时,我们还应该看到,目标国内基于医疗卫生领域的数据仓库应用还处在初级阶段,相关的成功案例还比较少。当然,本系统也还存在一些缺陷,仍然需要不断的改进,如应用范围、决策模型等。随着业务的发展、项目团队经验的累加、技术的成熟都需要不断完善拓展。因此,我们还需要进一步做以下工作、进一步提高系统的稳定性和安全性、利用己有的其它系统资源,从中心库中抽取更多的慢性病业务数据,满足各部门不断增长的报表需求、设计新颖的、有价值的数据挖掘需求,将其合理的嵌入到数据仓库系统中,并利用挖掘结果指导人们的日常工作、设计并总结一套完善的慢性病领域的指标体系,为相关的业务评估工作提供科学依据、将带有中心库的数据仓库架构推广到其它领域进行应用 第页华东理工大学硕士学位论文限于笔者水平,论文中难免会出现错误和不足,敬请各位老师和同学批评指正。 华东理工大学硕士学位论文第页参考文献尸一几卫﹂﹄一,乙庄口匕土八二工,工﹃毛琦敏数据仓库在医院应用的研究医学研究生学报,,一页王劫商业银行信贷信息数据仓库的研究与应用厦门厦门大学李彩霞性能分析及优化现代电子技术,,一靳钢公安综合信息系统数据仓库的建设西安西安电子科技大学冯迪砂医院信息数据挖掘研究绵阳西南科技大学迟忠先,李艳红,张春涛核心技术—数据立方体的研究现状与展望计算机工程,一一工尸`﹄叮刁`,八陈华英医疗卫生信息数据仓库及联机分析技术成都四川大学肖冰医疗数据仓库的设计长春长春工业大学戴小飞纵向数据混合效应模型的研究扬州扬州大学一,李静数据仓库中的数据粒度确定原则计算机与现代化,一向春医疗保险信息系统的数据仓库与数据挖掘研究南京南京航空航天大学,土门刁飞一月工﹄任叹匕`二百︹月李哲琦技术研究及其在移动通信运营中的应用长春长春工业大学高志新中数据立方体的研究哈尔滨哈尔滨理工大学崔建波电信企业数据仓库信息模型的设计与应用北京中国邮电大学尉宁电信行业数据仓库建设与实践重庆重庆大学吕洪敏基于。数据仓库应用技术的研究与实现武汉武汉科技大学姚军剑基于电信数据仓库的客户流失分析北京北京邮电大学陈金雄,刘雄飞,王庆森数据仓库与医院管理决策中国医院,一页工﹄乙︼廿八门工刘驰基于数据仓库的电信套餐专题分析北京北京邮电大学陈岚基于数据仓库的图书馆系统的构建与应用北京北京工业大学王斯赞基于数据仓库的收视数据统计分析系统的研究与应用厦门厦门大学石景明基于卫生行业信息系统的数据仓库和数据挖掘设计上海上海交通大学姜永亮教务决策数据仓库研究与设计广州华南师范大学袁霖面向的多维数据模型及实现技术研究上海上海交通大学陈耀丰数据仓库多维计算的研究与实现北京北京工业大学李明高数据仓库和数据挖掘技术在中的应用研究广州中山大学 第页华东理工大学硕士学位论文一厂曰乙门甘`一,几刘凯数据仓库技术在社保领域中的应用研究长沙中南大学冯篙数据仓库技术在医疗管理分析系统中的应用研究长沙中南大学刘红敏数据立方体生成技术研究太原中北大学曾万里数据挖掘技术在信用卡数据仓库中的应用研究长沙中南大学杨树元,张春花,李瑞台数据仓库中粒度级别的确定河北省科学院学报,,一页`、八」气自︸、门许学军数据仓库中数据的粒度划分阜阳师范学院学报,,一,页恤儿,认肠,耐,,皿,,﹄,内斗月`︸,硕汾研一,一,,二田卫一田吐,械田卫一正,一,,以「一 华东理工大学硕士学位论文第页致谢在我攻读计算机应用技术工学硕士的两年半时间里,我的导师刘江副教授经常给予我指导和帮助。刘老师的严谨的教学态度、学习方法等都给了我很大的启发和鼓舞。使我的课题能顺利进展,并最终完成。最后衷心感谢在百忙之中抽出时间来阅读、评审我的论文和参加我的论文答辩的各位专家、老师。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭