基于电子病历的深度神经网络预测模型研究与应用

基于电子病历的深度神经网络预测模型研究与应用

ID:77669448

大小:1.92 MB

页数:68页

时间:2024-02-04

上传者:笑似︶ㄣ無奈
基于电子病历的深度神经网络预测模型研究与应用_第1页
基于电子病历的深度神经网络预测模型研究与应用_第2页
基于电子病历的深度神经网络预测模型研究与应用_第3页
基于电子病历的深度神经网络预测模型研究与应用_第4页
基于电子病历的深度神经网络预测模型研究与应用_第5页
基于电子病历的深度神经网络预测模型研究与应用_第6页
基于电子病历的深度神经网络预测模型研究与应用_第7页
基于电子病历的深度神经网络预测模型研究与应用_第8页
基于电子病历的深度神经网络预测模型研究与应用_第9页
基于电子病历的深度神经网络预测模型研究与应用_第10页
资源描述:

《基于电子病历的深度神经网络预测模型研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

学校代码10459学号或申请号201412172148密级硕士学位论文基于电子病历的深度神经网络预测模型研究与应用作者姓名:李昆导师姓名:柴玉梅教授学科门类:工学专业名称:计算机科学与技术培养院系:信息工程学院完成时间:2017年05月 AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterDeepNeuralNetworkPredictionModelbasedonElectronicHealthRecordsByKunLiSupervisor:Prof.YumeiChaiComputerScienceandTechnologySchoolofInformationEngineeringMay2017 学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。学位论文作者:日期:年月日学位论文使用授权声明本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者:日期:年月日 摘要摘要电子病历中蕴含着海量的有价值信息,对电子病历的挖掘可以极大的提高医疗诊断效率,提高临床诊断的及时性、准确性,还可以降低医疗成本,为互联网医疗提供便利。本文利用深度学习方法,通过建立深度神经网络来搭建预测模型,同时结合传统的机器学习方法,在电子病历匿名化、胎儿体重预测和疾病分类预测等方面进行了预测模型构建的尝试。本文的主要工作有:(1)提出了基于文本骨架的循环神经网络匿名化模型,为电子病历难以被研究者使用的难题提供了新的解决方案。文本骨架是抽取出的电子病历的文本结构,它可以帮助循环神经网络更好的识别出隐私实体。本文在两个英文数据集和一个中文数据集上对基于文本骨架的循环神经网络匿名化模型进行了实验,结果表明文本骨架方法可以有效的提升神经网络的识别准确率。与现有的性能最优的模型对比也证明文本骨架方法在匿名化任务中有优异的表现。在中文数据集中文本骨架模型达到了近99%的识别准确率,在英文数据集中也达到了高于98%的识别准确率。(2)针对胎儿体重预测任务,提出了基于深度神经网络的胎儿体重预测模型。传统的公式计算方法严重依赖于医疗领域知识和医疗经验,本文提出的基于深度神经网络的方法无需对参数进行人工选择,只需大量训练数据即可训练出准确的预测模型。除此之外,本文还介绍了从电子病历中提取参数的方法,以及针对数据缺失值补全的策略。实验表明,基于深度神经网络的胎儿体重预测模型优于公式预测方法与基于传统人工神经网络的模型,降低了8.9%的预测误差。进一步的分析还表明本文提出的缺失值补全方法能够有效的加强对深度神经网络的训练。(3)本文提出了基于w-KNN的疾病预测模型。预测模型首先需要对于半结构化的病历进行处理,将其自顶向下的处理为结构化病历,对于参数中的自由文本短语,将其进一步的映射为词典中的症状。w-KNN的另一个优势在于,算法不仅可以进行疾病的预测,还可以找出与新样本最相似的历史样本。实验表明基于w-KNN的疾病预测模型可以有效的基于患者病历对疾病进行分类预测。关键词:电子病历深度神经网络自然语言处理数据挖掘I AbstractAbstractElectronicHealthRecordsarevaluableresearchresourcesbecauseoftheabundantinformationtheycontain.TheminingofEHRscanimprovetheefficiencyofmedicaldiagnosisandimprovethetimeliness,accuracyofclinicaldiagnosisandreducethecostofmedicalactivities.TheEHRsprocessingisoneofthebasicofInternetmedical.Inthisthesis,weusedeeplearningmethod,builddeepneuralnetworkspredictmodel.Withsometraditionalmachinelearningmethods,thisthesisintroducesthepredictmodelofmedicalrecordsde-identification,fetalweightestimationanddiseasepredictclassification.Themaincontributionsofthisthesisareasfollowing:TotackletheproblemthatEHRscannotbeeasilyaccessedbyresearchersororganizationsforalargeamountofprotectedhealthinformation(PHI)existsinEHRs,weproposedtheTextSkeletonbasedrecurrentneuralnetworkde-identificationframework.Textskeletonisthegeneralstructureofamedicalrecord,whichcanhelpneuralnetworkstolearnbetter.WeevaluatedourmethodonthreedatasetsinvolvingtwoEnglishdatasetsfromi2b2de-identificationchallengeandaChinesedatasetwecreated.Empiricalresultsshowthatthetextskeletonbasedmethodweproposedcanhelpthenetworktorecognizeprotectedhealthinformation.Thecomparisonbetweenourmethodwithstate-of-the-artframeworksindicatesthatourmethodachieveshighperformanceontheproblemofmedicalrecordde-identification.Specifically,theperformanceontwodifferenti2b2datasetsaswellastheChinesedatasetdemonstratedanF-scoreofabout0.98consistently.Forthechallengeoffetalweightprediction,weproposedadeepneuralnetworkstructureforbuildingfetalweightpredictionmodel.Traditionalfetalweightpredictionmodelsarebasedonmedicalknowledgeandrelayonfeatureselection,whichisleadingtothehardgeneralizeofthemodelbuildingprocess.Whatismore,weintroducetheprocesswhichextractingparametersfromelectronichealthrecordsandthefillingstrategiesformissingvalue.EmpiricalresultsshowthedeepneuralnetworkbasedpredictionmodeloutperformstraditionalmethodswithreducetheII Abstracterrorby8.9percent.Wealsointroduceaw-KNNmethodfordiseasepredictionmodelinthethesis.Themodelfirsttransitthemedicalrecordstostructureddata,andmaptheshorttexttosymptomphrase.Animportantadvantageofw-KNNmodelisitcanfindoutthesimilarsamplesfromtheknowledgebase.Thesimilarsamplecanhelpdoctormakedecision,andgivepatientbetterunderstandoftheirsituation.Empiricalresultsshowthatthew-KNNmodelcanpredictdiseaseaccurately.Keywords:ElectronicHealthRecords;DeepNeuralNetwork;NaturalLanguageProcessing;DataMiningIII 目录目录摘要................................................................................................................................................IAbstract.......................................................................................................................................II1绪论.......................................................................................................................................11.1研究背景与意义......................................................................................................11.2国内外相关研究......................................................................................................31.2.1电子病历处理...................................................................................................31.2.2深度神经网络...................................................................................................31.2.3医疗预测模型...................................................................................................41.3本文研究工作...........................................................................................................51.4本文的组织结构......................................................................................................62相关理论及背景知识.................................................................................................82.1电子病历处理技术.................................................................................................82.1.1基于规则与词典的匿名化方法.......................................................................82.1.2基于隐马尔可夫模型的匿名化.......................................................................92.1.3基于条件随机场的隐私实体识别.................................................................112.2深度学习理论.........................................................................................................122.2.1深度神经网络.................................................................................................122.2.2卷积神经网络.................................................................................................142.2.3循环神经网络.................................................................................................152.3医疗预测模型相关理论......................................................................................182.3.1基于逻辑回归的预测模型.............................................................................182.3.2基于𝑘-近邻算法的预测模型..........................................................................192.4本章小结..................................................................................................................20IV 目录3基于TS-RNN的电子病历匿名化模型..........................................................213.1电子病历骨架生成算法......................................................................................213.2块表示方法.............................................................................................................223.3使用TS-RNN进行序列标注.............................................................................233.4中文电子病历匿名化...........................................................................................253.5基于TS-RNN的电子病历匿名化实验与分析.............................................253.5.1匿名化模型的参数.........................................................................................263.5.2模型在各数据集上的性能.............................................................................263.5.3块表示方法对比.............................................................................................293.5.4循环神经网络不同内部结构对比.................................................................303.5.5RNN隐含单元与词向量维度对比................................................................313.6本章小结..................................................................................................................314基于深度神经网络的胎儿体重预测................................................................334.1基于深度神经网络的预测模型.........................................................................334.2生理参数预处理....................................................................................................344.2.1提取生理参数.................................................................................................344.2.2补全缺失值.....................................................................................................364.3预测网络的结构与训练......................................................................................384.4基于深度神经网络的胎儿体重预测实验与分析.........................................404.4.1数据集描述.....................................................................................................404.4.2深度神经网络模型与传统方法的对比.........................................................414.4.3结果分析与相关讨论.....................................................................................424.5本章小结..................................................................................................................435基于w-KNN的疾病预测模型............................................................................445.1电子病历结构化....................................................................................................445.2特征变换..................................................................................................................455.3w-KNN预测模型..................................................................................................46V 目录5.4基于w-KNN的疾病预测模型实验与分析...................................................465.4.1电子病历数据集描述.....................................................................................465.4.2预测模型的性能对比.....................................................................................475.4.3结果分析与讨论.............................................................................................485.5本章小结..................................................................................................................486总结与展望.....................................................................................................................496.1总结...........................................................................................................................496.2展望...........................................................................................................................50参考文献..................................................................................................................................51个人简历、在校期间发表的学术论文及研究成果........................................57个人简历............................................................................................................................57在校期间发表的学术论文............................................................................................57研究成果............................................................................................................................57致谢.............................................................................................................................................58VI 图和附表清单图和附表清单图2.1天气变化的转移状态........................................................................................................................10图2.2天气状态转移矩阵............................................................................................................................10图2.3隐马尔可夫模型的状态转移............................................................................................................11图2.4一个前馈神经网络示意图................................................................................................................13图2.5卷积神经网络层的三部分................................................................................................................15图2.6经典神经网络的链式形式................................................................................................................16图2.7LSTM的链式结构..............................................................................................................................17图2.8GRU的链式结构................................................................................................................................18图2.9k近邻分类的示意图...........................................................................................................................19图3.1一份电子病历的片段........................................................................................................................21图3.2BIO表示法与PO表示法的对比.......................................................................................................23图3.3利用循环神经网络进行序列标注.....................................................................................................24图3.4每个隐私实体类别entity级别的F1值对比...................................................................................28图3.5块表示对比结果................................................................................................................................29图3.6不同RNN内部结构下的性能对比..................................................................................................30图3.7不同维度组合下的F1值对比..........................................................................................................31图4.1基于深度学习的胎儿体重预测模型.................................................................................................33图4.2预测模型中的深度神经网络结构.....................................................................................................39图4.3预测误差在各范围的对比................................................................................................................43表3.1数据集中各类隐私信息分布............................................................................................................26表3.2现有匿名化方法与TS-RNN的对比................................................................................................27表3.3entity级别和token级别的F1值对比..............................................................................................27表3.4中文数据集上的性能........................................................................................................................28表3.5不同维度组合下的效率对比............................................................................................................31表4.1部分参数提取规则............................................................................................................................35表4.2使用的参数及所属类别....................................................................................................................39表4.3胎儿体重预测方法对比....................................................................................................................41表4.4加权最近邻方法使用的权值............................................................................................................42表5.1电子病历格式化参数........................................................................................................................44表5.2神经内科样本分布情况....................................................................................................................46表5.3部分症状义项及对应类别................................................................................................................47表5.4w-KNN模型与经典算法的对比........................................................................................................48VII 1绪论1绪论1.1研究背景与意义电子病历(Electronicmedicalrecord,EMR)是医务人员在医疗活动中,使用医疗信息系统生成的文字、符号、图形、图标、影像等数字化信息。每天都会大量的电子病历在全世界的医疗机构中产生,这些数据蕴含着不可估量的医学知识与健康信息,因此电子病历是一种有价值的研究资源。首先对于患者,深度挖掘分析其电子病历能够其带来更多的健康收益。根据维基百科的定义[1],电子病历可以包含过去、现在或未来,生理与心理的病患状况记录,是由电子化方式撷取、传送、接收、存储、取回、连结与处理的多媒体资料。可见通过计算机自动分析患者的电子病历可以获取患者长期的生理与心理状况,并且通过人类无法完成的高速计算综合多种形式的健康多媒体资料,利用大数据分析,为患者做出及时准确的健康指导。其次对于医务人员,电子病历的分析挖掘也将助力其更加高效的为患者服务。计算机可以通过自然语言处理技术、图像识别技术等先进算法分析患者的电子病历,进而搭建预测模型,辅助医生、护士判断患者的疾病状况,提高诊断的平均水平,为偏远贫困地区的诊疗过程提供便捷可靠的参照。与此同时,算法对电子病历的分析还可以发现医院管理、医生操作上的漏洞与失误,提升医院内部的管理水平与医务人员的整体职业能力。最后,对电子病历挖掘还有助于医学研究。基于电子病历构建疾病预测模型的过程中会自动生成疾病的相关知识,这些知识是通过对大量数据的统计分析及自动学习得出的。其中自动生成的知识可能与传统的医学知识相契合,也有可能为现有的医学知识做出补充与更新。同时对于电子病历中记录的用药、治疗情况建模,可以得到相关药品与治疗手段的隐含关系,为改进医疗手段与方式提供可参考的信息。基于电子病历的数据挖掘与预测模型构建工作虽然极具价值,但是也面临的诸多的困境与阻力。现阶段最重要的困难之一是医疗数据的共享问题。以电子病历为主的医疗数据现在很难被广大的研究者和研究机构接触到,其原因在于电子病历中含有大量隐私信息(ProtectedHealthInformation,PHI)。这些隐私1 1绪论信息包括但不限于:患者姓名、医生姓名、医疗机构名称、证件号码、日期、地点、联系方式、年龄等。此类信息都是高度敏感的隐私类信息,美国在1996年通过了相关法案(HealthInsurancePortabilityandAccountabilityAct,HIPAA),定义了18种隐私信息类型,从法律上明文规定了在传播电子病历之前需要移除的隐私信息。在此之后,美国涌现了大量电子病历匿名化的相关研究,同时也促进了基于电子病历的其他方法的研究工作,许多电子病历的公共数据集被建立了起来,以供科研人员广泛的参与电子病历的挖掘研究。其中最著名的就是i2b2(InformaticsforIntegratingBiologyandtheBedside)组织建设的公共电子病历数据集,同时该组织也每年定期发起评测活动,推动电子病历的相关研究[2]。虽然我国还未颁布相关法律,但是电子病历匿名化的相关研究却是必不可少的。只有完全的去除电子病历中的隐私信息,这些病历才能够更加广泛、自由的被广大科研人员利用,进而产生科研成果。反之,基于电子病历的分析、挖掘、疾病预测等工作都无从谈起。除了对病历的匿名化,基于电子病历的预测模型构建的另一困难在于对模型准确率的高要求。医疗行为关乎人的生命健康与安全,错误的结果会产生非常严重的后果,因此构建医疗领域的预测模型对系统的各项指标都有不同于其他预测模型的要求。首先医疗领域的预测模型要有一定的召回率,一个无法高召回的预测系统是无法被患者所信任的。并且预测模型还需要极高的准确率,特别是一些高危疾病,一旦判断失误就会造成严重的健康损害。医疗领域的预测模型同时还需要系统有较强的稳定性,不能在一些情况下错的离谱,这样会对患者与医生产生严重的误导,使预测结果失去参考价值。针对以上问题,本文引入深度神经网络方法构建电子病历匿名化模型,在循环神经网络(RecurrentNeuralNetwork,RNN)的基础上,结合电子病历文本的特点提出基于文本骨架的循环神经网络(TextSkeletonRecurrentNeuralNetwork,TS-RNN)匿名化算法,构建了一种新型的端到端的电子病历匿名化系统。同时本文还通过深度神经网络和改进的k-近邻算法,分别提出了胎儿体重预测模型与疾病自动诊断预测模型,在真实电子病历数据集上达到了优异的效果。2 1绪论1.2国内外相关研究1.2.1电子病历处理早在1996年,Sweeney通过基于规则的方法提出了第一个电子病历匿名化系统[3]。同一年,美国政府批准通过了《健康信息传播责任法案》(HIPAA),定义了18种隐私信息类型。只有这些隐私信息被彻底从电子病历中移除,病历才能被认定为是“安全的匿名化”,这些类别包括患者的姓名、证件号码、日期、地理位置等。从这时起,研究者们提出了许多基于模板匹配和数据驱动的匿名化系统[5],这些系统通过复杂的启发式知识和领域词典来进行隐私实体的识别。为了推进电子病历匿名化的相关研究,在2006年i2b2首次通过发起匿名化评测任务,组织建设了一个统一的平台以供研究者比较不同系统的性能[2]。这次评测使用PartnerHealthcare的电子病历作为标注数据,这些数据中包含8种隐私信息实体,分别是:患者姓名、医生姓名、医院名称、证件号码、日期、地点、手机号码和年龄。参加评测的系统有基于规则的方法[6],也有基于统计的方法,一些系统将匿名化任务看做对标记的分类任务,另一些将其看作是序列标注问题。这些方法使用的模型包括隐马尔可夫模型、条件随机场模型[7]、支持向量机模型[8]与决策树模型[9]。最终的提交结果显示基于机器学习的系统有着最优秀的性能[2]。随着一些最新的研究成果[10],研究者达成了一个新的共识是有必要建立一个比HIPAA更加严格的隐私信息标准。互联网技术的发展也使个人的隐私信息变的多元化,近年来逐渐流行的社交网络例如Facebook、Twitter、微信、微博等帐号信息也属于当代个人隐私信息重要的组成部分。为了这个目的,2014年i2b2匿名化评测挑战面向了25种电子病历隐私实体[11-12],这其中囊括了HIPAA法案所定义的所有12种隐私类型。提交至2014年i2b2评测的系统中,一些性能优异的系统结合了条件随机场和词典、规则[13-15]。1.2.2深度神经网络深度神经网络学习(DeepNeuralNetwork,DNN)的历史要从人工神经网络(ArtificialNeuralNetwork,ANN)说起。ANN最初是为了模拟生物大脑的信息处理方式,建立大脑的数学模型而创造的[16-18]。但是现在看来,人工神经网络模型其实与生物神经元没有太大的相似之处,但是这却丝毫没有阻碍这个3 1绪论模型在模式识别、机器学习中的应用与发展。随着神经网络模型的不断发展,很多神经网络的变种也被学者们提出,其中最出名、应用最广泛的结构之一,被称为多层感知机(MultilayerPerceptron,MLP)[19-20]。一个有着特定权值集合的多层感知机定义了一个网络输入与输出向量之间的函数。通过改变权值的大小,一个感知机表示许多不同的函数。但是人工神经网络模型却存在很多问题,这导致ANN相关的研究虽然很早被提出,但是却在早期发展缓慢。第一个问题就是ANN的训练算法较慢,导致与其他方法的对比下时间效率很低。而另一个问题是ANN存在梯度消失的问题,这样例如多层感知机这类模型在构建网络结构的时候就要非常注意网络的复杂度。层数过多,过于复杂的网络很难良好的拟合训练数据。2007年,GeoffreyHinton等人[21]提出了有效的神经网络训练方法,这一方法将每层网络视为受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)[22],再使用传统的反向传播算法调优。这一方法极大的加快了神经网络的训练速度,也使得网络的层数与复杂度可以进一步增加。另外,深度学习还有一个主要的思想是用机器学习方法去发现其本身的表示,而不只是输出的表示,这一方法被称为表示学习[23]。学习到的模型表示往往比可以被人工设计出来表征要优越的多,并且学习到的表示也能快速的被人工智能系统应用于新的任务,而无需人为的过多干预。表示学习算法可以在几分钟发现一组新的特征,或者更复杂的,使用几小时至若干月发现新的特征表示。而人类去为复杂的任务设计特征的需要大量的时间与人力,甚至是研究人员几十年的努力。深度学习方法,在一些困扰了人工智能研究者们很多年的复杂任务上,取得了惊人的突破。这种方法被证明擅长于挖掘高维数据中的复杂结构,因此被用在了科学研究、商业挖掘与政府事务等诸多有价值的领域。基于深度学习的方法席卷了多个传统机器学习与数据挖掘领域的复杂任务,如图像识别[24-27]、语音识别[28-30],在潜在的药物分子挖掘[31]、粒子加速器数据分析[32]、预测基因表达与疾病关系[33-34]等方面击败了其他机器学习算法。更加令人兴奋的是,在机器学习方法处处受挫的自然语言处理领域,深度学习也表现出了很大的潜力[35],特别是文本主题分类、情感分析、问答系统[36]与机器翻译[37]等应用背景中。1.2.3医疗预测模型伴随着机器学习方法的发展,越来越多的预测模型被利用在医疗领域的数4 1绪论据和相关任务中。Stanculescu[38]和Henry等人[39]探索了时序医疗数据在疾病探测和预测任务。Marline[40]和Schulam等人[41]研究了医疗数据中的聚类与子类化。Merz[42]、Farmer[43]和Mohammadi[44]等人使用规则和机器学习等方法,通过孕妇的检查参数来预测胎儿出生时的体重。许多最新的研究使用潜在的因子来获取时序医疗数据中的非线性动态特征,来发现健康医疗数据中有意义的表达和潜在的疾病风险。高斯过程方法的流行是因为它可以直接处理不规则的采样,并且通过不同时间之间的共参函数融合先验知识,如Marlin[40]和Ghassemi等人[45]的研究。Quinn[46]利用含潜在转换变量的线性动态系统来建模类似心动过缓的生理状态。不仅是对疾病的预测,在人类健康的其他很多方面,预测模型也有广泛的用途。例如在妇产科学,在胎儿分娩之前,对胎儿体重的预测具有非常重要的意义。首先胎儿的体重能够直接的反映出其在子宫内的发育情况,其次胎儿的体重对于也对分娩方式提供了重要的决策信息。最初对胎儿体重的预测是依据医务人员的经验公式计算的,这些公式利用妇产科检查的多项参数,Merz等[42]使用孕妇腹围(AC)和胎儿双顶径(BPD)两个参数估测胎儿体重,Schild等[47]使用胎儿双顶径、腹围和胎儿股骨长(FL)等参数为不同性别的胎儿分别设计了不同的计算公式。公式虽然众多,但是没有一个统一的公式可以全面、准确的对胎儿的体重进行估测。在1992年,Farmer等[43]首先提出使用人工神经网络模型构建胎儿体重预测算法。Cheng等人[48]将多种传统方法与神经网络结合起来进行胎儿体重的预测。随后Mohammadi等人[44]将人工神经网络用于对双胞胎的体重预测中。相对于传统的基于经验、医学知识与公式的预测方法,基于ANN的预测模型展现出了诸多的优势,但是依旧没有免去利用启发式领域知识对输入特征的选择。1.3本文研究工作本文针对电子病历数据的特点,以智能医疗为需求,结合深度学习方法与经典机器学习算法,做了以下三方面的工作:(1)提出了一种新的解决电子病历匿名化的模型TS-RNN。TS-RNN模型基于循环神经网络识别电子病历中的隐私实体,引入了电子病历骨架的概念,在多项性能指标上击败了现有的电子病历匿名化系统。TS-RNN模型包含病历骨5 1绪论架生成、块表示方法和隐私实体标准三部分,是一个端到端的完整匿名化系统。在两个英文数据集与一个中文数据集上的实验表明,TS-RNN模型有很强的泛化能力与通用性,能够不加修改的应用于多语言的电子病历中。(2)基于深度神经网络提出一种可以对不同地区、不同医院乃至不同人群,个性化构建胎儿体重预测模型的系统。传统胎儿体重预测方法存在的问题是:首先,新分娩胎儿的平均体重随着经济发展逐渐增加,巨大儿的产生率也在逐年上升,占了新生儿的5.62%~6.49%,随之而来的是难产率和剖宫产率相应上升[49];其次,由于经济水平、文化、种族等因素,不同地区不同人群间存在很大差异,那么在胎儿体重估测上也会产生很大误差[50],因此需要针对不同地区,甚至是在不同的医院建立个性化的胎儿体重预测模型。本文将深度学习方法引入到胎儿体重预测模型构建领域,引进了电子病历的参数提取方法,并且提出了有效的缺失值补全策略。从2015年全年的某妇幼保健院产科病历中,抽取筛选出共计6979例临床电子病历数据,随机取80%作为训练集训练,其余20%作为测试集合验证模型有效性。实验结果表明基于深度学习方法的胎儿体重预测模型对传统公式方法降低了8.9%的预测误差。与此同时,对实验的分析还证明了本文提出的缺失值补全策略有效的强化了模型的训练效果,降低了胎儿体重预测的误差,提高了预测准确性。(3)利用神经内科的电子病历,结合改进的加权k-近邻算法,提出了一种自动疾病诊断预测模型。本文所用的神经内科病历为半结构化文本,主要面临的问题是如何将数值特征与文本特征进行结合,随后进行分类器的训练。本文提出了一种数值特征与短文本结合计算样本距离的算法,最终利用k-近邻模型进行疾病的预测。实验结果表明基于数值特征与短文本结合的样本距离算法在神经内科的疾病预测分类上有着良好的性能。1.4本文的组织结构根据本文叙述的主要研究内容,将文章分为六个章节进行论述,各章节的主要内容如下:第一章:绪论。介绍了本文研究工作的背景与意义,国内外学者在电子病历处理、深度神经网络及疾病预测模型上的研究现状以及本文的研究内容,并介绍了本文的组织框架。6 1绪论第二章:相关理论及背景知识。首先对电子病历处理的相关研究工作做了介绍,特别是电子病历匿名化方面的理论与方法;随后介绍了使用深度学习方法的相关知识,介绍了深度神经网络在序列标注任务上的应用;最后介绍了现阶段解决疾病预测模型构建的思路与方法。第三章:基于TS-RNN的电子病历匿名模型。详细介绍了TS-RNN模型如何解决电子病历匿名化问题。并通过实验证明TS-RNN模型的性能。第四章:基于深度神经网络预测胎儿体重。具体介绍了通过搭建深度神经网络预测胎儿体重的方法。通过实验验证了深度神经网络模型能够更加准确的预测胎儿体重。第五章:基于w-KNN构建疾病诊断预测模型。本章介绍了如何通过w-KNN算法,建立疾病预测模型,实现自动诊断系统。并通过实验证明w-KNN的有效性。第六章:总结与展望。对本文的工作进行总结,并讨论了本文工作中存在的不足,对下一步的工作进行了展望与分析。7 2相关理论及背景知识2相关理论及背景知识2.1电子病历处理技术无论是已有的电子病历处理系统、软件、平台(HIDE[51]、GATE、MIST[52]等),或是各个研究者提出的改进病历处理算法,电子病历的处理方法(特别是匿名化方法)可以总结性的分为两大类:基于规则与词典的方法和基于统计机器学习的方法。基于统计机器学习的方法又主要是隐马尔可夫模型(HiddenMarkovModel,HMM)、条件随机场模型(ConditionalRandomField,CRF)、支持向量机(SupportVectorMachine,SVM)、人工神经网络等。本节将介绍应用广泛的几种电子病历处理算法,首先是基于规则与词典的方法,随后是隐马尔可夫模型与条件随机场模型。2.1.1基于规则与词典的匿名化方法最初的电子病历匿名化系统大多基于规则与词典方法。规则词典方法的优势在于:1)能够以较低的开发成本、开发时间到达不错的识别准确率,性价比高。2)基于电子病历半结构化的特点,且领域词汇较多的性质,利用词典方法可以识别出很多专业领域词汇。在进行手工规则的制作之前,首先要明确匿名化的目标,再根据不同目标的模式进行匹配规则的制定。通常需要匹配的匿名化实体类别如下所示:1.名称,如患者姓名、医务人员姓名、访客姓名等。2.地点,如医院名称、城市、街道、邮政编码等。3.日期,如部分或完整的日期、年份等。4.联系方式,如手机号码、固定电话号码等。5.证件号码,如患者身份证号码、医生工号等。6.邮箱地址,患者、医务人员的私人、公共电子邮箱。7.网络链接,个人网站、医院网站、相关疾病介绍链接等。8.年龄,根据相关法律对年龄进行清除。个别隐私实体是有着确定的范围的,可以通过检索词典的方法来识别。例如城市名称,通过查找一个完整的词典列表就可以识别出城市名称。人名同样8 2相关理论及背景知识可以通过词典的方式进行匹配,比如可以利用医院的患者姓名登记数据库或者医务人员注册数据库进行匹配。潜在的隐私实体也可以制作一些词典,例如性别、年龄、姓氏、常用人名等。不是隐私实体的词也可以构建词典来标明这个词不需要被判定为隐私实体,利用常用的语气词、停用词、药物名、治疗手段方法名称等。下面以名称类别的识别为例子介绍一下基于规则与词典的匿名化方法。名称类别的识别可以大致分为四个步骤,以顺序的方式依次执行。(1)加载相关词典,使用文本匹配算法通过查找字典来确定患者及医务人员的姓名。但是电子病历中的姓名有输入错误的可能性,有一些输入错误检测算法可以用来链接这些误输入。(2)利用医院存储的患者姓名数据库或者医务人员数据库来匹配电子病历中的名称词。有时为了工作的便捷,可能会有一些名字是简写的,这就需要对这些识别出的名称标记上“确定的”和“可能的”标记,以便后边的算法进一步确认。(3)通过前缀、后缀匹配模板来识别隐私名称实体。例如,医务人员名称后边常会带有相应的职称(主任医师、副主任医师、护士长等),患者家属名称前边会有类似的人物关系词(丈夫、女儿、儿子、妻子等)。(4)将前几步识别出的名称记录在一个列表中,这个列表中的名称是已经被确定的隐私实体,那么这些隐私实体也可以被用于识别列表中人物的相关病历。2.1.2基于隐马尔可夫模型的匿名化隐马尔可夫模型(HiddenMarkovModel,HMM)是一种简单的生成式模型,在自然语言处理的多个领域都表现出了优异的性能,如词性标注、命名实体识别等。一些基于隐马尔可夫模型的算法被提出来用作匿名化方法,如Chen等人[53]提出一种被称为HMM-DP的隐马尔可夫模型改进算法来识别隐私实体。马尔可夫模型是一种随机过程,随机过程的形式化定义为,假设系统有N个状态𝑆={𝑠1,𝑠2,…,𝑠𝑛},随着时间的推移,系统将从某一个状态转移到另一个状态。定义Q为一个随机变量序列,𝑄={𝑞1,𝑞2,…,𝑞𝑇},其中𝑞𝑡∈𝑆,𝑡=1,2,…𝑇。那么系统在时间𝑡处于状态𝑠𝑗的概率取决于其在时间1,2,…,𝑡−1的状态,即:𝑃(𝑞𝑡=𝑠𝑗|𝑞𝑡−1=𝑠𝑖,𝑞𝑡−2=𝑠𝑘,∙∙∙)(2.1)9 2相关理论及背景知识而马尔可夫模型是独立于时间𝑡的随机过程,如公式2.2所示。𝑃(𝑞𝑡=𝑠𝑗|𝑞𝑡−1=𝑠𝑖)=𝑎𝑖𝑗,(1≤𝑖,𝑗≤𝑁)(2.2)其中𝑎𝑖𝑗称为转移状态概率,必须满足的条件有:1)满足𝑎𝑖𝑗≥0;2)满足∑𝑁𝑎=1。一个常用的例子是天气变化的例子,如图2.1所示。𝑗=1𝑖𝑗图2.1天气变化的转移状态其中天气状态有三种:晴朗、多云、阴雨,假设每种天气的初始概率为0.4、0.5、0.1。而状态转移矩阵假设如图2.2所示。图2.2天气状态转移矩阵如果根据天气的变化定义一个马尔可夫模型𝜇=(𝑆,𝐴,𝜋),那么状态集合为𝑆={𝑠𝑖},状态转移矩阵概率为𝐴={𝑎𝑖𝑗},初始化概率矩阵为𝜋={𝜋𝑖}。而对于隐马尔可夫模型来说,上边例子中的天气状态是不能被直接的观察到的,能够直接被观测到的是一些可观察状态。因此对于隐马尔可夫模型来说,可以形式化的定义为𝜇=(𝑆,𝑉,𝐴,𝐵,𝜋),如图2.3所示,其中S为状态集合(隐含状态),V为观察值集合,A为转移概率矩阵,B为发射概率矩阵,𝜋为初始概率矩阵。隐马尔可夫模型有三个基本问题,第一个就是给定了模型𝜇=(𝐴,𝐵,𝜋),如何有效地计算某个观察序列𝑂=𝑜1𝑜2……𝑜𝑇出现的概率,一般这个问题可以通过前向算法(ForwardAlgorithm)来求解。第二个就是,给定模型𝜇=(𝐴,𝐵,𝜋)和观察序列𝑂=𝑜1𝑜2……𝑜𝑇,如何有效地确定一个状态序列𝑄=𝑞1𝑞2…𝑞𝑇,以便10 2相关理论及背景知识最好的解释观察序列。这个问题可以使用维特比算法求解。最后一个问题是,给定一个观察序列𝑂=𝑜1𝑜2…𝑜𝑇,如何找到一个能够最好的解释这个观察序列的模型,即怎样调节参数𝜇=(𝐴,𝐵,𝜋),使得𝑃(𝑂|𝜇)最大化。这个优化过程可以使用Baum-Welch算法来实现。图2.3隐马尔可夫模型的状态转移2.1.3基于条件随机场的隐私实体识别条件随机场(ConditionalRandomFields,CRF)同样也是一种常用于命名实体识别的判别式模型。HeBin等人[54]就利用条件随机场构建了一个电子病例的匿名化系统。对于有标记的观测序列𝑥=𝑥1𝑥2…𝑥𝑛,CRF可以通过对标签集合内所有可能的标签𝑦最大化条件概率P(y|x),预测序列对应的标签𝑦′=𝑦𝑦…𝑦。12𝑛Lafferty等人[55]将与给定观察序列𝑥的对应的标记序列𝑦的概率定义为一个势函数的归一化积,如式2.3所示:exp⁡(∑𝜆𝑗𝑡𝑗(𝑦𝑖−1,𝑦𝑖,𝑥,𝑖)+∑𝜇𝑘𝑠𝑘(𝑦𝑖,𝑥,𝑖))(2.3)𝑗𝑘其中𝑡𝑗(𝑦𝑖−1,𝑦𝑖,𝑥,𝑖)是整个观察序列和标记序列中位置𝑖与位置𝑖−1的标记的转移特征函数,𝑠𝑘(𝑦𝑖,𝑥,𝑖)是位置𝑖的标记和观察序列的状态特征函数,𝜆𝑗和𝜇𝑘是为了训练而建立的参数。当定义特征函数时,就是建立了一个观察值的实值特征集合𝑏(𝑥,𝑖)来表达训11 2相关理论及背景知识练数据经验分布的一些特点,这些训练数据代表了模型的分布。特征的一个例子如公式2.4所示:1如果观察点𝑖的词是“A”b(x,i)={(2.4)0其他如果当前状态(在状态函数的情况下)或者之前和当前状态(在转移函数的情况下)获取了特定的值,那么每个特征函数都获取这些实值观测特征𝑏(𝑥,𝑖)中的一个。因此所有的特征函数都是实值。比如,对于以下转移函数有:𝑏(𝑥,𝑖)如果𝑦𝑖−1=𝐼𝑁并且𝑦𝑖=𝑁𝑁𝑃t𝑗(𝑦𝑖−1,𝑦𝑖,𝑥,𝑖)={(2.5)0其他最终,对于给定一个观察序列𝑥,对应的标签序列𝑦的概率可以表示为:1𝑝(𝑦|𝑥,𝜆)=exp⁡(∑𝜆𝑗𝐹𝑗(𝑦,𝑥))(2.6)𝑍(𝑥)𝑗其中𝑍(𝑥)是归一化因子。2.2深度学习理论本章介绍了深度学习相关的背景知识和基础理论,首先介绍深度神经网络的基础,随后通过两个小节分别详细的介绍两种最流行的深度神经网络结构:卷积神经网络和循环神经网络。2.2.1深度神经网络最简单的人工神经网络是由若干个小的处理单元组成的网络,处理单元之间由带有权值的连接。在最初的设想中,处理单元对应着生物神经中的神经元,而带有权值的连接表示神经元间突触的强度。前馈神经网络(Feedforwardneuralnetwork,FNN),或者被称为多层感知机(MultilayerPerceptrons,MLPs),是深度学习模型最基础和最本质的网络结构。前馈神经网络的目标是拟合某些函数𝑓′。比如说,对于一个将输入𝑥映射到类别𝑦的分类器𝑦=𝑓′(𝑥),前馈神经网络就是定义这么一个映射𝑦=𝑓(𝑥;𝜃),并且通过学习得到拟合效果最好的参数𝜃的值。前馈神经网络的名称由来就是由于信息12 2相关理论及背景知识流的方向是从输入𝑥,流经定义的函数𝑓,最终输出到𝑦。这期间没有从输出端反馈到网络里面的反馈连接。假如在前馈神经网络中加入了反馈连接,那么这种网络就被成为循环神经网络,循环神经网络将在2.2.3小节进行详细的介绍。图2.4一个前馈神经网络示意图下面通过一个简单的例子来深入介绍前馈神经网络。图2.4展示了一个简单的前馈神经网络示意图。这个网络中有一个隐含层,这个隐含层中有三个隐含单元。这个前馈神经网络的隐含单元有一个向量ℎ,这个向量是通过𝑓(1)(x;W,c)计算的。这些隐含单元的值随后被用来作为第二层网络的输入,而第二层网络是整个网络的输出层。输出层也同样是一个线性回归模型,但是现在它被应用在了ℎ上,而不是𝑥上。图2.5的神经网络现在包含了两个链接在一起的函数:ℎ=𝑓(1)(x;W,c)和𝑦=𝑓(2)(h;w,b),完整形式可以写为:𝑓(x;W,c,w,b)=𝑓(2)(𝑓(1)(x))(2.7)在使用深度神经网路建模时,网络的结构是一个永远无法逃避的话题。“网络结构”的定义是所有跟网络结构相关的内容:网络单元的个数是多少,以及网络单元之间的连接方式是怎么样的。大多数神经网络通过将单元节点组织称层的方式来构建网络结构,并且将网络层安排为一种链式的结构,每层网络又和其前一层建立一种函数关系。在这种结构中,第一层的定义为:(1)(1)(1)⊤(1)ℎ=𝑔(𝑊𝑥+𝑏)(2.8)第二层的定义为:(2)(2)(2)⊤1(2)ℎ=𝑔(𝑊ℎ+𝑏)(2.9)如此依次链接下去。在这些链式结构的网络中,构建的过程就主要考虑网13 2相关理论及背景知识络的深度以及每层网络的宽度。比较深层的网络往往可以通过较少的单元和较少的参数,并且泛化能力也较强,但是一般来说很难训练。对于某项任务,最理想的网络结构必须通过在验证集合上进行实验验证的方式来确定。下面将介绍两种流行的深度神经网络结构,卷积神经神经网络和循环神经网络。2.2.2卷积神经网络卷积神经网络[56](Convolutionalneuralnetworks,CNNs)一类特殊的神经网络结构,其特点在于包含一些网格状的拓扑结构。卷积神经网络被证明在很多实际工作中表现出了优异的效果,其名称“卷积神经网络”来源于其应用了一种数学计算方法“卷积”。卷积是一种特殊的线性运算,卷积神经网络简单地说就是至少有一层网络的传统矩阵乘法被替换为了卷积计算。一般地,卷积是一种作用于两个有着实值参数的函数的运算。假设有函数𝑥(𝑡)和𝑤(𝑎),那么将这两个函数卷积可以表示为:s(t)=∫𝑥(𝑎)𝑤(𝑡−𝑎)𝑑𝑎(2.10)这个操作就被称为卷积。一般用星号来表示卷积运算:s(t)=(𝑥∗𝑤)(t)(2.11)在卷积神经网络中,第一个参数x被称为卷积的输入,第二个参数𝑤被称为核(kernel),输出一般被称为特征映射。但是在计算机中,时间也是离散存储的,时间是有着固定间隔的离散值,因此可以定义离散卷积:∞s(t)=(x∗w)(t)=∑𝑥(𝑎)𝑤(𝑡−𝑎)(2.12)𝑎=−∞在机器学习应用中,输入常是一个多维数组,而卷积核往往是机器学习算法对应的参数数组。输入的数值和卷积核的元素一般都是明确分别存储的,因此经常是假设这些函数在除了有限点集合中的值之外都是0,这样就利用有限个数的数组元素来替代无限求和。另外,在实际应用中,可能需要同时参考多个坐标轴,例如二维空间中的图像作为输入的话,可能就需要一个二维的卷积核K:S(i,j)=(I∗K)(i,j)=∑∑𝐼(𝑚,𝑛)𝐾(𝑖−𝑚,𝑗−𝑛)(2.13)𝑚𝑛14 2相关理论及背景知识一个典型的卷积神经网络层包括三部分,如图2.5所示。在第一部分,会有许多并行的卷积来生成一系列的线性激励;第二部分,每个线性激励都会通过一个非线性的激活函数,比如修正线性激活函数(RectifiedLinearActivationFunction);最后在第三部分,会有一个池化函数(PoolingFunction)来修正这一层的输出。池化的作用是将本来网络的输出替换为一个附近输出的综合。比如Max池化[57]就将附近矩形临域最大的值替换掉当前的网络输出。池化的作用是为了将很近似的输入都输出统一的值。复杂层级术语简单层级术语连接下一层连接下一层卷积层池化阶段池化层检测器阶段:非线性变换检测器层:非线性变换卷积阶段:仿射变换卷积层:仿射变换进入卷积层进入卷积层图2.5卷积神经网络层的三部分2.2.3循环神经网络循环神经网络[58](RecurrentNeuralNetworks,RNNs)是一类用来处理序列数据的神经网络。类似于卷积神经网络适合于处理图像这种网格型数据一样,循环神经网络特别适合于处理序列类型的数据x(1)…𝑥𝑇。对于变长、时序数据,循环神经网络有天生的优势,常被用在词性标注、命名实体识别等学习任务中。2.2.3.1经典循环神经网络经典的循环神经网络节点内部有着最简单的重复单元,比如内部只是一个15 2相关理论及背景知识简单的Sigmoid函数层。一种能够直观的方式来可视化循环神经网络的方式是用链式形式来展现重复模块,如图2.6所示,呈现了经典循环神经网络的重复模块图。hhht1tt1σσσXXXt1tt1图2.6经典神经网络的链式形式经典循环神经网络可以通过公式来准确的表达,即:ℎ𝑡=𝜎(𝑊𝑖𝑥𝑡+𝑊ℎℎ𝑡−1)(1.14)其中𝑥𝑡是在时刻𝑡的输入向量,𝑊是网络权值,𝑏是向量的偏置。函数𝜎是logistic函数,即Sigmoid函数。2.2.3.2改进的循环神经网络为了解决经典循环神经网络在训练时的梯度爆炸和梯度消失问题[59],学者们提出了大量的模型改进来尝试训练中的这些困难。长短周期记忆网络[60](LongShortTermMemory,LSTM)就是一种循环神经网络的流行变种,这种结构解决了梯度消失问题,能够长时间的记忆信息。在LSTM的内部结构中有很多的乘法门来充当记忆单元,这些单元可以存储,并且能够访问很早之前存储的信息。LSTM最初的版本包括细胞单元、输入门、输出门,但是没有遗忘门和peephole连接。Gers等人[61]提出了加入遗忘门,这使得LSTM可以重置自己的状态。随后在2003年,他们又提出了peephole连接,这使得LSTM内部的cell可以控制门的状态[62],目的是为了提高模型的准确率。Peephole连接将cell与门连接了起来。本文中使用的LSTM含有记忆细胞、遗忘门,但是不含peephole连接。详细的网络结构呈现在图2.7中。16 2相关理论及背景知识ht1htht1Í+Í+Í+tanhtanhtanhÍÍÍÍÍÍσσtanhσσσtanhσσσtanhσXXXt1tt1LEGENDNetworkPointwiseVectorConcatenateCopyLayerOperationTransfer图2.7LSTM的链式结构长短期记忆网络的前向传递如公式2.15~2.19所示,其中函数𝜎和𝑡𝑎𝑛ℎ是非线性的激活函数(分别表示Sigmoid函数和双曲正切函数)。𝑓𝑡=⁡𝜎(𝑊𝑓∙[ℎ𝑡−1,𝑥𝑡]⁡+𝑏𝑓)(2.15)𝑖𝑡=⁡𝜎(𝑊𝑖∙[ℎ𝑡−1,𝑥𝑡]⁡+⁡𝑏𝑓)(2.16)𝐶𝑡=⁡𝑓𝑡∗𝐶𝑡−1+⁡𝑖𝑡∗tanh(𝑊𝑐∙[ℎ𝑡−1,𝑥𝑡]+⁡𝑏𝑐)(2.17)𝑜𝑡=⁡𝜎(𝑊𝑜∙[ℎ𝑡−1,𝑥𝑡]+⁡𝑏𝑜)(2.18)ℎ𝑡=⁡𝑜𝑡∗tanh(𝐶𝑡)(2.19)Cho等人[63]提出了一种LSTM的简化版,被称为门限循环单元网络(GatedRecurrentUnit,GRU)。GRU中既没有使用peephole连接,也没有输出激活函数,而是将遗忘门和输入门合并到了一起,组成了一个更新门。相对于LSTM,GRU还融合了细胞状态和隐含状态,因此最终的模型比标准的LSTM更加的简单,图2.8呈现了GRU的链式结构。本文中使用的GRU结构通过公式2.20~2.22来准确的定义,其中函数𝜎和𝑡𝑎𝑛ℎ是非线性激活函数。r𝑡是重置门,z𝑡是更新门,W是网络的权值。𝑟𝑡=⁡𝜎(𝑊𝑟∙[ℎ𝑡−1,𝑥𝑡])(2.20)𝑧𝑡=⁡𝜎(𝑊𝑧∙[ℎ𝑡−1,𝑥𝑡])(2.21)17 2相关理论及背景知识ℎ𝑡=(1−𝑧𝑡)∗ℎ𝑡−1+⁡𝑧𝑡∗tanh⁡(𝑊∙[𝑟𝑡∗ℎ𝑡−1,𝑥𝑡])(2.22)ht1htht1Í+Í+Í+1-1-1-ÍÍÍÍÍÍσσtanhσσtanhσσtanhXXXt1tt1LEGENDNetworkPointwiseVectorConcatenateCopyLayerOperationTransfer图2.8GRU的链式结构2.3医疗预测模型相关理论本章将介绍医疗预测模型的相关基础理论与方法,医疗领域的预测模型衍生于传统的预测模型,不同的点在于结合了大量医疗领域的背景与目标。本章主要介绍了两种常用于医疗预测建模的机器学习算法,即逻辑回归模型和k-近邻算法。2.3.1基于逻辑回归的预测模型逻辑回归[64](Logisticregression,LR)是一种统计分类方法。假设有训练集𝑋=𝑥,𝑥,…,𝑥∈ℝ𝑑×𝑛,其中𝑥𝑖∈ℝ𝑑(1≤𝑖≤𝑛)是第𝑖个训练数据向量。并12𝑛且对于每个x𝑖还有与其对应的向量y𝑖∈{0,1}。逻辑回归的目标是训练分类函数𝑓=𝑤⊤𝑥+𝑏来区分一个新数据的类别,LR的训练通过最小化损失函数2.23进行:𝑛1ℓ(w,b)=∑log⁡[1+exp⁡(−𝑦(𝑤⊤𝑥+𝑏))](2.23)𝑖𝑖𝑛𝑖=1其中,𝑤∈ℝ𝑑是分类器的参数向量,𝑏是偏置项。随后即可通过优化算法来求解最优的参数,例如梯度下降算法等。18 2相关理论及背景知识在许多实际问题中,数据向量𝑋往往是稀疏且高维的,例如在医疗健康领域的特征中,通过词袋特征模型,一个患者可能只有数千种特征中的十几种,甚至几种。这样特征就非常的稀疏,为了应对这种情况,可以在权值𝑤上增加一个稀疏正则项,随后最优化公式2.24的L1正则logistic损失函数:𝑛1ℓ𝑟(𝑤,𝑏)=∑log[1+exp(−𝑦𝑖(𝑤⊤𝑥𝑖+𝑏))]+𝜆||𝑤||1(2.24)𝑛𝑖=1其中,||∙||1为L1范式,𝜆>0的情况下会权衡预测的准确率和模型的稀疏性。另外还可以通过L2范式来增加线性回归的泛化能力。研究者们基于逻辑回归模型进行很多疾病预测的探索,如对于白血病的预测[65]、对阿尔茨海默氏症的预测[66]和对癌症的预测[67]。2.3.2基于𝑘-近邻算法的预测模型𝑘近邻算法(𝑘-nearestneighborclassification,KNN)是一种用于分类和回归的非参数统计方法。在KNN分类中,一个测试对象的分类是由其邻居“多数表决”确定的,k个最近邻居(k必须为正整数)中最常见的分类决定了赋予该对象的类别。k近邻是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的“惰性学习”。图2.9k近邻分类的示意图图2.9展示了k近邻算法进行数据分类的示意图。圆形表示一个测试样例,它可以被分为方块的类别,也可以被分为三角形的类别。这时类别的确定就取决于k的大小。如果k等于3,即实线的圆圈,那么测试样例就被分为三角形的19 2相关理论及背景知识类别,因为三角形的数目为2,而方块的个数为1。但是若k等于5,即虚线圆圈的范围,那么测试样例就会被分为方块的类别。同样的原因,这时圆圈内的方块为3个,而三角形的个数仍然是2个,少于方块的个数。由于𝑘近邻算法每次预测新的测试样例都需要遍历训练集合,因此一个有效的遍历训练集的方法就成了𝑘近邻算法时间效率的关键所在。一种常用的搜索算法被称为𝑘-d树,𝑘-d树是在𝑘维欧几里德空间组织点的数据结构。𝑘-d树最邻近搜索的过程如下:1.从根节点开始,递归的向下搜索。向左还是向右的决定标准与插入元素的方法一致。2.一旦搜索到叶子节点,则将该节点设置为“当前最佳点”。3.展开树的递归,并对每个节点进行以下步骤:1)如果目前所在节点比当前最佳节点更靠近输入点,则将目前所在节点设置为目前最佳点;2)检查另一边子树有无更近的节点,如果有则从该节点向下继续搜索。4.在根节点搜索完毕后,结束搜索过程。2.4本章小结本章主要介绍了电子病历处理方法、深度神经网络与医疗领域预测模型的相关背景知识。首先介绍了常用于电子病历处理中的三种方法:基于规则与词典的方法、隐马尔可夫模型和条件随机场模型。随后介绍了深度学习的相关概念与理论,并着重介绍了两类流行的深度神经网络,即卷积神经网络和循环神经网络。最后一节介绍了医疗预测模型构建中常用到的方法,如逻辑回归与k-近邻算法等。20 3基于TS-RNN的电子病历匿名化模型3基于TS-RNN的电子病历匿名化模型本文提出一种基于循环神经网络的电子病历匿名化模型TS-RNN(TextSkeletonRecurrentNeuralNetwork)。模型主要由三部分组成:骨架生成、块表示和序列标注。每部分都有很好的泛化能力,不依赖于词典和手工规则。在预处理生成病历骨架和选择合适的块表示方法之后,电子病历文本即可输入进TS-RNN网络,神经网络的输出层就会产出对应的标签,进而预测一个词是否为隐私实体的一部分。3.1电子病历骨架生成算法相较于一般的文本,电子病历文本的特点是有着较多的带有领域术语的短句、短语及缩写。并且在很多病历中有大量的类似于表格形式的文本以及特殊的写作格式,这些表格文本和特殊的书写格式都是医务人员在书写病历的过程中逐步约定俗成的习惯。图3.1展示了一份电子病历的片段,可以看到隐私信息主要集中在片段前三行的短句中,其中“BCH”是一个地点,“HESS,CLARENCE”是患者的姓名,“643-65-59-5”是证件号码,“2060-10-11”与“10/11/60”是模拟的时间。图3.1一份电子病历的片段在许多传统的命名实体识别任务中,命名实体是以句子为上下文来进行识别的。但是在电子病历的隐私实体识别中仍然使用句子级别的上下文,就会导致严重的上下文不足。电子病历中的很多句子仅仅包含1到2个词,特别是在一些极端情况下,整个句子就是一个隐私实体。为了解决这个上下文不足的问题,本文将一份电子病历的所有句子连接为一个“长句”,并在每两个连接的句21 3基于TS-RNN的电子病历匿名化模型子中间插入“#RETURN”符号。连接以后,图3.1中的片段就会被处理为“Recorddate:2060-10-11#RETURNBCHEMERGENCYDEPTVISIT#RETURNHESS,CLARENCE643-65-59-5VISITDATE:10/11/60…”。如此以来,病历的局部结构就被呈现在了一行,随后这个长句就可以通过窗口的方式送入深度神经网络进行训练。由于电子病历文本比传统文本有更特殊的格式,本文提出电子病历文本骨架的概念,通过文本骨架来帮助深度神经网络更好的识别隐私实体。电子病历文本骨架可以理解为病历文本的核心词汇、短语、句子所构成的病历模板,文本中的隐私实体往往是填充在模板的“留白”处。电子病历的文本骨架揭示了病历之间相似的格式、语言与标点用法。本文提出一种统计方法来提取电子病历的文本骨架,详细的说,一个词只有出现在训练集合的次数大于𝑡次才会被视为骨架的一部分,而次数不足𝑡次的词则会被标记为。这类似于传统词袋模型的处理方法,不足𝑡次的词类似于未登录词(OutofVocabulary,OOV),不同点在于,次数𝑡不是人为设定的,而是依据数据集的情况决定的。不同的电子病历文本骨架包含了不同的信息量,可以通过调节𝑡的值来获得。然而在实践中,𝑡的范围往往是无法估量的,因此本文提出了使用公式3.1来计算𝑡的值。在公式3.1中,𝑣𝑜𝑐𝑎𝑏𝑆𝑖𝑧𝑒是数据集的词典大小,𝑓𝑖是频率等于𝑖的词数,𝑚𝑎𝑥𝐹𝑟𝑒𝑞是词频最大的数量。𝑟是一个介于0到1之间的因子,它决定了病历本文骨架的大概词典大小。如此以来,𝑡的值就可以通过调节𝑟因子的大小来获得。𝑛𝑡=argmin|∑𝑓𝑖−𝑟∗𝑣𝑜𝑐𝑎𝑏𝑆𝑖𝑧𝑒|(3.1)𝑛𝑖=1𝑠.𝑡.⁡⁡⁡⁡0<𝑛<𝑚𝑎𝑥𝐹𝑟𝑒𝑞0<𝑟<1使用公式3.1来计算𝑡的好处在于,避免了在一个很大的搜索空间内确定𝑡的值,因为合适的𝑟往往会落在一个很小的范围内,并且𝑟的取值范围是固定的0到1。在不同的数据集中,最佳的𝑡可能小于15,也可能大于100,但是对应的𝑟的取值往往落在0.05到0.2之间。3.2块表示方法文本分割后的表示方法一直以来都是电子病历匿名化过程中不可回避的问22 3基于TS-RNN的电子病历匿名化模型题,不同的块表示方法会影响深度神经网络对隐私实体的识别。在2006年i2b2匿名化数据集中,隐私实体通过XML标记进行标注[2],每个实体都使用标签包围了起来,其中标签里的TYPE属性记录了这个隐私实体的类别。而2014年的i2b2匿名化评测通过记录偏移量来标记隐私实体的位置。在本文中,电子病历匿名化被视为一个序列标注任务。因此,必要的步骤就是将原始的标记转换为适合进行序列标注的块表示方法。本文面向了5种块表示方法,分别是:multi-BIO、uni-BIO、multi-BILOU、multi-PO和uni-PO,其中后两种块表示方法是在本文中提出的策略。前缀“multi”表示这种类型的标记还包含有多个子类型,这些子类型对应着隐私实体的类别。例如,multi-BIO包括若干个B标签,就像B-hospital、B-date,而uni-BIO只有一个B标签。本文提出的PO标记方法类似于BIO,主要的区别在于PO标记法不再区分开始(Begin)和中间(Inside)标记,而是将所有的隐私实体词标记为P标签。图3.2比较了BIO和PO标记法。本文提出PO标记法的灵感来源于,大多数情况下隐私实体被识别出来以后就会被从电子病历中移除,因此隐私实体内部的细节就是并不重要的信息。图3.2BIO表示法与PO表示法的对比3.3使用TS-RNN进行序列标注循环神经网络是本文提出的匿名化模型的核心部分,整个匿名化模型的示意图如图3.3所示。𝑥′表示抽取出的电子病历骨架,𝑥表示预处理后的病历文本。需要注意的是𝑥和𝑥′长度是相等的,但是它们输入进了网络的不同分支。前向循环神经网络和后向循环神经网络通过输入层分别接收通过词向量层后的文本。最终,在Softmax回归层以后,对应于句子中的每个词,都会产生一个相应的预测标签𝑦𝑖。23 3基于TS-RNN的电子病历匿名化模型虽然现在流行使用无监督的方式来进行词向量的训练,但是在任务背景下,通过有监督的训练去生成词向量也具有一定的优势。在训练数据之上,自动生成一个用于训练词向量的词典是必不可少的,是训练词向量的必要准备,并且词向量在训练前是随机初始化的。类似于其他的研究工作[35],在训练集中只出现一次的词,以及测试集合中出现却未出现在训练集中的词将会被标记为,及未登录词(OOV)。训练数据和测试数据中的数字都被转化为了字符串“DIGIT”,例如,例如日期“2060-10-11”将会被转换为“DIGITDIGITDIGITDIGIT-DIGITDIGIT-DIGITDIGIT”。采用这个技巧是为了减小词典大小,因为电子病历文本中夹杂的大量的数字,替换不同的数字为统一的字符串能够明显的降低词典的维度。yyyyyyy1234567Softmax前向RNN层后向RNN层RNN层词向量层词向量层xxxxxxxxxxxxxx12345671234567图3.3利用循环神经网络进行序列标注对于图3.3中的循环神经网络层(包括前向循环网络与后向神经网络),可以被视为任意的一种循环神经网络结构。本文使用了标准RNN、LSTM和GRU作为循环神经网络的内部结构,详细的原理都已经在基础理论部分有所介绍。但是无论模型使用了何种循环神经网络结构,词向量层和循环神经网络的隐含单元个数都需要仔细的进行选择。词向量层的维度决定了其能够蕴含的信息量,低维度的词向量层无法存储足够的信息,而高维度的词向量层则会导致特征的表述过于稀疏,进而不利于网络的学习。基于同样的道理,循环神经网络的隐含层同样需要在一个合适的范围内选择合适的取值。24 3基于TS-RNN的电子病历匿名化模型在整个网络结构的最顶部是Softmax层,它在RNN层上方,原因在于输出标签是互斥的,即每个训练样本的标签是互斥的,只能同时被打上一个标签,而不会有多个标签共存的情况。由于这个原因,一个标签的词典也是不可或缺的,这个词典的作用是来决定Softmax回归的维度。而标签词典的生成可以伴随着训练集词典的生成来进行。3.4中文电子病历匿名化本文提出的电子病历匿名化模型是语言无关与跨语种的。无需对整体架构做任何改变,也无需对模型内部的步骤做修改即可针对不同语言的电子病历进行匿名化处理。这种通用能力主要来自与词向量层和循环神经网络强大的通用性。词向量层能够根据训练集中词的上下文学习出词的含义,而循环神经网络则让上下文含义更加充分的融合进了词向量中。另外,电子病历文本骨架的生成算法也是语言无关的。为了证明本文模型在不同语言不同电子病历上的泛化能力和通用性,本文通过标注的中文电子病历数据集和i2b2英文电子病历数据集分别做了检验。中文电子病历和英文电子病历最明显的区别就是,中文电子病历需要进行分词。除了分词之外中文数据集和英文数据集的处理步骤是一模一样的。本文中使用的中文数据集在标注之前是完成了分词以后的数据,这样就能够避免对隐私实体的错误分割。3.5基于TS-RNN的电子病历匿名化实验与分析与i2b2匿名化挑战一样,本文通过token级别和entity级别来评价系统的效果[2]。另外,本文还通过binary-token级别(分为隐私实体token和非隐私实体token)来评价系统性能,这个指标的意义在于展现出了电子病历在匿名化之后的完整性。保留非隐私信息的内容是电子病历匿名化的主要目标,而且只有完整的且匿名化的电子病历才能被用作以后的研究工作。本文使用三个数据集来测试TS-RNN匿名化模型,两个英文数据集分别是2006年i2b2挑战数据集[2]和2014年i2b2挑战数据集[11-12],另外一个中文数据集是本文工作标注的。这份中文数据集来自某妇幼保健医院,包含了485名孕妇的9700份电子病历。隐私实体的类别与2016年i2b2定义相同,包括日期、25 3基于TS-RNN的电子病历匿名化模型证件号码、患者名称、医生名称、地理位置、医院名称和年龄。数据集中各个类别的大小和分布情况如表3.1所示。表3.1数据集中各类隐私信息分布i2b2-2006数据集i2b2-2014数据集中文数据集病历数66913049700Token数56085210055823026944隐私实体数194982886248072隐私实体token数2991738435137496词典大小202544187932265ID实体比例24.6%3.6%8.8%DATE实体比例36.4%43.2%38.9%HOSPITAL实体比例12.3%8.0%2.2%DOCTOR实体比例19.2%16.6%14.7%PATIENT实体比例4.7%7.6%17.3%AGE实体比例0.1%6.9%16.1%3.5.1匿名化模型的参数本文通过i2b2数据集的一个子集训练模型的最优参数。不同种类的RNN结构都可以被应用在序列标注步骤中。Dropout技术[72]被应用在Softmax之前用于正则化,而early-stopping方法被采用来调节RNN的参数,调参的模型是通过训练集的20%作为验证集来确定的。如下所述是最优参数的列表:r:0.1(其中i2b2-2006、i2b2-2014和中文数据集对应的t分别为20、14与101)块表示方法:multi-BIORNN内部结构:LSTM循环神经网络隐含层数目:128词向量维度:128Early-stopping数目:53.5.2模型在各数据集上的性能本节对比了本文提出的TS-RNN和现在最优的电子病历匿名化模型的性能。表3.2呈现了binary-token级别的准确率、召回率及F1值。Wellner等人[7]提出26 3基于TS-RNN的电子病历匿名化模型的系统是i2b22006挑战评测的最佳系统,但是其系统没有i2b22014数据集的结果。Nottingham提出的系统[15]摘得了i2b22014挑战的冠军,由于没有其开源代码,因此没有i2b22006数据集的结果。MIST[52]是一个流行的匿名化程序,CRF+ANN方法由Dernoncourt等人[73]提出,CRF是基于条件随机场的模型,Uni-RNN(UnidirectionalRNN)和Bi-RNN(BidirectionalRNN)是经典的基于循环神经网络模型。最后RNN+Skeleton是本文提出的匿名化模型。表3.2现有匿名化方法与TS-RNN的对比Model2006i2b22014i2b2PRF1PRF1Wellner0.98700.97500.9810---Nottingham---0.99000.96400.9768MIST---0.95290.75690.8437CRF0.96400.93710.95040.98420.96630.9752CRF+ANN---0.97920.97840.9788Uni-RNN0.92070.91450.91750.95290.93360.9432Bi-RNN0.97230.96560.96890.98780.93890.9627RNN+Skeleton0.98700.98620.98660.99310.96760.9802表3.3呈现了i2b2提交结果和本文模型在entity级别和token级别的F1-score对比。TS-RNN的结果低于i2b2中entity级别与token级别最优结果的原因在于:第一,提交结果都针对特定的数据集做了调优;第二,TS-RNN算法在非隐私实体上的表现要优于其他模型。表3.3entity级别和token级别的F1值对比2006i2b22014i2b2entity级别token级别entity级别token级别提交的模型0.76-0.960.80-0.970.44-0.930.58-0.96RNN+Skeleton0.95320.91730.92060.9006提交模型的结果与TS-RNN匿名化模型结果一个显著的区别在于TS-RNN的性能中entity级别的F1值要高于token级别的F1值,而提交到i2b2的模型则是相反的情况。通过观察错误分类的样本发现,错误经常是连续发生的,也就是说当神经网络出现了一个错误,那么它会在此处的后方连续的犯错。这或许27 3基于TS-RNN的电子病历匿名化模型是导致这个区别的主要原因。本文使用中文数据集的80%作为训练集,另外20%作为测试集。TS-RNN匿名化模型在微平均token级别的F1值达到了0.98,在微平均entity级别的F1值达到了0.96。表3.4中对比了传统匿名化模型和本文提出的TS-RNN模型。基于规则的方法是建立在正则表达式和领域词典上的,是早期尝试进行电子病历匿名化的工作。准确率、召回率和F1值是在entity级别上计算的,而基于规则的方法没有token级别的结果。表3.4中文数据集上的性能模型准确率召回率F1值Rule-based0.87470.92760.9003CRF0.98150.89720.9375Uni-RNN0.95390.88660.9190Bi-RNN0.97010.92350.9462RNN+Skeleton0.97960.94310.9610一个有趣的现象是,机器学习方法的准确率往往比对应的召回率高,而手工规则方法的召回率要高于准确率。由于大多数电子病历文本是在一个模板上撰写的,因此电子病历属于半结构化的文本。精心的设计一个正则表达式集合可以很好的完成匿名化的任务,但是手工制定的正则表达式也会误匹配大量的非隐私实体的文本。10.950.90.850.8Precision值0.75F1Recall0.7F1-score0.650.60.550.5IDDATEHOSPITALLOCATIONDOCTORPATIENTAGEPHI类别图3.4每个隐私实体类别entity级别的F1值对比28 3基于TS-RNN的电子病历匿名化模型图3.4展示了对于中文数据集中每个类别对应的entity级别F1值。可以看到,PATIENT类别的召回率要明显的低于其他类别的召回率,这主要是因为许多患者的姓名经常会出现在上下文信息较少的位置,并且这些位置也是不固定的。并且,基本上所有的姓名都会只在数据集合中出现一次,那么为了降低词典维度,这些姓名实体都会被标记为。这是将低频词标记为未登录词的一方面缺点。LOCATION类别的性能要明显的低于平均水平,原因在于LOCATION类别的数量相对于其他类别是很少的(LOCATION类别占所有隐私实体的2%),所以对LOCATION类别实体的学习不充分。3.5.3块表示方法对比为了探究不同块表示方法对隐私信息识别的影响,本文使用多种块表示策略标注了数据集。循环网络的内部结构固定为LSTM,隐含单元个数与词向量维度都保持128。为了使结果更加的显著,从2006i2b2数据集抽取了一个子集合,这个子集仅仅包含上下文充足的长句。对比情况呈现在图3.5中。0.850.75multi-BIO值uni-BIOF10.65multi-POuni-POmulti-BILOU0.550.45123456789周期图3.5块表示对比结果通过结果可以发现,简单的块表示策略能够得到较高的准确率。Multi-BILOU是最复杂的一种块表示方法,但是其表现的效果确是最差的。对于29 3基于TS-RNN的电子病历匿名化模型uni-BIO和uni-PO可以达到近似的准确率,但是这类简单的块表示方法却丢失了隐私实体的类别信息。对于现在的目标来说,这些类别信息是无用的,但是对于其他的一些场景来说这些类别可能是需要被保留的。实验表明去除类别标签的情况下仅能够提升少量准确率,因此需要对类别信息与准确率之间权衡选择。3.5.4循环神经网络不同内部结构对比本文对比了三个当下流行的循环神经网络内部结构,分别是标准RNN、LSTM、GRU。使用的数据集是2014年i2b2数据集,并且词向量维度与隐含层维度都固定为128,块表示策略使用multi-BIO方法。图3.6呈现了不同循环神经网络内部结构下entity级别、token级别和all-token级别的微平均F1值。Entity级别0.90.85RNN值0.8LSTMF1GRU0.750.71234567891011周期Token级别All-Token级别0.850.990.80.9850.75值值F10.7F10.980.650.60.97512345678910111234567891011周期周期图3.6不同RNN内部结构下的性能对比通过这些不同内部结构的对比可以发现,LSTM和GRU结构要显著的优于标准RNN结构。在循环神经网络被充分的训练之前,LSTM的性能要由于GRU,但是在若干个周期之后,GRU结构可以获得与LSTM近似的F1值。30 3基于TS-RNN的电子病历匿名化模型隐含层维度501001502000.7650词100向量0.72维度1502000.68图3.7不同维度组合下的F1值对比3.5.5RNN隐含单元与词向量维度对比本文探究了词向量和隐含层维度对于TS-RNN维度的影响。此实验利用标准RNN和multi-BIO块表示方法。图3.7展现了模型在不同维度组合下的F1值。越深的颜色代表着越高的F1值。观察图3.7的颜色趋势可以注意到,较高F1值对应的维度变化范围在150到250之间。因此,在不考虑时效性的情况下,这对于TS-RNN模型中隐含层维度与词向量维度是较好的选择范围。本文还记录了不同维度组合下拟合训练集的时间效率,并记录在了表3.5中。其中维度组合(50,50)的消耗时间被设置为了基准,其他维度组合所用的时间都记录为基准的倍数。表3.5不同维度组合下的效率对比隐含层维度50150250350词5011.111.301.57向1502.662.792.953.34量维2504.304.514.975.25度3506.126.456.747.293.6本章小结本章主要介绍了TS-RNN的基本理论与思想,详细阐述了使用TS-RNN进行电子病历匿名化的每个步骤和其中的关键技术。通过对各部分的了解就会发31 3基于TS-RNN的电子病历匿名化模型现整个匿名化模型具有很强的通用性与泛化能力,无需对模型做任何改变即可对中、英文电子病历数据集进行训练并进行匿名化预测。通过两个英文数据集和一个中文数据集的效果实验,可以看到TS-RNN模型在电子病历匿名化任务中有着优异的性能。特别是在中文数据集上,TS-RNN达到了token级别微平均F1值0.98,entity级别微平均F1值0.96的出众效果。深入的分析发现特殊的文本形式令电子病历的匿名化不同于传统的命名实体识别任务,未来的工作可以关注于更好的利用病历中的上下文信息以及对TS-RNN网络结构的优化。32 4基于深度神经网络的胎儿体重预测4基于深度神经网络的胎儿体重预测本文提出利用深度神经网络搭建胎儿体重预测模型。胎儿体重的预测是一项有意义的预测工作,通过提前对胎儿状况的分析,可以有效的判断对应分娩方式以及了解胎儿发育状况。基于传统公式方法的模型不利于泛化与推广,而基于深度神经网络的模型能够为不同医院和地区个性化定义预测模型。4.1基于深度神经网络的预测模型胎儿体重预测的定义是在孕妇在分娩之前,通过某些医学检测手段、评估方法获取孕妇与胎儿的相关参数信息,进而对胎儿的体重数值进行估计。对胎儿体重的预测是一项重要的任务,这不仅关系到医务人员对孕妇分娩方式的决策,也便于孕妇及其家人直观的掌握胎儿的发育情况。这对孕妇与胎儿的安全提供了保障,能够有效的减少因为胎儿过大导致的分娩困难。大规模电子病历文档参数抽取缺失值补全训练网络待预测样本深度神经网络预测模型预测结果图4.1基于深度学习的胎儿体重预测模型现有的胎儿体重预测模型大多数基于由医学领域知识启发得到的一些生理参数,那么参数选择就是基于此类方法现在面临的一个重要难题。为了能够精准的在分娩之前预测胎儿体重,并解决现在参数方法中存在的参数选择问题,本文提出利用深度学习方法进行胎儿体重的预测建模。在本文提出的基于深度神经网络的预测模型中,任何与孕妇胎儿相关的生理检查参数不需要人工的选33 4基于深度神经网络的胎儿体重预测择,因为深度学习方法会根据大量的训练样本自动学习各个参数与胎儿体重之间的复杂关系,并形成深度预测模型。本文提出的深度学习预测模型能够实现从电子病历直接提取参数并进行胎儿体重的预测,整体的预测过程如图4.1所示。预测系统首先从大量的电子病历中提取出孕妇胎儿的相关参数,随后针对系统自动抽取结果中的部分缺失进行补全,最后完成深度神经网络的训练。训练完成的胎儿体重预测模型即可用于新样本的预测,计算出胎儿的估重。待预测样本一方面可以像图4.1中直接被处理成数值输入预测模型,另外也可以由传统病历方式记录进电子病历中,随后再利用参数抽取模块提取出符合胎儿体重预测模型所必需的格式数据。4.2生理参数预处理利用人力进行提取、分析、整理大量电子病历样本是一项异常耗时、耗力的任务,现有的胎儿体重预测模型构建通常仅使用了几十至几百份临床病历数据。随着电子病历在世界范围内的逐渐普及与自然语言处理技术的发展,准确与高效的从电子病历中自动抽取所需的参数信息成为了可能,这也使快速抽取大量临床数据样本成为了可以实用的研究方案。本节将介绍自动从电子病历中提取实验样本参数的过程,首先将介绍从电子病历中提取生理参数的算法,随后会深入分析提取参数的数据缺失问题以及介绍多种有效的缺失值补全策略。4.2.1提取生理参数由于训练模型的输入要求是数值类型,那么重要的一个环节就是将有关的参数提取出来。而孕妇、胎儿的相关检查参数结果会记录在电子病例的不同位置,因此需要对整篇病历进行完整的分析与处理才能准确的提取出所需的生理参数,进而作为对应样本的特征值。最后,这些提取出的生理参数还需要使用预先制作好的限制条件进行筛选与校对,才能作为可以使用的样本集合。与一般文本、传统生物、医药数据不同的是,电子病历中含有大量敏感的个人隐私信息,因此基于电子病历的相关研究,都必须建立在保护病例隐私信息的前提之上。在美国,已经有大量研究致力于探索电子病历的匿名化标准、工具和方法[11-12],由于这方面原因,本文为了保护电子病历中的敏感隐私信息,在提供病例的医院内,从电子病例中提取研究相关的参数。在模型的设计、研34 4基于深度神经网络的胎儿体重预测究和实验阶段所使用的数据,都不含有任何个人隐私信息,保证了病历隐私的安全性。现在的电子病历管理系统,或者说是医院管理信息系统(HospitalManagementInformationSystem,HIS),大多使用半结构化的方式存储与管理病历,本文所接触的病历也是半结构化加自由本文形式的病历,因此为每个类别的生理参数设计一条或若干条正则表达式即可实现参数的自动化抽取。制定手工规则的第一步是人工观察所需参数的上下文形式,通过对形式的观察就能了解一个特定类别参数的书写规律,并制定出相应的初步提取规则。有了初步的提取规则,再经过若干次的提取、勘误、补全规则过程,即可完成参数提取规则的确定。病例中的参数格式往往是确定的,HIS系统在设计时,为了方便医务人员填写病历,都会为系统设计病历模版的功能,医务人员只需在模板中的特定位置填写上不同的值即可,这样既方便了病历填写,也方便了后来人阅读病历,理解其中的内容,也对本文的参数抽取提出了思路。病历中参数的上文格式大多数是这项参数的名称,有时会辅以若干形式的标点符号,本文将其称为“参数上文”。表4.1展示了部分抽取规则,可以很明显的看出,在这些正则表达式的中间数值部分之前都是参数的上文(年龄、宫高、EFW、胎儿估重),虽然一些情况中会出现冒号等标点,但是不影响整体的上文内容。而参数的下文大部分由数值的单位组成,并且所有病历中同一个参数的单位是统一的,因此这个单位必须唯一且限定的写入正则表达式,这被称为“参数下文的单位统一化”。例如表4.1中宫高使用厘米(cm)作为计量单位,那么对于极少数使用米(m)作为单位的病历,就要单独对其进行换算,否则抽取出的参数会导致错误的样本。最后,需要通过一定的后处理,对参数的取值格式进行限定,以避免违背常识的明显错误。比如年龄与胎儿估重都取正整数,而宫高的取值是在正实数范围内的。表4.1部分参数提取规则参数名称抽取规则年龄年龄.*?([0-9]{1,})岁宫高宫高([0-9]{1,}[.][0-9]*)cmEFW:([0-9]{1,})[g。]胎儿估重胎儿估重([0-9]{1,})。35 4基于深度神经网络的胎儿体重预测带有错误参数的样本是一般来说是不参与模型的训练。虽然深度神经网络能够容忍训练数据中的噪声,但是尽力消除样本中的错误对训练是有利的。对于抽取的参数样本组成的集合,可以使用一定的领域知识归纳出的限制条件,筛选出明显不符合常理的数值。在这些不合理的样本数值中,能够被修正的数值可以采取校对后修正的方式处理,而无法修正或者修正困难的数值,需要删除对应的样本。参数抽取错误的原因有很多种,比如规则覆盖的不完善、规则限制不够严格,但是也会存在一些病历本身的错误导致的抽取错误,这就涉及到病例的质量情况,在此不进一步展开讨论。4.2.2补全缺失值临床样本中的参数不可避免的会存在缺失值(MissingValue)。这些缺失值产生的因素主要有两种,第一是因为抽取规则的不完善或是电子病例中偶尔的格式不统一,第二是由于某项生理参数未进行检查或者未被记录在电子病历中,这样抽取出这项参数也就无从谈起了。例如羊水指数(AmnioticFluidIndex,AFI)和脐动脉血流收缩/舒张期速度比(S/D)有时就会产生缺失值。一般的做法是删除含有缺失值的样本,然后再进行训练。但是,存在缺失值的样本也是有价值的,其中也包含了一定的信息量,并且在医疗健康诊断领域,考虑到就医成本、患者意愿等问题,某项参数没有进行检查的情况非常常见。因此可以使用一定的算法来补全这些缺失的值,使样本完整。缺失值补全有两方面的意义:首先,可以充分利用含有缺失值的样本,进而强化对模型的训练;其次,对缺失值的补全也是保证模型正常训练的必要条件,对于本文提出的训练模型,含有缺失值的样本是不能被用来进行训练的。最简单的缺失值补全策略就是使用特征的平均值补全。假设𝑥为含有缺失特征的样本集合,𝑥′是𝑥的一个子集,表示不含缺失特征的样本集合,其样本数为𝑛,𝑥⊆ℝ𝑚,𝑥′⊆ℝ𝑚,𝑥表示第𝑖个样本的第𝑗个特征。倘若𝑥缺失,则将第𝑗个𝑖𝑗𝑖𝑗特征的平均值赋给𝑥𝑖𝑗,如下式所示:∑𝑛𝑥′𝑘=1𝑘𝑗𝑥𝑖𝑗=(4.1)𝑛使用平均值补全的思想源于一个想法,这个想法的假设是所有未知的值都被认为是“正常的”。即在正态分布下,均值的出现概率相对来说比较大,那么36 4基于深度神经网络的胎儿体重预测可能的偏差就比较小。但是进一步分析发现,在孕妇和胎儿各项检查参数的补全过程中,这种方法却违背了“相似的孕妇与胎儿,其检查结果也应该是相似的”这一常理。因此本文提出一种基于欧式距离的补全方法,假设𝑥∈𝑥,𝑥′∈𝑥′,𝑖𝑘𝑗∈{1,…,𝑚},𝑑表示𝑥与𝑥′的欧式距离:𝑖𝑘𝑖𝑘𝑚𝑑⁡=⁡√∑(𝑥−𝑥′)2(4.2)𝑖𝑘𝑖𝑗𝑘𝑗𝑗=1𝑘∗=⁡argmin𝑑(4.3)𝑖𝑘𝑘𝑥=𝑥′𝑖𝑗𝑘∗𝑗(4.4)基于欧式距离的补全算法迎合了“相似孕妇与胎儿应有相似检查结果”这一思路,但是在实验中,由于各个指标之间度量单位与取值范围的不同,通过公式(4.2)~(4.4)所示的方法计算出的欧式距离有时会导致严重的错误。例如,样例a的年龄为22,停经时间为8个月,样例b的年龄为28,停经时间为5个月,虽然两个样例年龄之差大于停经月数之差,但是对于胎儿的发育情况来说,停经月数显然要比年龄对胎儿体重的影响更大。针对这种不同维度影响力不同导致的错误,本文使用加权欧氏距离的补全策略来分别强化和削弱不同特征的重要性,其权值𝑤使用多元线性回归学习。这样一来,对胎儿体重影响因素越大的特征,对距离的影响就越显著。假设令𝑤𝑗表示第𝑗个特征的权值,𝑑𝑖𝑘依旧为𝑥与𝑥′的欧式距离,有下列等式表示了加权欧氏距离的计算方法:𝑖𝑘𝑚𝑑⁡=⁡√∑[𝑤(𝑥−𝑥′)]2(4.5)𝑖𝑘𝑗𝑖𝑗𝑘𝑗𝑗=1𝑘∗=⁡argmin𝑑(4.6)𝑖𝑘𝑘𝑥=𝑥′𝑖𝑗𝑘∗𝑗(4.7)需要注意的是,在学习𝑤时使用多元线性回归拟合不含缺失值的集合𝑥′。随后将所有非正权值置为0,正权值由(0,+∞)映射到(0,1]。将非正权值映射为0的计算是为了避免负权值对特征的影响,而只对有正向影响的权值进行缩放。37 4基于深度神经网络的胎儿体重预测4.3预测网络的结构与训练在当前的胎儿体重预测模型中,无论是早期基于公式的模型,还是使用传统人工神经网络构建的体重预测模型,都不可避免的要基于启发式知识对输入参数的筛选,即特征选择。其目的在于筛选出与胎儿体重有明显关联的生理参数,并且削弱或者去除无关参数,以防影响预测模型的训练与预测。在此基础上,许多基于不同生理参数的方法被提出,有些方法之间使用的生理参数甚至没有交集,即通过了完全不同的生理参数完成了对胎儿体重的预测。由此可以得出一个结论,那就是各项生理参数与胎儿体重之间的关联关系并没有一个确切的定论。针对这种情况,本文提出一种改进的深度神经网络构建胎儿的体重预测模型,深度学习方法无需利用医学经验知识筛选输入的生理参数,只需使用大量的样本进行训练,即可根据所有的孕妇及胎儿超声检查参数预测胎儿的体重,模型会自动的根据训练样本学习各项生理参数与胎儿体重之间的关联关系。由于样本的特征(即生理参数)往往具有不同的量纲与量纲单位,所以在输入进神经网络之前要进行归一化处理,以确保各个特征处在同一数量级。特征归一化的好处在于一方面可以提高模型的精度,另一方面也可以加快模型的训练速度。特征归一化方法如公式(4.8)所示,其中𝜇为当前特征的均值,𝜎为当前特征的标准差。𝑥−𝜇𝑥∗=(4.8)𝜎利用公式4.8归一化的特征符合标准正态分布,均值为0,标准差为1,而损失函数所需的真实体重无需进行归一化。随后这些作为样本特征的生理参数会通过输入层进入深度神经网络。本文提出的深度神经网络结构如图4.2所示,其中输入层由多个分支组成,不同的分支用来接收不同类型的参数,每个分支内可以存在一个或多个分支隐含层。这些分支通过特定方式合并以后会再通过若干隐含层,并最终由输出层输出,输出层只有一个节点产生预测结果。使用多个分支作为网络输入层的原因在于,生理参数可以被显著的分为若干个类,各个类之间的生理参数又往往是不相关的。比如孕妇产检与胎儿超声检查是两个分开进行的检查项目,其检查时间、检查方式均不相同,因此在网络中通过不同分支输入。38 4基于深度神经网络的胎儿体重预测输出层..隐含层......分支隐含层......输入层图4.2预测模型中的深度神经网络结构本文提出的基于深度学习的胎儿体重预测模型使用的网络结构有三个输入分支,分别接收三种来源不同的生理参数。这三类参数分别为产科检查结果参数、胎儿超声检查结果参数与常规检查结果参数,每个分支的输入层维度由每个类别的生理参数个数决定,本文使用的三类参数如表4.2所示。表4.2使用的参数及所属类别类别参数产科检查结果IS,IC,EC,TO,宫高,腹围胎儿超声检查结果BPD,FL,AFI,S/D,头位常规检查结果年龄,停经月数,孕期体重增加量,体温,脉搏,心率,收缩压,舒张压生理参数由输入层进入深度神经网络的不同分支以后,会通过若干分支隐含层。随后,这些分支隐含层的输出结果将以“连接”方式合并,“连接”方式是将各个分支隐含层的输出进行横向的组合。例如,分支隐含层的输出维度均为200,那么合并以后的维度大小为600。与之相对应合并方式是“加法”方式,“加法”方式合并以后的维度大小为200。隐含层与隐含层之间使用Dropout[72]防止过拟合,其中分数(Fraction)参数设为0.5。除了与输出层连接的隐含层使用线性激活函数,其他均使用Relu激活函数。在常用的深度神经网络训练方法的基础上,本文提出的基于深度神经网络的胎儿体重预测模型的训练过程如算法4.1所示。39 4基于深度神经网络的胎儿体重预测算法4.1:胎儿体重预测模型的训练输入:产科病历文本输出:训练后的深度神经网络1)𝑥←病历文本中提取的参数;2)If𝑥中存在缺失值then补全𝑥中的缺失值;Endif3)标准化处理𝑥;4)While未达到最大迭代周期do将𝑥输入网络,前向传播并计算误差𝒯;反向传播并更新权值𝑤;If验证集误差𝒯′连续20个周期高于min𝒯thenBreak;EndifEndwhile神经网络的训练有两个停止条件,第一个就是预设的最大停止迭代周期,第二个是连续20个周期的误差小于最小值。即EarlyStopping策略,为了减少模型不必要的训练时间,并且在一定程度上防止过拟合。4.4基于深度神经网络的胎儿体重预测实验与分析4.4.1数据集描述较大的训练集是保证深度神经网络性能的重要前提条件,同时考虑到了保留数据原始的分布特征,本文从某妇幼保健医院2015年1月1日至2015年12月31日的所有产科病历中抽取了6979例符合实验要求的临床样本。这些样本满足的条件为:单胎妊娠,孕期在6~10个月之间,年龄在19~46岁之间,孕妇在分娩前五天内接受过产科检查或者胎儿超声检查。将样本集中的80%作为训练集来训练模型,其余20%样本为测试集以供评价模型性能。在深度神经网络的训练过程中,每个周期都会随机使用75%的训练样本来调整网络权值,并将其余的25%作为验证集用来验证权值和提前停止迭代(early-stopping),防止过拟合的同时也可以节约计算资源。本文通过两个回归评价指标来衡量预测模型的性能。第一个指标被称为均方根误差(RootMeanSquareError,RMSE),这个指标作为回归分析中常用的评40 4基于深度神经网络的胎儿体重预测价标准,能够很好的表现出预测的准确度,体现回归模型的性能。并且,均方根误差的量纲与原始数据一致,因此能够更直观的对误差进行纵向对比,体现模型的性能。第二个是依照妇产科学传统标准,将预测体重与真实体重相差250克以内作为准确的预测,进而计算预测的准确率。也就是说,所有预测值与真实值之差的绝对值在250(单位:克)以内的将会被判定为预测正确,反之,则被判定为预测错误。4.4.2深度神经网络模型与传统方法的对比胎儿体重预测模型的实验结果如表4.3所示,其中Formula表示电子病历中的公式计算方法,MLR、ANN、DNN分别表示多元线性回归模型、传统神经网络模型、深度神经网络模型,Mean、Nearest与Weighted_nearest分别表示均值补全方法、最近邻补全方法以及加权最近邻补全方法。均方根误差结果是多次实验的均值,同时也记录了多次实验结果的变化范围。准确率是基于妇产科标准计算的,预测误差在250克之内的百分比,同样给出了多次实验的变化范围。表4.3胎儿体重预测方法对比方法均方根误差(g)准确率(%)Formula376.5157.48MLR+Mean430±5040.31±1.9MLR+Nearest470±3038.30±1.1MLR+Weighted_nearest417±5040.26±2.0ANN+Mean357±1053.25±0.4ANN+Nearest362±853.41±0.3ANN+Weighted_nearest355±1054.11±0.3DNN+Mean355±254.39±0.1DNN+Nearest361±753.54±0.3DNN+Weighted_nearest343±457.94±0.2实验结果表明,多元线性回归方法相对于公式计算方法还有一定的差距。而传统的人工神经网络模型的均方根误差低于公式计算方法的误差,特别是深度神经网络的应用又进一步的降低了预测误差,并且显著的降低了模型的不稳定性。在缺失值补全策略中,无论是基于MLR、ANN或者是DNN的模型,使用最近邻补全方法的预测误差普遍高于平均值补全方法的误差,但是经过权值的调整,加权最近邻补全方法的预测误差则低于平均值补全方法的误差。41 4基于深度神经网络的胎儿体重预测4.4.3结果分析与相关讨论如第二节所述,在加权最近邻补全方法中使用的权值,是通过多元线性回归进行学习的,并且随后需要进行一定的变换处理。所有非负权值都会被映射到(0,1]的范围内,而负权值全部转换为0,且映射后小于0.01的值设置为0.01。表4.4展示了本文实验中使用多元线性回归拟合不含缺失值集合𝑥′所得到的权值,以及经过处理后相对应的权值。表4.4加权最近邻方法使用的权值参数原始权值处理后的权值年龄1.360.01停经月数393.941孕期体重增加量3.210.01体温-120.210脉搏1.10.01心率37.780.09收缩压-7.820舒张压4.970.01IS-9.540IC4.060.01EC-33.650TO99.500.75宫高24.970.06腹围12.110.03BPD8.210.02FL16.250.04AFI1.720.01S/D-245.160头位23.670.06为了进一步证明深度神经网络预测的稳定性,本文对比了公式方法与深度神经网络模型预测误差在各个误差范围内所占的比例,如图4.3所示。相对于公式预测方法,深度神经网络模型的预测误差更多的处在80克至510克之间。而公式方法在误差小于80克的情况下预测的相对准确,但是在大于510克的情况下会出现较大的误差。这说明本文提出的深度神经网络模型可以减少严重的预测失误,进而有效的减少因为体重预测误差过大导致的临床决策失误。42 4基于深度神经网络的胎儿体重预测3025占20样Formula本15百DNN分比1050<100100-150150-200200-250250-300300-350350-400400-450450-500>500预测误差(g)图4.3预测误差在各范围的对比4.5本章小结本章主要介绍了基于深度神经网络的胎儿体重预测模型的基本理论与思想,详细介绍了使用DNN进行胎儿体重预测的每个步骤和其中的关键技术。与此同时,还介绍了传统缺失值补全策略存在的缺陷,及本文提出的缺失值补全算法所解决的问题。基于DNN的胎儿体重预测模型基于大量训练临床样本,无需先验医疗知识,模型有强大的推广泛化能力。与其他预测模型的对比结果表明,本文提出的深度神经网络模型在准确率、误差度和稳定性上优于公式预测方法与基于人工神经网络的方法。并且,本文提出的缺失值补全算法也可以有效的将有缺失值的样本利用起来,强化对深度学习模型的训练并提高预测的准确性及泛化能力。对实验结果的进一步分析表明,虽然深度神经网络模型在误差大于510克的情况下优于传统公式方法,但是比例仍然较高。因此进一步的研究可以关注于使用深度神经网络降低严重预测失误的概率,以及如何更加精准的预测双胞胎等特殊情况下的胎儿体重。43 5基于w-KNN的疾病预测模型5基于w-KNN的疾病预测模型本文提出一种改进的加权k-近邻算法(w-KNN)用来对神经内科的疾病进行分类预测。w-KNN在为不同的特征加权的同时,结合电子病历的特点,融合数值特征与文本特征,提出一种计算两个临床样本之间距离的方法。5.1电子病历结构化电子病历一般为半结构化文本,内容包含许多数值特征,例如年龄、血压、体温、身高以及各式各样的检查结果数值。这些数值有着不同的单位、取值范围以及深层的具体含义。除了这些数值之外,电子病历中的信息更多的还是存储在自然语言表达的文本中,例如患者主诉、现病史、既往史等,这些信息很难使用数值来表示,往往是通过医务人员对患者的叙述,随后通过医生根据自身的经验与医学知识,再对患者信息进行二次处理加工,最后形成的半结构化或是自由文本,例如持续发热一周、上身无力等。电子病历的结构化的定义是将半结构化的电子病历自顶向下的处理为结构化数据。对于数值型参数,提取其中的数值,并对单位进行统一的对齐。而对于文本型参数,则首先将这个参数的自由文本提出出来,随后再对此类文本进行统一分析,最后以领域词汇或领域短语为基本粒度进行格式化。表5.1展现了若干电子病历格式化的参数类别。表5.1电子病历格式化参数参数类别详细解释示例性别患者的性别女年龄患者的年龄30民族患者的民族汉族婚否婚姻状况已婚体温检查的体温36.5呼吸每分钟呼吸次数25主诉患者主诉发热一周,间歇呕吐现病史患者叙述的现病史10天前出现头晕、视力下降症状,3天前出现意识模糊。既往史患者叙述的既往史一年前车祸,头部受伤44 5基于w-KNN的疾病预测模型可以发现,表5.1所示的参数可以分为两个类别,一种是数值型特征,或是可以轻松转换为离散数值的特征,如性别、年龄、民族、婚否、体温、呼吸等。但是主诉、现病史和既往史却不能简单的转换为数值型特征,那么就需要对这些特征进行特征变换。5.2特征变换对于数值型特征与短文本型特征,可以形式化的定义为:𝑥={num1,num2,…num𝑖,text1,text2,…,text𝑗}(5.1)对于KNN模型,一个关键的问题就是计算两个样本之间的距离。数值型特征能够直接的计算,而文本型的特征就需要一定的特征变换才能够结合数值特征,参与距离的计算。文本距离最常见的计算方法是编辑距离,也可以通过深度学习方法训练出词向量,再通过向量计算来获得两段文本的距离。但是对于电子病历中文本特征,这些文本中包含了大量的领域词汇、领域短语,都是有着高重复性的词汇、短语,因此可以将这些短文本拆分为多个短语或词汇,这些词和短语大多是症状描述,形式化的描述为:111text1=𝑠1+𝑠2+⋯+𝑠𝑛(5.2)其中s表示一个词或短语,也可以称之为症状,是对文本距离计算中最小的单元。例如表5.1中的主诉,可以被分解为“发热+呕吐”,现病史可以被分解为“头晕+视力下降+意识模糊”,既往史可以分解为“头部受伤”。对于一类相似的疾病,这个症状词典非常小,往往在几百左右,很容易的进行人工的汇总归纳。在进行词典整理的同时,还需要考虑同义词的映射,例如“发热”和“发烧”应该被认定为同一个症状。随后即可通过下式计算距离,其中A、B为两个样本,s为症状词:𝑎𝑎𝑎A={s1,s2,…,s𝑖}𝑏𝑏𝑏B={s1,s2,…,s𝑗}max(𝑖,𝑗)−𝑆𝑎𝑚𝑒𝐸𝑙𝑒𝑚(𝐴,𝐵)Dis(A,B)=(5.3)max⁡(𝑖,𝑗)其中,𝑖表示样本A的症状数目,𝑗为样本B的症状数目,𝑎表示症状词属于45 5基于w-KNN的疾病预测模型样本A,𝑏表示症状词属于样本B,𝑆𝑎𝑚𝑒𝐸𝑙𝑒𝑚表示两个集合相同元素的数目。最终Dis会落在0到1之间,趋近于0表示A和B无关,趋近于1表示A和B相似。5.3w-KNN预测模型由于各个特征对结果的贡献度不同,因此需要对不同的特征进行加权。实践发现,对预测结果影响最大的特征为主诉的距离,因此可以对各个特征增加缩放因子w,为主诉赋予最大的加权。缩放权值向量的确定可以通过专业医疗人员的领域知识来确定,也可以通过将权值作为最优化参数,以样本标签与预测结果的误差作为损失函数来训练。本文通过医疗人员的领域知识来确定各个参数的缩放权值。传统KNN分类器最终输出的结果为一个预测的类别,但是w-KNN预测模型是输出计算出的最近的k个近邻,并将k个近邻都呈现给用户。这样的目的是给用户呈现出知识库中的内容,以便医务人员和患者进行参考。通过对近邻患者的对比可以更好的为新样本的诊断提供决策。5.4基于w-KNN的疾病预测模型实验与分析本文通过某医院神经内科897份临床数据病历验证w-KNN算法的性能。本小节首先介绍了数据的分布情况,随后将w-KNN算法与其他算法进行了对比,最后对算法的结果进行了分析。表5.2神经内科样本分布情况类别样本数目癫痫268格林巴利58颅内感染81脑出血130脑梗塞286帕金森74总计8975.4.1电子病历数据集描述神经内科的部分患者有着类似的症状,本文采用了6种相似的神经内科疾46 5基于w-KNN的疾病预测模型病,构建了总数为897例的样本集合。患者的年龄分布为1~91岁,婚姻状况为未婚、已婚、丧偶、离异等,其他特征还包括性别、民族、职业、体温、呼吸、血压、体重、主诉等。根据不同的患者诊断类别,临床样本集合的数据分布如表5.2所示。在w-KNN算法中,短文本经过处理之后生成的“症状”将作为距离计算的最小单元。在本文的数据集中,共有10个类别,共计277个症状义项。症状义项的含义是将同义的症状视为同一个症状,不同的症状表述共有519个。症状义项的10个类别分别为:四肢、上肢、下肢、侧身、头部、耳鼻喉、眼、消化排泄、进食与精神状况、其他等。一些主要的症状义项如表5.3所示。表5.3部分症状义项及对应类别症状义项同义词类别四肢麻木四肢发木、肢体麻木四肢双上肢震颤上肢震颤、双手震颤上肢左下肢无力左下肢体无力、左侧下肢无力、左腿无力下肢右肢无力右侧肢体无力侧身头痛头疼、左侧头痛头部失语不能言语、言语不能耳鼻喉视物缺失左侧视觉缺失、视觉缺失眼尿失禁小便失禁消化排泄没有食欲纳差、食欲不振、饮食差、没有胃口进食与精神状况腰痛腰疼、腰部疼痛其他5.4.2预测模型的性能对比本文将构建的样本集合中的80%作为训练集,其余20%作为测试集来验证不同模型的性能。各种模型在样本集合上的性能如表5.4所示,其中LR为线性回归模型,SVM为支持向量机模型,KNN为经典的最近邻算法,w-KNN为本文提出的改进最近邻算法。KNN算法和w-KNN算法中的距离计算方式如第五章所示,LR和SVM使用的文本特征为使用词袋模型生成的特征。表5.4中的𝐴𝐶𝐶@𝑁表示前𝑁个候选中的模型准确率,形式化定义如下:47 5基于w-KNN的疾病预测模型|𝑄|1𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦@𝑁=∑𝛿(𝐶𝑖,𝐴𝑖)(5.4)|𝑄|𝑖=1其中,当至少有一个预测结果出现在被𝐶𝑖包含的A𝑖中时,𝛿(𝐶𝑖,𝐴𝑖)等于1,否则其等于0。表5.4w-KNN模型与经典算法的对比模型ACC@1ACC@2ACC@3召回率LR0.71--0.70SVM0.79--0.82KNN0.560.650.720.69w-KNN0.810.890.910.88通过对比可以看出,相对于LR和SVM,KNN算法的优势在于可以直接的选择出多个备选项以供参考。虽然KNN算法相较于LR和SVM算法还存在着一定的差距,但是本文提出的w-KNN算法不论在准确率还是召回率上都要优于其他模型。特别是𝐴𝐶𝐶@1的情况下,w-KNN模型即可达到比其他模型高的准确率。5.4.3结果分析与讨论不同的预测模型有着不同的特点,相对于LR和SVM等学习模型,KNN以及w-KNN算法是基于实例的预测模型,其特点在于两方面:1)能够给出若干个预测结果,并且这若干个预测结果的排序也是依据可能性高低排序的;2)对于预测出的疾病类别,可以追溯训练样本中最近似的临床病历。5.5本章小结本章主要介绍了基于w-KNN算法疾病诊断预测模型的基本理论与思想,详细介绍了使用w-KNN模型进行疾病诊断的处理步骤和关键技术。同时,还介绍了电子病历结构化方法,以及从自由短文本到症状词组的特征转换方法。基于w-KNN算法的疾病诊断模型能够基于电子病历自动的对患者的疾病进行分类预测,并且最终的结果不只是疾病的类别,还能够提供知识库内与新样本最近似的历史临床数据,可以为医疗决策提供支持。48 6总结与展望6总结与展望医疗是与每个人都息息相关的基础领域,如何将计算机的高速计算能力、人工智能的智能决策能力、机器学习数据挖掘的学习能力应用在健康医疗领域就是非常有意义的研究课题。本文将多种机器学习方法,特别是深度学习算法应用在了电子病历的处理中,尝试基于电子病历输出搭建深度学习疾病预测系统。本章对全文进行了总结,并对相关领域方向的研究做出了展望。6.1总结虽然基于电子病例的研究有着巨大的前景,也有极强的研究意义。但是此方向的研究仍然存在着许多方面的难题。本文就从电子病历的匿名化入手,搭建匿名化模型,随后基于电子病历进行胎儿体重预测和搭建疾病预测模型,本文的研究成果主要有以下方面:(1)基于电子病历的特点,结合循环神经网络,提出了TS-RNN电子病历匿名化模型。对于电子病历的文本结构,提出利用文本骨架的概念来提升对电子病历结构的学习,助力循环神经网络更好的识别电子病历中的隐私实体。提出一种适用于电子病例的块表示策略PO,对开始和内部不再加以区分,直接对隐私实体的位置加以标注。配合文本骨架的使用,提出了TS-RNN的网络结构,这种深度学习网络在训练标记的同时生成词向量,是一种端到端的学习模型,能够适应不同语言,在不同数据集上都有着优异的效果。本文通过中、英两种数据集进行测试后发现,无需对TS-RNN的结构进行任何改变,即可对不同语言的数据集进行建模。(2)针对胎儿体重预测问题,基于深度神经网络提出了一种胎儿体重预测模型。基于DNN的胎儿体重预测模型解决了传统胎儿体重预测方法中需要领域知识构建公式,以及进行参数选择的步骤,只需将所有参数统一输入进深度学习网络,在有大量训练数据的前提下,即可训练出优于传统模型的预测网络。另外,本文还提出对缺失值的补全算法,有效的将有缺失值的样本利用起来。实验表明,基于深度神经网络的胎儿体重预测模型,在预测稳定性方面要由于传统模型,对于误差较大的情况,能够很好的处理,避免了极大误差情况下对49 6总结与展望医务人员和患者的误导,有利于临床决策。(3)在经典k-近邻算法的基础上,结合病历的半结构化特征,提出w-KNN疾病预测分类算法。本文首先对于半结构化的病历进行处理,将其自顶向下的处理为结构化病历,对于参数中的自由文本短语,将其进一步的映射为词典中的症状。在这样的特征变化后,就为w-KNN的距离计算提供的思路。在计算样本距离的同时,引入不同特征的权值,为不同特征进行加权与降权操作,进一步的提升了模型的预测分类效果。基于实例的w-KNN学习还有一个优势在于,其最后不止可以进行疾病的预测,还可以找出与新样本最相似的历史样本,这些历史样本的具体情况将为医疗人员提供有价值的参考,进而帮助对患者的临床诊断方法的决策。6.2展望本文基于深度学习方法以及其他的机器学习算法构建基于电子病例的疾病预测模型。大量的实验表明本文提出的方法都有优异的效果,在准确率、召回率、稳定性等多方面都比传统模型有着明显的优势。深入的分析发现,本文所做的工作但是存在一些不足之处:首先在基于TS-RNN的电子病历匿名化过程中,在中文电子病历里面需要进行分词处理,隐私实体的识别因此会依赖于分词系统的准确性,因此未来的研究可以考虑将分词过程与隐私实体的识别结合起来进行统一处理,以提高系统的识别准确率;其次,在胎儿体重预测模型中,虽然系统在整体的准确率和误差率上要优于传统方法,但是深入分析发现在低误差段内的系统准确率还是低于公式模型,未来的工作可以面向于进一步的提高深度学习方法在低误差段内的回归准确率;最后在基于w-KNN的疾病分类预测模型中,对于各个维度特征的权值是通过领域知识确定的,进一步工作应该面向于建立学习权值方法,自动的学习出每个参数对分类结果影响,进而提高分类预测的准确率。50 参考文献参考文献[1]维基百科编者.电子病历[G/OL].维基百科,2017(20170227)[2017-02-27].https://zh.wikipedia.org/w/index.php?title=%E7%94%B5%E5%AD%90%E7%97%85%E5%8E%86&oldid=43389754.[2]ÖzlemUzuner,LuoY,SzolovitsP.EvaluatingtheState-of-the-ArtinAutomaticDe-identification[J].JournaloftheAmericanMedicalInformaticsAssociationJamia,2007,14(5):550.[3]SweeneyL.Replacingpersonally-identifyinginformationinmedicalrecords,theScrubsystem.[C]//ProcAMIAAnnuFallSymp,1996:333.[4]P.Ruch,R.H.Baud,A.M.Rassinoux,P.Bouillon,G.Robert.Medicaldocumentanonymizationwithasemanticlexicon[J].ProceedingsoftheAmiaSymposium,1999,7(1):729.[5]P.Ruch,R.H.Baud,A.M.Rassinoux,P.Bouillon,G.Robert.Medicaldocumentanonymizationwithasemanticlexicon[J].ProceedingsoftheAmiaSymposium,1999,7(1):729.[6]GuillenR.Automatedde-identificationandcategorizationofmedicalrecords[C]//i2b2WorkshoponChallengesinNaturalLanguageProcessingforClinicalData.2006,116.[7]WellnerB,HuyckM,MardisS,etal.Rapidlyretargetableapproachestode-identificationinmedicalrecords.[J].JournaloftheAmericanMedicalInformaticsAssociation,2006,14(5):564-573.[8]HaraK.ApplyingaSVMbasedChunkerandatextclassifiertothedeidchallenge[C]//i2b2Workshoponchallengesinnaturallanguageprocessingforclinicaldata.2006:10-11.[9]SzarvasG,FarkasR,BusafeketeR.State-of-the-artanonymizationofmedicalrecordsusinganiterativemachinelearningframework.[J].JournaloftheAmericanMedicalInformaticsAssociationJamia,2007,14(5):574.[10]SweeneyL.UniquenessofSimpleDemographicsintheUSPopulation[J].2000.[11]StubbsA,KotfilaC,UzunerO.Automatedsystemsforthede-identificationoflongitudinalclinicalnarratives:Overviewof2014i2b2/UTHealthsharedtaskTrack1[J].JournalofBiomedicalInformatics,2015,58:S11-S19.51 参考文献[12]StubbsA,UzunerÖ.Annotatinglongitudinalclinicalnarrativesforde-identification:The2014i2b2/UTHealthcorpus[J].JournalofBiomedicalInformatics,2015,58:S20.[13]DehghanA,KovacevicA,KarystianisG,etal.Combiningknowledge-anddata-drivenmethodsforde-identificationofclinicalnarratives[J].JournalofBiomedicalInformatics,2015,58:S53.[14]LiuZ,ChenY,TangB,etal.Automaticde-identificationofelectronicmedicalrecordsusingtoken-levelandcharacter-levelconditionalrandomfields[J].JournalofBiomedicalInformatics,2015,104:S47-S52.[15]YangH,GaribaldiJM.Automaticdetectionofprotectedhealthinformationfromclinicnarratives[J].JournalofBiomedicalInformatics,2015,79:S30-S38.[16]MccullochWS,PittsW.Alogicalcalculusoftheideasimmanentinnervousactivity[C]//Neurocomputing:foundationsofresearch.MITPress,1988:115-133.[17]RosenblattF.Principlesofneurodynamics[M]//Principlesofneurodynamics.Мир,1962:586.[18]RumelhartDE,HintonGE,WilliamsRJ.Learninginternalrepresentationsbyerrorpropagation[R].CaliforniaUnivSanDiegoLaJollaInstforCognitiveScience,1985.[19]WerbosPJ.Generalizationofbackpropagationwithapplicationtoarecurrentgasmarketmodel[J].NeuralNetworks,1988,1(4):339-356.[20]BishopCM.Neuralnetworksforpatternrecognition[M].Oxforduniversitypress,1995.[21]HintonGE.Learningmultiplelayersofrepresentation[J].Trendsincognitivesciences,2007,11(10):428-434.[22]SmolenskyP.Informationprocessingindynamicalsystems:Foundationsofharmonytheory[R].COLORADOUNIVATBOULDERDEPTOFCOMPUTERSCIENCE,1986.[23]LeCunY,BengioY,HintonG.Deeplearning[J].Nature,2015,521(7553):436-444.[24]KrizhevskyA,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//Advancesinneuralinformationprocessingsystems.2012:1097-1105.[25]FarabetC,CouprieC,NajmanL,etal.Learninghierarchicalfeaturesforscenelabeling[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2013,35(8):1915-1929.[26]TompsonJJ,JainA,LeCunY,etal.Jointtrainingofaconvolutionalnetworkandagraphicalmodelforhumanposeestimation[C]//Advancesinneuralinformationprocessingsystems.2014:1799-1807.52 参考文献[27]SzegedyC,LiuW,JiaY,etal.Goingdeeperwithconvolutions[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015:1-9.[28]MikolovT,DeorasA,PoveyD,etal.Strategiesfortraininglargescaleneuralnetworklanguagemodels[C]//AutomaticSpeechRecognitionandUnderstanding(ASRU),2011IEEEWorkshopon.IEEE,2011:196-201.[29]HintonG,DengL,YuD,etal.Deepneuralnetworksforacousticmodelinginspeechrecognition:Thesharedviewsoffourresearchgroups[J].IEEESignalProcessingMagazine,2012,29(6):82-97.[30]SainathTN,MohamedA,KingsburyB,etal.DeepconvolutionalneuralnetworksforLVCSR[C]//Acoustics,speechandsignalprocessing(ICASSP),2013IEEEinternationalconferenceon.IEEE,2013:8614-8618.[31]MaJ,SheridanRP,LiawA,etal.Deepneuralnetsasamethodforquantitativestructure–activityrelationships[J].Journalofchemicalinformationandmodeling,2015,55(2):263-274.[32]CiodaroT,DevaD,DeSeixasJM,etal.Onlineparticledetectionwithneuralnetworksbasedontopologicalcalorimetryinformation[C]//Journalofphysics:conferenceseries.IOPPublishing,2012,368(1):012030.[33]LeungMKK,XiongHY,LeeLJ,etal.Deeplearningofthetissue-regulatedsplicingcode[J].Bioinformatics,2014,30(12):i121-i129.[34]XiongHY,AlipanahiB,LeeLJ,etal.Thehumansplicingcoderevealsnewinsightsintothegeneticdeterminantsofdisease[J].Science,2015,347(6218):1254806.[35]CollobertR,WestonJ,BottouL,etal.Naturallanguageprocessing(almost)fromscratch[J].JournalofMachineLearningResearch,2011,12(Aug):2493-2537.[36]BordesA,ChopraS,WestonJ.Questionansweringwithsubgraphembeddings[J].arXivpreprintarXiv:1406.3676,2014.[37]SutskeverI,VinyalsO,LeQV.Sequencetosequencelearningwithneuralnetworks[C]//Advancesinneuralinformationprocessingsystems.2014:3104-3112.[38]StanculescuI,WilliamsCK,FreerY.AutoregressivehiddenMarkovmodelsfortheearlydetectionofneonatalsepsis.[J].IEEEJBiomedHealthInform,2014,18(5):1560-1570.[39]HenryKE,HagerDN,PronovostPJ,etal.Atargetedreal-timeearlywarningscore(TREWScore)forsepticshock[J].ScienceTranslationalMedicine,2015,7(299):299ra122.53 参考文献[40]MarlinBM,KaleDC,KhemaniRG,etal.Unsupervisedpatterndiscoveryinelectronichealthcaredatausingprobabilisticclusteringmodels[C]//Proceedingsofthe2ndACMSIGHITInternationalHealthInformaticsSymposium.ACM,2012:389-398.[41]SchulamP,WigleyF,SariaS.Clusteringlongitudinalclinicalmarkertrajectoriesfromelectronichealthdata:applicationstophenotypingandendotypediscovery[C]//Twenty-NinthAAAIConferenceonArtificialIntelligence.AAAIPress,2015:2956-2964.[42]MerzE,LieserH,SchicketanzKH,etal.[Intrauterinefetalweightassessmentusingultrasound.Acomparisonofseveralweightassessmentmethodsanddevelopmentofanewformulaforthedeterminationoffetalweight][J].1988,9(1):15-24.[43]FarmerRM,MedearisAL,HirataGI,etal.Theuseofaneuralnetworkfortheultrasonographicestimationoffetalweightinthemacrosomicfetus.[J].Americanjournalofobstetricsandgynecology,1992,166(5):1467-72.[44]MohammadiH,NematiM,AllahmoradiZ,etal.Ultrasoundestimationoffetalweightintwinsbyartificialneuralnetwork[J].JournalofBiomedicalScience&Engineering,2011,4(1).[45]GhassemiM,PimentelMAF,NaumannT,etal.AMultivariateTimeseriesModelingApproachtoSeverityofIllnessAssessmentandForecastinginICUwithSparse,HeterogeneousClinicalData[J].2015,2015:446-453.[46]QuinnJA,WilliamsCKI,McintoshN.Factorialswitchinglineardynamicalsystemsappliedtophysiologicalconditionmonitoring.[J].IEEETransPatternAnalMachIntell,2009,31(9):1537-51.[47]SchildRL,SachsC,FimmersR,等.Sex-specificfetalweightpredictionbyultrasound[J].UltrasoundinObstetrics&GynecologytheOfficialJournaloftheInternationalSocietyofUltrasoundinObstetrics&Gynecology,2004,23(1):30.[48]ChengYC,ChiuYH,WangHC,etal.UsingAkaikeinformationcriterionandminimummeansquareerrormodeincompensatingforultrasonographicerrorsforestimationoffetalweightbynewoperators[J].TaiwaneseJournalofObstetrics&Gynecology,2013,52(1):46-52.[49]刘致君,李桂荣,郭兴巧.预测胎儿体重新方法与传统方法的比较[J].中国妇幼保健,2008,23(24):3478-3479.[50]唐慧霞,李胜利.超声估测胎儿体重的研究进展[J].中华医学超声杂志电子版,54 参考文献2014(5):9-14.[51]GardnerJ,XiongL.HIDE:anintegratedsystemforhealthinformationDE-identification[C]//Computer-BasedMedicalSystems,2008.CBMS'08.21stIEEEInternationalSymposiumon.IEEE,2008:254-259.[52]AberdeenJ,BayerS,YeniterziR,etal.TheMITREIdentificationScrubberToolkit:design,training,andassessment[J].Internationaljournalofmedicalinformatics,2010,79(12):849-859.[53]ChenT,CullenRM,GodwinM.HiddenMarkovmodelusingDirichletprocessforde-identification[J].Journalofbiomedicalinformatics,2015,58:S60-S66.[54]HeB,YiG,ChengJ,etal.CRFsbasedde-identificationofmedicalrecords[J].JournalofBiomedicalInformatics,2015,58(Suppl):S39-S46.[55]LaffertyJ,McCallumA,PereiraF.Conditionalrandomfields:Probabilisticmodelsforsegmentingandlabelingsequencedata[C]//Proceedingsoftheeighteenthinternationalconferenceonmachinelearning,ICML.2001,1:282-289.[56]LeCunY,BoserB,DenkerJS,etal.Backpropagationappliedtohandwrittenzipcoderecognition[J].Neuralcomputation,1989,1(4):541-551.[57]ZhouYT,ChellappaR,VaidA,etal.Imagerestorationusinganeuralnetwork[J].IEEETransactionsonAcoustics,Speech,andSignalProcessing,1988,36(7):1141-1151.[58]RumelhartDE,HintonGE,WilliamsRJ.Learningrepresentationsbyback-propagatingerrors[J].Nature,1986,323(6088):533-536.[59]HochreiterS.UntersuchungenzudynamischenneuronalenNetzen[C]//Master'sThesis,InstitutFurInformatik,TechnischeUniversitat,Munchen.1991.[60]HochreiterS,SchmidhuberJ.LongShort-TermMemory[J].NeuralComputation,1997,9(8):1735.[61]GersFA,SchmidhuberJ,CumminsF.Learningtoforget:continualpredictionwithLSTM[J].NeuralComputation,2000,12(10):2451.[62]GersFA,SchraudolphNN,SchmidhuberJ,etal.Learningprecisetimingwithlstmrecurrentnetworks[J].JournalofMachineLearningResearch,2003,3(1):115-143.[63]ChoK,MerrienboerBV,GulcehreC,etal.LearningPhraseRepresentationsusingRNNEncoder-DecoderforStatisticalMachineTranslation[J].ComputerScience,2014.[64]JrDWH,LemeshowS,SturdivantRX.AppliedLogisticRegression,3rdEdition[J].55 参考文献Technometrics,2013,34(3):358-359.[65]ManninenT,HuttunenH,RuusuvuoriP,etal.LeukemiaPredictionUsingSparseLogisticRegression[J].PlosOne,2013,8(8):e72932.[66]RaoA,LeeY,GassA,etal.ClassificationofAlzheimer'sDiseasefromstructuralMRIusingsparselogisticregressionwithoptionalspatialregularization[C]//EngineeringinMedicineandBiologySociety,EMBC,2011AnnualInternationalConferenceoftheIEEE.IEEE,2011:4499-4502.[67]KimY,KwonS,SongSH.Multiclasssparselogisticregressionforclassificationofmultiplecancertypesusinggeneexpressiondata[J].ComputationalStatistics&DataAnalysis,2006,51(3):1643-1655.[68]QuinlanJR.C4.5:programsformachinelearning[M].MorganKaufmannPublishersInc.1993.[69]FanCY,ChangPC,LinJJ,etal.Ahybridmodelcombiningcase-basedreasoningandfuzzydecisiontreeformedicaldataclassification[J].AppliedSoftComputing,2011,11(1):632–644.[70]BonnerG.Decisionmakingforhealthcareprofessionals:useofdecisiontreeswithinthecommunitymentalhealthsetting[J].JournalofAdvancedNursing,2001,35(3):349-56.[71]YaoNZ,LiuNP,LeiNL,etal.R-C4.5decisiontreemodelanditsapplicationstohealthcaredataset[C]//InternationalConferenceonServicesSystemsandServicesManagement,2005.ProceedingsofIcsssm.IEEEXplore,2005:1099-1103Vol.2.[72]SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:asimplewaytopreventneuralnetworksfromoverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.[73]DernoncourtF,LeeJY,UzunerO,etal.De-identificationofpatientnoteswithrecurrentneuralnetworks[J].JournaloftheAmericanMedicalInformaticsAssociation,2016:ocw156.56 个人简历、在校期间发表的学术论文及研究成果个人简历、在校期间发表的学术论文及研究成果个人简历李昆,男,河南濮阳人。2010年9月至2014年6月就读于郑州大学计算机科学与技术专业,工学学士。2014年9月至2017年6月就读于郑州大学计算机科学与技术专业,工学硕士。在校期间发表的学术论文LiK,ChaiY,ZhaoH,etal.LearningtoRecognizeProtectedHealthInformationinElectronicHealthRecordswithRecurrentNeuralNetwork[C]//InternationalConferenceonComputerProcessingofOrientalLanguages.SpringerInternationalPublishing,2016:575-582.李昆,柴玉梅,赵红领,等.基于深度神经网络的胎儿体重预测[J].计算机科学,2016,2.Wu,K.,Nan,X.,Chai,Y.,Wang,L.,&Li,K.(2016,December).DTSP-V:Atrend-basedTopScoringPairsmethodforclassificationoftimeseriesgeneexpressiondata.InBioinformaticsandBiomedicine(BIBM),2016IEEEInternationalConferenceon(pp.1787-1794).IEEE.研究成果2015年07月参加NLPCC2015ChineseOpenQA评测任务,获得第二名。2015年11月参加2015年郑州大学第九届信息工程学院学术分论坛,做论文宣讲。2016年04月申请软件著作权《中文问答系统V1.0》,登记号为:2016SR172292。2016年06月申请软件著作权《电子病历处理软件V1.0》,登记号为:2016SR171908。57 致谢致谢七年一梦郑大路。七年前,怀着懵懂的激动心情走入郑州大学的校园,身边的一切都是新鲜的。从院系活动,到参与社团;从绿茵场的驰骋,到宿舍的宅居;从盲目生活,到目标明确,这些年来的挫折与成长,回顾起来都历历在目。三年前,从郑州大学本科毕业,有机会继续在学校攻读硕士学位,因此当时并无太多感慨,只觉大学的时光又续了三年。进入研究生后虽然对未来仍然充满着迷茫,但是对于计算机专业的执着缺失愈发的坚定。两年前,结束了研究生阶段的课程,实验室也搬到了市中心的南校区,闹中取静,在喧嚣的方块街道中,开始了研究生阶段的科研道路。一年前,体会到了被论文被拒的无力,体会到了论文录用的释怀,体会到了求职的不易,最终也得到了收获满意结果的欣喜。正如马尔可夫过程一般,我们都在时间维度上前行,现在所得的一切,都只与历史有关,无论是成功的、失败的过往,都是现在拥有的财富。一些机遇与巧合,使原本有着学术梦想的我改变了对个人未来的定位。或许是当初我也并没有认真的评估自己是否适合走学术道路,总之现在的结果是我认为自己还是更适合于参加工作,而不适合继续攻读博士学位。但是读博的念头却没有彻底消散,或许五年、十年,甚至是几十年之后,我会再次返回大学校园攻读博士。研究生三年里,虽然没有走过很多路,也没人认识太多的人,但是每个进入我生活的人都让我受益良多。感谢上天将我的挚爱带到我的身边,没有凯敏三年来的陪伴,我的三年将会暗淡无光。感谢我的导师柴玉梅教授,从我大四开始就给予了我悉心、严厉、个性化的指导,不仅在学术研究上,同时在为人做事方面,都给了我受益良多的启发。同时还要感谢王黎明教授,他的细致与人生思考时常在我耳边回荡。感谢赵红领老师,为我提供了许多工程实践的机会。感谢南晓斐副教授,为我提供了许多基础理论上的指点。感谢梁军师兄,在学术及就业上给我的强力的帮助。感谢姜琴师姐,为我提供了很多可以借鉴的宝贵经验。感谢实验室的小伙伴杨浩宇、陈昊文、高光、李超、李贞、李赛、王涛、王春月、王冰洁,我们一同学习、一同玩耍的场景是研究生三年的宝贵回忆。最后,感谢我的父母,无论何事都无条件的信任我支持我,他们是我勇于挑战整个世界的强大后盾。未来的路,有着些许不确定的,但总体来说是光明的。三句话以自勉:1)珍惜爱的人,那是生活的意义;2)保持永远的战斗姿态;3)一切艰难都会过去。58

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭