基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究

基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究

ID:4481647

大小:2.21 MB

页数:7页

时间:2017-12-01

基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究_第1页
基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究_第2页
基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究_第3页
基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究_第4页
基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究_第5页
资源描述:

《基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于文本挖掘词频反文档频率方法的疾病症状权重挖掘研究宋艳1,何嘉1,舒红平2,郑皎凌2,梁繁荣2,任玉兰3,文立玉3(1.成都信息工程学院计算机系,四川成都610225;2.成都信息工程学院软件工程系,四川成都610225;3.成都中医药大学,四川成都610075)摘要:词频反文档频率是文档特征权值表示的常用方法,用以评估单词对于语料库中的其中一份文件的重要程度。通过合理映射病例库与语料库的词汇关系,对词频反文档频率模型进行改进,并将改进后的词频反文档频率模型应用到针灸处方疾病症状权重挖掘中,计算出疾病

2、所对应的各种症状权重。实验统计了106种疾病,其中与临床诊疗经验相符合的有84种,准确率达79.2%,实验表明改进的模型能得到较好的疾病症状权重鉴别效果。关键词:计算机应用技术;词频;反文档频率;疾病症状;症状权重中图分类号:TP311.13文献标志码:A0引言中医讲求辨证论治1-2,也称辨证施治,是中医学对疾病的一种特殊的研究和处理方法。辨证是决定治疗的前提和依据,不同的证(症状与体征)在辨证过程中所起作用大小是不同的3,半身不遂、瘫痪、口噤不开、恶风、疼痛、头昏的重要性就不同4,其中半身不遂、瘫痪、

3、口噤不开的重要性就比其余几个症状大。如果见到半身不遂、瘫痪,病人患中风的可能性就很大;而见到头昏、疼痛则不然。因而,考虑各症状5的权重问题在制定中医疾病诊断标准方面也起到极大作用6。1基于文本挖掘TF2IDF词频统计模型1.1TF2IDF简介TF2IDF7-8(TermFrequency2InverseDocumentFrequency)是一种用于资讯检索与资讯探勘的常用加权9-10技术。TF2IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在

4、文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。提出采用此文本挖掘算法11来解决疾病症状的权重问题。文本分类12时常用词频(TermFrequency,TF)和反文档频率(InverseDocumentFrequency,IDF)的乘积来表示特征向量的权重,TF指的是某一个给定的词语在该文件中出现的次数,出现次数越多说明该词语越重要,反映了词语的灵敏度。IDF是一个词语普遍重要性的度量,反映了词语的特异度13。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再

5、将得到的商取对数得到。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF2IDF,它倾向于保留文档中较为特别的词语,过滤常用词14。TF2IDF数学模型:W=TF3IDF=(i/m)3log(N/n)其中,i指某个字词在某一文件中出现的次数,m指该文件的总词数,N指语料库的文件总数,n指包含某字词的文件总数。收稿日期:2013206206基金项目:国家重点基础研究(973)计划子课题资助项目(2012CB518500);国家自然科学基金资助项目(61202250,

6、61203172);四川省教育厅青年基金资助项目(11ZB088);四川省应用基础计划资助项目(2012JY0112);四川省科技支撑计划资助项目(2011SZZ027)1.2病例库与语料库的TF2IDF映射关系病例库记录了疾病及其对应的症状在一段时间内的分布情况,利用TF2IDF文本挖掘算法对病例库进行挖掘,目的就是找出每一种疾病中各个症状所占的权重分布。不仅考虑症状在某种疾病的所有症状中所占的比重大小,同时还要考虑在病例库的所有疾病中这一症状对这种疾病的辨别能力。因此,将病例库中的疾病、症状与文本语

7、料库中的文件、字词形成正确合理的映射关系则显得尤为重要。映射关系是否合理直接决定了后期的实验效果,图1、图2分别展示了改进前和改进后的病例库语料库映射图。图1基于原始TF2IDF模型的病例语料库映射关系图2基于改进的病例语料库映射关系下面分别从IDF、TF的角度论证了改进后模型的病例语料库映射关系要优于基于原始TF2IDF模型的病例语料库映射关系。(1)从IDF角度考虑图1中,改进前考虑将每个症状映射为一个字词,将每条病例映射为一个文件。假如某个症状只在某个疾病中出现较频繁(n较大),说明该症状对该疾病

8、有很高的权重。但在计算IDF时,n越大,IDF越小,说明该症状权重越小,这与实际情况不符。简单举例如下:一共有1000条病例,其中感冒有800条,在800条感冒病例中发热出现790次(也即790条病例包含发热,若某病例中出现某症状,则该病例与该症状是一对一的关系)。根据上文提出的TF2IDF数学模型计算IDF(感冒,发热)=log(1000/790)数值很小,不能很好地反应发热在感冒中应该赋予很高权重这一实际情况。图2中,改进后将同种疾病的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。