一种不良文本过滤方法

一种不良文本过滤方法

ID:33959074

大小:922.82 KB

页数:88页

时间:2019-03-02

一种不良文本过滤方法_第1页
一种不良文本过滤方法_第2页
一种不良文本过滤方法_第3页
一种不良文本过滤方法_第4页
一种不良文本过滤方法_第5页
资源描述:

《一种不良文本过滤方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、论文题目一种不良文本过滤方法工程领域软件工程指导教师杨国武教授作者姓名周俊学号200892326018万方数据分类号密级注1UDC学位论文一种不良文本过滤方法(题名和副题名)周俊(作者姓名)指导教师姓名杨国武教授成都电子科技大学成都薛振中副教授武警成都指挥学院成都(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2012.5论文答辩日期2012.6学位授予单位和日期电子科技大学答辩委员会主席评阅人2012年06月05日2万方数据注1:注明《国际十进分类法UDC》的类号万方数据独创性声明本人声明所

2、呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:周俊日期:2012年06月05日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有

3、关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:周俊导师签名:日期:2012年06月05日4万方数据摘要摘要随着互联网的迅速发展,一些不法分子利用网络来散布反动、色情、诈骗或者暴力等不良信息,对社会的稳定、价值导向,特别是青少年的健康成长构成了极大的危害。如何净化网络环境,过滤掉不良信息,是当前互联网建设和监控上的一个重要的研究热点。目前,不良文本过滤主流的研究方法是基于文本内容智能分析的过滤,主要包括向量空间模型法,神经网络法以及语义过滤法。神经网络法以及语义过滤主要缺点在于算法复杂

4、,执行速度慢,向量空间模型则是文档相关度计算量大,缺乏语义因素,基于以上不足,不良文本过滤的研究方向主要集中在提高过滤精度和降低过滤耗时上。本文的主要目的就是设计一个不良文本过滤方法,在保持精度的条件下,最大限度的降低过滤所耗费的时间,并且在不良文本训练库不充分的条件下,也能实现较高的性能。本文在分析自然语言处理过程中分词,特征选择,分类方法等在内的基础上,通过对过滤阀值,归一化,文本表示,数据不均衡以及训练库不充分等各种实际情况的分析和实验,提出了一种新的不良文本过滤方法,并最终通过实验验证了方法的有效性。具体地说,本文的工作主要包含下列内容:1、使

5、用了一种新的文本权重计算方法。该方法充分考虑了特征项在待表示文本中的频数以及指定特征项对于类别区分度的大小两个因素,能够更好的表示文本。2、针对常用不良文本过滤方法耗时较长的实际情况,提出了一个不良文本过滤方法。该方法在保证准确率和召回率的基础上,很大程度上降低了不良文本过滤所需求的时间。3、针对互联网环境下,训练文本库总是不充分的情况,收集了不充分和相对比较充分的两种语料库,并通过实验证明了本文提出的方法在这两种语料库中的过滤性能上优于经典方法。4、针对正反特征项集合数据不均衡性的问题,提出了两种解决数据不均衡型问题的方法,充分考虑了正反特征项的实际

6、作用,在这两种解决不均衡型问题的I万方数据摘要方法中,都引入了归一化的方法,并通过实验验证了方法的有效性。5、设计并验证了基于正反特征项差值的过滤方法,提出了界限值的概念以及界限值的确定方法,使用归一化和非归一化两种思路来进行判定,并通过实验得到了测试文本中最佳界限值。6、综合上述实验,得到新的不良文本过滤方法的最佳实现策略,并通过实验验证了该策略的有效性。关键词:权重;不良文本过滤;归一化;数据不均衡;正反特征项II万方数据ABSTRACTABSTRACTWiththerapiddevelopingofInternet,thehumanenterin

7、tonewerawhichhasrichinformation.Butthereisanewprobleminthisconditionatthesametime,inorderoflawlesspurposeinpoliticsoreconomy,manypeopledistributereactionary,pornographic,defraudingandviolenceinformationbyuseofinternet,itisnotgoodatthecon-structionofstatlesociety,value-basedtrans

8、lation,especiallythehealthygrowthoftheyourth.Ho

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。