基于http协议面向中文文本的过滤技术研究论文

基于http协议面向中文文本的过滤技术研究论文

ID:34093301

大小:2.39 MB

页数:67页

时间:2019-03-03

基于http协议面向中文文本的过滤技术研究论文_第1页
基于http协议面向中文文本的过滤技术研究论文_第2页
基于http协议面向中文文本的过滤技术研究论文_第3页
基于http协议面向中文文本的过滤技术研究论文_第4页
基于http协议面向中文文本的过滤技术研究论文_第5页
资源描述:

《基于http协议面向中文文本的过滤技术研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、四川师范大学硕士学位论文基于HTTP协议面向中文文本的过滤技术研究姓名:乐妍申请学位级别:硕士专业:计算机软件与理论指导教师:袁丁20090425基于HTTP协议面向中文文本的过滤技术研究专业计算机软件与理论研究生乐妍指导教师袁丁摘要21世纪是网络时代,人们的工作、学习和生活都与网络息息相关。但网络在给世人提供方便快捷的服务同时,也埋下了很多社会道德、法制、政治隐患,究其来源,就是网络中不良信息的泛滥。本文研究的主要内容就是如何在网络信息与用户之间建立起一个信息的过滤屏障,将网络中的不良信息拦截在用户的可视范围之外。网络信息中一个重要的信息载

2、体是网页,本文选用HTTP协议作为研究对象,提出了一种面向中文文本的信息过滤模型。本文的研究重点是HTTP协议数据报的拦截分析和中文字符串的匹配,针对当前的研究现状和存在的问题做了如下工作:1、关于网络数据的拦截可以在核心态和用户态两个层面上进行。核心态网络数据的拦截功能强大,但需要对数据包进行重组和还原,技术实现复杂,而用户态下网络数据的拦截实现简单,更重要的一点是截获到的数据报完整,易于分析,所以本文采用了用户态下的SPI(ServiceProviderInterface)网络数据报拦截技术获取网络数据。2、文本过滤中经常会受到一些伪装词

3、汇的干扰,本文提出了一种利用字符编码的规律,通过一次扫描预处理,剔除敏感信息分割伪装的方法,有效提高了过滤的准确率。3、关键字的匹配速度是文本过滤的速度瓶颈,笔者研究了几种常见的关键字匹配算法,发现这些算法都是面向小字符集文本,对于中文这样的大字符集而言效果不够理想。因此,本文通过改进WM算法,提出了一种面向中文文本的快速字符串匹配算法(CM算法)。4、对于含不良信息的数据报处理,本文采用的是先计算拦截数据的信息敏感度,然后根据决策树给出的策略做出相应处理,在一定程度上降低了误拦率。关键字:文本过滤HTTPSPI字符编码字符串匹配IIStud

4、yofChinese—-text-·orientedFiltrationTechnologybasedonHTTPMajor:ComputerSoftwareandTheoryGraduate:YueYanAdvisor:YuanDingAbstract:The21centuryisallInternetErawherepeople’Swork,studyanddailylifeiscloselyrelatedtonetwork.Despitetheconvenienceandefficiencybroughtalongtotheworld,

5、networkhasalsoleftbehindpotentialriskstosocialmorality,legalsystemaswellaspolitics.Basically,itisresultedfromthefloodingofinappropriatecontentsonnetwork.Thispaperchieflystudieshowtoestablishafirewallbetweennetworkinformationandnetworkusersthatcouldinterceptinappropriateinfo

6、rmationoffthevisiblerange.Webpageisquiteanimportantinformationcarrier.TargetingatHTTPprotocol,thispaperproposesaChinese-text-orientedinformationfilteringmodel.ThispaperfocusedonanalysisforHTTPDatagramProtocolandChinesetextmatching.Themajoronesasfollowingalemadetargetingatth

7、estatusquoofcurrentresearchandexisting:1.AnalysisforHTTPDatagramProtocolCanbeconductedontwolevels,UserModelandKernelModel.Despiteitspowerfulinterceptionfunction,DatainterceptionunderKernelModelistechnicallyhardtoachievebecauseitasksforreconstructionandreduction.Whiledataint

8、erceptioniseasytoachieveunderusermodel,what’Smore,itiseasytomakeanalysisforitscomp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。