基于winnow算法的反垃圾邮件引擎的设计与实现

基于winnow算法的反垃圾邮件引擎的设计与实现

ID:32465447

大小:1.31 MB

页数:57页

时间:2019-02-06

基于winnow算法的反垃圾邮件引擎的设计与实现_第1页
基于winnow算法的反垃圾邮件引擎的设计与实现_第2页
基于winnow算法的反垃圾邮件引擎的设计与实现_第3页
基于winnow算法的反垃圾邮件引擎的设计与实现_第4页
基于winnow算法的反垃圾邮件引擎的设计与实现_第5页
资源描述:

《基于winnow算法的反垃圾邮件引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要电子邮件已经成为人们日常交流沟通的重要手段和企业运转不可或缺的重要组成部分,然而垃圾邮件作为电子邮件的副产物却日益影响着人们的日常生活,反垃圾邮件已经成为全球的重大研究课题。反垃圾邮件技术有很多,常用的方法是从电子邮件的文本内容出发,使用文本分类的方法,在训练集合上学习并构造分类器,并用测试集测试系统性能.近年来,垃圾邮件的中心开始迁向中国,因此研究中文反垃圾邮件有很重大的意义。本文主要针对中文垃圾邮件,研究了反垃圾邮件引擎中所需的各种技术,设计了系统的模块划分,包括预处理模块、训练模块、分类模块和反馈模块,并给出了部分重要模块的实现,最终实现了一种基于Winnow算法的反垃圾邮件引擎

2、。具体的说,本文的工作主要包含如下内容:1)预处理模块包括邮件解码和中文分词,在邮件解码模块详细给出了Base64和QP的编码规范和解码算法。在中文分词模块,为了更好的维护词典,采用改进的全二分最大匹配快速分词算法。21训练模块采用Winnow算法构造分类器,Winnow是一种错误驱动在线学习线性分类算法,其在线学习的特性非常适合“一例一学”的增量式反馈。在本系统中,分别实现了最基本的Winnow和BalancedWinnow,经测试发现BalancedWinnow的性能要优于最基本的Winnow。3)在分类模块,经测试发现最初的设置阈值方法会导致Recall过低,调整阈值后,系统的效果有

3、较大的提高。最后总结了阙值调整的方法。关键词:垃圾邮件,邮件解码,中文分词,特征提取,Winnow,VSM,反馈学习竺!里坠坚ABSTRACTEmailhasbecomeanimportantmeansofcommunicationandanimportantcomponentoftheenterpriseoperation,howeverasabyproductofEmail,spamisincreasinglyaffectingpeople‘sdailylives,andanti—spamhasbecomeamajorglobalresearchtopic.Amongthevariou

4、stechniquestosolvespamproblems,beginwiththemailcontent,andusetextcategorizationtechnique,thenstudyandconstructclassificationontrainingsets,atlasttestthesystemperformanceusingtestsetsisacommonlyusedmethod.RecentlythespamcenterbeginstomovetoChina,sotheresearchofChineseanti·spamisimportant.Thisdisser

5、tationfocusonChinesespam.Varioustechniquesrequiredinanti-spamenginewerediscussedandthesystemmoduleweredesigned,includingpre-processmodule,trainingmodule,classifymoduleandfeedbackmoduleandtheimplementationofpartimportantmodulesweregiven.AtlastthesystemofChineseanti—spamenginebasedonWinnowalgorithmw

6、asrealized.Specifically,thisarticleincludesthefollowingmainparts:1)Pre·processmoduleincludemaildecodeandChinesewordsegmentation.AdetailedBase64andQPencodingstandardsanddecodealgorithmsweregiveninthemaildecodemoduleandinordertobettermaintainingthedictionary,animprovedfullbinarysearchmaximalmatchalg

7、orithmforChinesewordsegmentationwasadoptedintheChinesewordsegmentationmodule.2)Winnowalgorithmwasadoptedtoconstructtheclassificationinthetrainingmodule.ThetrainingofWinnowisonlineandm/stakedriven.Furthermore。Winn

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。