基于内容的垃圾邮件过滤系统的设计与实现

基于内容的垃圾邮件过滤系统的设计与实现

ID:23932389

大小:1.80 MB

页数:52页

时间:2018-11-11

基于内容的垃圾邮件过滤系统的设计与实现_第1页
基于内容的垃圾邮件过滤系统的设计与实现_第2页
基于内容的垃圾邮件过滤系统的设计与实现_第3页
基于内容的垃圾邮件过滤系统的设计与实现_第4页
基于内容的垃圾邮件过滤系统的设计与实现_第5页
资源描述:

《基于内容的垃圾邮件过滤系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉邮电科学研究院硕士学位论文基于内容的垃圾邮件过滤系统的设计与实现DesignandImplementationofContentbasedSpamFilteringSystem专业:通信与信息系统研究方向:自然语言处理导师:汤鲲研究生:陶峰学号:20150033二〇一八年一月武汉邮电科学研究院硕士学位论文摘要随着互联网的快速发展,电子邮件因使用方便,通信快捷,已成为我们生活中的一部分。但是,现在很多的组织或者个人利用电子邮件的便捷,发布大量垃圾信息,这就是垃圾邮件。如今垃圾邮件问题越来越严重,它不仅传播了大量不良信息,还浪费了我们大量时间。垃圾

2、邮件分类技术中用的比较多的分类算法有朴素贝叶斯(NaiveBayes)、神经网络、K-近邻法、支持向量机(SVM)等。由于邮件分类算法都是建立特征项提取基础上的,因此特征项提取直接影响着邮件的分类效果。随着学者的研究发现,对电子邮件内容特征进行提取的有效算法有:文档频率、信息增益、互信息、期望交叉熵、文本证据权、CHI统计以及TFIDF等。TFIDF因其便于理解、操作简单、时间复杂度低等优点被广泛的运用,该算法也存在不足之处:该方法只考虑了特征词文档的绝对数量和特征词在某类邮件中的词频,没有考虑到特征词在类中的分布情况和特征词在其他类邮件中的词频,

3、高估了低频词的作用并低估了高频词的作用。本文将重点探讨并对比现有垃圾邮件过滤技术,分别从邮件预处理、中文分词、特征提取和分类器等角度展开。在比较多种特征提取算法后,论文选择对传统的TFIDF算法进行一定的修改和优化,通过降低特例邮件中频繁出现的特征词的影响,引入了频率差,分别对类中频繁出现和出现频率小的词条的权值进行增加和减少。最终实验结果表明,改进后的方法可以选择出更适合的特征集合,从而使邮件分类的效果更好,达到更有效的垃圾邮件过滤效果。关键词:邮件过滤词频特征提取分类器权值I武汉邮电科学研究院硕士学位论文AbstractWiththerapid

4、developmentoftheInternet,e-mailhasbecomeapartofourlifebecauseofitssimpleoperationandquickcommunication.However,manyorganizationsorindividualsnowusee-mailtofacilitateandreleasealargeamountofspam.Nowadays,theproblemofspamisgettingmoreandmoreserious.Itnotonlytakesupalotofnetworkb

5、andwidth,butalsoconsumesalotoftimeofInternetusers.Therefore,thereisanimportantapplicationrequirementforspamfiltering.ThemostcommonclassificationalgorithmsusedinspamclassificationareNaiveBayes,neuralnetworks,K-nearestneighbors,supportvectormachines(SVM)andsoon.Becausemailclassi

6、ficationalgorithmsarebasedontheestablishmentoffeatureextraction,featureextractiondirectlyaffectstheclassificationofmail.Accordingtotheresearchofscholars,effectivealgorithmsforextractingthefeaturesofe-mailcontentare:documentfrequency,informationgain,mutualinformation,expectatio

7、ncrossentropy,textualevidence,CHIstatisticsandTFIDF.TFIDFiswidelyusedduetoitsadvantagessuchaseasytounderstand,simpleoperationandlowtimecomplexity.Thealgorithmalsohassomeshortcomings.Thismethodonlyconsiderstheabsolutenumberoffeaturewordsandthewordfrequencyoffeaturewordsincertai

8、ntypesofe-mail,Withoutconsideringthedistributionoffeatureword

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。