ccsc_09_基于谱聚类的垃圾评论检测方法new

ccsc_09_基于谱聚类的垃圾评论检测方法new

ID:34603269

大小:421.21 KB

页数:5页

时间:2019-03-08

ccsc_09_基于谱聚类的垃圾评论检测方法new_第1页
ccsc_09_基于谱聚类的垃圾评论检测方法new_第2页
ccsc_09_基于谱聚类的垃圾评论检测方法new_第3页
ccsc_09_基于谱聚类的垃圾评论检测方法new_第4页
ccsc_09_基于谱聚类的垃圾评论检测方法new_第5页
资源描述:

《ccsc_09_基于谱聚类的垃圾评论检测方法new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于谱聚类的垃圾评论检测方法朱洪谭文堂贺明科葛斌李芳芳(国防科技大学信息系统工程重点实验室,湖南长沙,410073)摘要随着Web2.0和电子商务的飞速发展,消费者在网上购物之后会对所购产品在网站上发表一些相关评论,这些评论数据无论是对消费者还是对生产商都有很重要的价值。评论中不可避免地出现一些如广告或不相关评论等之类的垃圾评论数据,使得在海量评论数据中获取有用信息时产生干扰,所以垃圾评论数据的检测显得尤为必要。本文提出了一种基于谱聚类的无监督的垃圾评论检测方法,实验表明该方法具有较高的准确率和

2、召回率,达到了较好的检测效果。关键词谱聚类;垃圾评论;评论分析ADetectionMethodBasedonSpectralClusteringforReviewSpamZHUHong,TANWen-Tang,HEMing-KeGEBin,LIFang-Fang(ScienceandTechnologyonInformationSystemsEngineeringLaboratoryinNationalUniv.ofDefenseTechnology,Changsha,410073)Abstra

3、ctWiththerapiddevelopmentofWeb2.0andE-commerce,consumerswroterelatedreviewsofproductsthattheyhavepurchasedonthewebsite.EvaluativetextsontheWebhavebecomeavaluablesourcetoconsumersandproductmanufacturers.Inevitably,therearesomereviewspamsuchasadvertise

4、mentsandunrelateditemsinnormalreviews.Itisverynecessarytoproposeonemethodtodetectreviewspamsoastoavoidinterferencewhenwegetusefulinformationfromreviews.Inthispaper,weproposedoneunsuperviseddetectionmethodbasedonoutlierdetectionforreviewspam.Thisexper

5、imentshowsthatthismethodhashigheraccuracyandachievespreferableeffects.keywordsSpectralClustering;ReviewSpam;ReviewAnalysis引言随着Web2.0和电子商务的飞速发展,“以用户为中心,用户参与”的开放式构架理念的[1,2]不断深入,改变了互联网用户以往表达自己想法的方式。他们可以在所购买产品的网站上(如www.taobao.com)发表对相应产品的评论。因为这些评论包含用户对产品

6、的评论意[3,4,5]见,这些评论意见不管是对潜在客户还是对产品制造商都是非常有用的。因为正面的评论可以为组织或个人带来显著的商业利益和声誉,不幸的是,这也促使了[4]垃圾评论(ReviewSpam)的产生。研究发现有10%到15%的评论都是重复早期的评论,[6]这些评论很可能是受到了垃圾评论的影响,使得我们在从海量的评论数据中获取有用信息时产生了影响,而对垃圾评论和垃圾评论检测的研究并不多。鉴于此,本文提出了一种基于谱聚类的无监督的垃圾评论检测方法,该方法把垃圾评论作为离群点,采用谱聚类的方法

7、进行离群点探测从而检测出垃圾评论。1相关工作[7]互联网上产生的垃圾信息(Spam)一般分为垃圾网页(WebSpam)和垃圾邮件(Email[8]Spam),这两类垃圾信息已有诸多学着进行了相应的研究。近年来,对在线评论的研究越来越多,而对垃圾评论的研究并不多。文献[2]首次提出了另外一种垃圾信息:垃圾评论(ReviewSpam)。文献[9]和文献[10]对垃圾评论进行了分类:(1)不真实评论(untruthful收稿日期:基金项目:唐九阳、国家自然科学基金(60903225);周城、国防科技大

8、学优秀研究生创新基金(S100502)作者简介:朱洪、男、1988.03生、硕士研究生、湖北钟祥人、研究方向为信息资源管理和Web文本挖掘、湖南省国防科技大学信息系统与管理学院硕士生队、邮编410073、zhuhong301@gmail.com、13687387364opinions):虚假的好评或恶意的差评;(2)仅对品牌的评论(reviewsonbrandsonly):仅仅对品牌而不是商品进行评论;(3)不相关评论(non-reviews):广告或其它如提问等不相关评论。文献[2]和文献[9

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。