文本评论数据质量分析方法研究

文本评论数据质量分析方法研究

ID:35082947

大小:3.32 MB

页数:91页

时间:2019-03-17

文本评论数据质量分析方法研究_第1页
文本评论数据质量分析方法研究_第2页
文本评论数据质量分析方法研究_第3页
文本评论数据质量分析方法研究_第4页
文本评论数据质量分析方法研究_第5页
资源描述:

《文本评论数据质量分析方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、文本评论数据质量分析方法研究重庆大学硕士学位论文(学术学位)学生姓名:郭卫丽指导教师:钟将教授专业:计算机软件与理论学科门类:工学重庆大学计算机学院二O一六年四月StudyonQualityAnalysisMethodofTextCommentsAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementforMaster’sofDegreeEngineeringByGuoWeiliSupervisedbyPr

2、of.ZhongJiangSpecialty:ComputerSoftwareandTheoryCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril2016中文摘要摘要随着电子商务的快速兴起,人们越来越倾向于网络购物。一方面由于网购交易双方信息的不对称性,使网购用户鉴定商品质量的困难加大,降低电子商务市场的交易效率;另一方面,用户评论数量巨大,且逐年增长,再加上用户的消费经验、评价态度等存在着巨大差异,导致评论数据中

3、的信息和价值也参差不齐。因此,如何快速的从海量评论中获取有价值的信息是当前电子商务市场一项迫切而重要的任务。本文从文本评论的质量角度出发,基于评论中商品特征词之间的泛化/特化关系,建立商品特征主题层次结构,在该结构的基础上对文本质量进行分析,从而向用户推荐高质量评论数据。本文将每个商品下的所有评论作为一个文档,提取文本评论中用户常用的比较关注的商品特征,根据商品特征词之间的泛化/特化关系,本文提出了一种基于FCA的特征主题层次格构建方法(THLBasedonFCA,TBF),以此来构建商品特征主

4、题层次格(TopicHierarchyLattice,THL)。TBF方法在采用句法分析方法提取出的商品特征的基础上,利用文档主题生成模型(LatentDirichletAllocation,LDA)来进行主题分析,提取出特征主题(该主题是由一些商品特征词按照一定的概率分布组成的词组),并得到文档——主题(doc-topic)和主题——特征词(topic-word)概率矩阵,然后根据商品类别与特征主题之间的二元关系,采用形式概念分析(FormalConceptAnalysis,FCA)的方法来构

5、建THL。在THL的基础上,本文提出了文本评论质量的五个影响因素:全面性、专业性、内聚性、相关性和可读性,由此提出了一个商品评论的质量分析模型(CommentQualityModelBasedonTHL,CQM)来计算每条评论的质量分数。该模型结合了评论质量的五个影响因素,可以比较全面的评估评论的质量。本文选取某B2C电子商务平台2012年交易数据中的116个商品类别、6,212个商品和18,415,146条评论数据为实验数据集,并通过人工打分的形式收集了评论质量评分数据作为实验的测试数据集,实

6、验结果中,CQM的MAE值为0.726,表明CQM对评论质量的预测评分与人工评分比较接近,验证了CQM对评论评分预测的准确性;另外,将CQM与四种常用的分类预测模型进行比较,其中RandomForest的分类效果最好,召回率最高为56.6%,验证了评论质量影响因素的合理性,同时,CQM也有比较好的分类效果,说明本文提出的CQM是有效的。关键词:评论质量,特征提取,特征主题层次格,文档主题生成模型,形式概念分析I英文摘要ABSTRACTWiththerapiddevelopmentofe-comm

7、erce,moreandmorepeopletendtoonlineshopping.Ontheonehand,asaresultofinformationasymmetryforbothpartiesinatrade,itmakesdifficultforuserstoidentifythequalityofcommoditiesonline,andreducestheefficiencyofmarkettransactionine-commerce.Ontheotherhand,theamo

8、untofusercommentsistoohugeandincreasesyearbyyear.Inaddition,theconsumptionexperienceandevaluationattitudediffergreatlybetweenusers,whichleadstogreatdifferencesintheinformationandvalueofcomments.Therefore,howtogetvaluableinformationquicklyfrommassivec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。