欢迎来到天天文库
浏览记录
ID:31359983
大小:114.00 KB
页数:10页
时间:2019-01-09
《基于机器学习的微博机器用户识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于机器学习的微博机器用户识别研究 摘要:文章以微博用户为研究对象,从发博行为、博文内容、用户关系和发博设备四个方面建立特征维度,借助机器学习的方法构建有效的机器用户识别模型,分别在决策树C4.5和随机森林算法下验证了该模型的识别性能,证实了该方法的可行性和准确性,对维护健康的网络环境有一定的指导意义。 关键词:微博;机器用户;机器学习;用户识别;决策树C4.5;随机森林算法文献标识码:A 中图分类号:TP391文章编号:1009-2374(2016)30-0004-04DOI:10.13535/j.cnki.11-4406/n.2016.30.003 1
2、概述10 微博作为一种社会信息传播平台,以其易操作、低门槛、传播速度快等优点,受到公众更多的青睐。然而,随着微博的普及和互联网络技术的升级,一些不良分子借助新兴技术手段,譬如,依靠批量发布助手、自动广播器等自动化软件来操控账户,由此构成了机器用户。机器用户能够模仿真实用户发布、转发、评论博文,这类用户不具备感情、逻辑和互动性,却以其良好的伪装性,大量发布虚假信息,扩散舆论谣言,严重扰乱网络的正常秩序,破坏网络环境。机器用户造成的危害具体概括为以下四点:(1)耗费系统资源,降低平台效率,影响用户体验;(2)污染社交环境,降低用户信任度,造成平台虚假繁荣现象;(3)
3、难以辨别信息真实性,干扰用户正常判断力;(4)从数据分析角度,这些机器用户的存在部分掩盖了真实用户的特征,对后续数据挖掘、用户分析等研究造成了干扰。 鉴于此,机器用户的识别是一个紧迫而困难的工作,构建有效的机器用户识别模型,借助相关算法快速、准确地识别微博中的机器用户,对减少网络谣言的传播、净化网络环境有重要的意义。 2相关研究 早期对社交网站不良用户的研究主要集中在对垃圾用户,例如网络水军、广告用户、僵尸粉用户的识别研究上,而机器用户出现的时间并不长,对它的研究还不多,仅有的研究大多数以Twitter为平台,其成果无法直接应用于新浪微博等中文微博平台。10
4、 国内方面,刘勘等向自动化软件公司申请并获取了机器用户样本,提取了行为模式、微博内容、用户关系和发布平台四个维度的八个特征属性,基于随机森林训练了一个机器用户识别系统,机器用户的识别准确率达到了96.7%。中国的微博起源于Twitter,国外基于Twitter的机器用户研究主要有以下几人:Chu等从用户行为、Twitter内容和账户属性的角度建立分类系统,将Twitter用户分成机器用户、人类用户和半机器用户。Main采用决策树C4.5算法训练分类器,从用户的发博间隔、垃圾词语检测、重复博文检测、社交分值和发博设备五个方面构建模型,对训练结果采用了比较分析法,分
5、别选用2个主要属性,发博间隔和垃圾信息检测,还有完全采用5个属性时分类器的效果差异。结果表明,发博间隔是机器用户的重要特征,有着更好的区分度。Zhang等构建了一个基于每条Twitter发布时间的检测机器用户方法,并用此模型得到Twitter中大约有16%的活跃账户具有较高自动化行为。Wang提取3个基于图模型的Twitter用户特征和3个基于Twitter内容的属性并设计算法,识别出Twitter中的机器用户。 3基本思路及相关方法 机器用户的识别问题可以看作是一个将用户分为机器用户和真实用户的二分类问题:设用户的全集是U,类别集合C={,},表示机器用户集
6、合,表示真实用户集合,机器用户的识别问题就是求一个分类函数F,将U中的用户映射到C上。 (1) 上述映射函数F即代表了一个分类器,它可由机器学习算法习得,在本研究中选取决策树C4.5和随机森林算法。 C4.5算法是目前决策树中最常用的算法。它在树的构造过程中进行剪枝,并且用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。C4.5决策树算法不仅能对离散型数据、连续属性的离散化进行处理,还能够对不完整数据进行处理。 随机森林算法是LeoBreiman提出的一种利用多个树分类器进行分类和预测的方法。随机森林不仅训练和预测速度快而且不容
7、易出现过度拟合的问题。 4特征研究 通过深入观察和分析,发现机器用户在发博行为、微博内容、用户关系和发布平台4个方面存在显著差异,因此本文对这4个维度的特征进行深入分析。10 4.1发博行为特征 发布博文是用户在微博上的主要活动之一。经过浏览机器用户的发博历史,发现机器用户发博方式呈现两种极端:一类机器用户依靠不断转发某一条博文来增加人气;另一类机器用户依靠不断发布某领域原创博文来维持粉丝的粘性。因此,我们定义转发率来观察机器用户和真实用户的异同。转发率为: (2) 用户发布博文包括原创和转发,表示某用户发博总数,表示该用户转发博文的数量,表示用户转发
8、博文比率。
此文档下载收益归作者所有