社会论坛用户识别论文

社会论坛用户识别论文

ID:41552937

大小:365.03 KB

页数:22页

时间:2019-08-27

社会论坛用户识别论文_第1页
社会论坛用户识别论文_第2页
社会论坛用户识别论文_第3页
社会论坛用户识别论文_第4页
社会论坛用户识别论文_第5页
资源描述:

《社会论坛用户识别论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、西安电子科技大学第二十二届“星火杯”大学生课外学术科技作品竞赛社会科学类论文互联网论坛用户识别的研究摘要木文针对论坛用户识别这个实际问题进行研究,识别中需要达到如下四个结果:发现论坛言论领袖,即最具影响力的论坛人物;精确定位关注某一特定话题的用户;识别论坛活跃用户;发掘论坛人际关系圈。具体研究中,以数据挖掘分析理论和图论知识为基础,分析不同情况,分别建立了:逼近理想点的排序模型、逐步筛选定位模型、基于BP・神经网络的用户识别模型、基于图聚类的关系圈发掘模型。在研究言论领袖问题中,我们对55BBS论坛的言论领袖进行识别。考虑到对所有用户进行各项指标的信息提取的不可

2、行与不必要性,以及总积分对用户是否为言论领袖有一定的说服性,我们首先搜索岀该论坛的积分排名,抓取岀排位在前1%的的所有用户。针对这些用户,根据页面访问量、帖子数、积分、发帖得分、威望、平均日发帖、精华帖数这七项指标,我们采用了基于主成分的属性指标确定权重,利用SPSS软件实现主成分分析,确定权垂。在此基础上,我们利用逼近理想解模型对这些用户实现排序,选取排名前五的用户作为该论坛的论坛领袖,依次为:小教授VIVI,黑色诱力,小丸子粉丝团,shenli83,小妞月月。在研究话题用户问题中,我们对汽车之家论坛关注乐风汽车这一特定话题的用户进行定位,选取这一话题版块前五

3、十页的所有帖子,通过网络采集器对发帖人信息进行抓取和频数统计,选取前15%的用户作为关注这一话题的用户候选人,实现第一轮筛选。引入活跃专一度G的概念,分别计算每个用户的活跃专一度值,选c取值大于的用户,认为是该话题的话题用户。可得到汽车之家论坛关注乐风汽车这一特定话题的用户为18184354>开乐风去西藏、杜深德、bassk>buliqi、gpclove2010>风20088>fengghl975o在研究活跃用户问题中,我们对DIY烧友会论坛设计活跃用户识别系统。首先随机选取100个用户作为样本,根据活跃积分、平均口发帖数、登录频率、在线时间四项指标对其进行二聚

4、类,即分成活跃用户和非活跃用户两类。针对这两类样本使用BP神经网络进行训练,从而得到论坛的活跃用户识别系统。我们抽取了该论坛五名用户对该系统进行验证,得到:Travel(属于活跃用户),TERESA47>young263>wangjimin2718>杀手8888(属于非活跃用户)。在研究关系圈问题中,我们对PChome论坛进行论坛人际关系圈的发掘,首先根据用户之间由发帖回复确立的关系生成论坛网络关系图,再对论坛网络关系图进行聚类,找到隐藏在图中的用户社区。关键字:逼于理想解的排序主成分分析逐步筛选神经网络聚类屮国互联网发展经历了10年的快速增长期,已经形成较为成

5、熟的应用。现在的互联网正从信息单向推送模式向互动模式转型,互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。在这样的互动氛围中衍牛出了很多商业机会和运营难题。比如,企业如何通过论坛发掘出有商业价值的用户?互联网公司如何通过激励用户来维持论坛热度?冋答这些问题和解决运营难题的首要条件是,企业能够对论坛内的用户进行有效识别。要能识别我们需要对以下四个方面进行研究:1、言论领袖:发现论坛言论领袖,即最具影响力的论坛人物。2、话题用户:精确定位关注某一特定话题的用户3、活跃用户:识别论坛活跃用户。4^关系圈:发掘论坛人际关系圈。研究这四个方面时分别从不同

6、角度出发:言论领袖的发现可以从其所发帖子的跟帖数量、精华贴数、置顶时间、发帖总数等变量切入,并进行综合评价。话题用户的定位可从其主要跟帖主题、谈论内容判断。不需要完全准确,大概识别出范围即可。例如,diybbs.itl68.com论坛中对游戏话题非常关注的用户。活跃用户可从登录频率、参与话题数量等方面综合评价。关系圈可从帖子关联关系等方面综合评价影响力。下面是对这四个关键的内容进行具体分析:研究网络论坛中的言论领袖,即对最具影响力的论坛人物进行识别。首先,从该论坛所有注册用户中依据积分或金币数排名取排位靠前的用户,再对这些用户根据各项指标进行综合评价,由综合评价

7、值对这些用户进行排序,根据实际需要选择前一或前二名即为该论坛的论坛领袖。综合评价的方法有多种,诸如模糊综合评判、灰色关联等,这里评价一个用户是否为领袖人物的各项指标包括:跟帖数量、精华贴数、置顶时间、发帖总数、影响力、威望、响应率(回复数与点击数的比值,所有帖子求平均)、认同值(正响应值占相应总数的比例如投票结果、顶、拍砖之类的)、页面访问量等,根据不同论坛的实际不同设置可以任意选择可以实现的指标作为其评判标准。对于此种多属性问题,可以从借助“空间距离”概念的角度来解决,这样就可以用“逼近理想解的排序模型”,即TOPSIS法。其过程为:对评价对象的各指标均找出最

8、优值,设成理想解;对评价

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。