最新微博挖掘文本挖掘PPT课件

最新微博挖掘文本挖掘PPT课件

ID:70707690

大小:671.50 KB

页数:22页

时间:2021-11-24

最新微博挖掘文本挖掘PPT课件_第1页
最新微博挖掘文本挖掘PPT课件_第2页
最新微博挖掘文本挖掘PPT课件_第3页
最新微博挖掘文本挖掘PPT课件_第4页
最新微博挖掘文本挖掘PPT课件_第5页
最新微博挖掘文本挖掘PPT课件_第6页
最新微博挖掘文本挖掘PPT课件_第7页
最新微博挖掘文本挖掘PPT课件_第8页
最新微博挖掘文本挖掘PPT课件_第9页
最新微博挖掘文本挖掘PPT课件_第10页
资源描述:

《最新微博挖掘文本挖掘PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、微博挖掘文本挖掘微博挖掘例子最近热映的国产喜剧电影《泰囧》,在微博上拿到了998条和“泰囧”有关的微博文本完成分词之后,便是对词频进行统计。词频排名前53的词列表泰囧1174一代宗师87时候53生活44娱乐35成功30电影385看过70影片52文化43但是33王宝强30票房306上映68今天51影院43分享33囧275泰国68喜剧51炮轰40发现32笑192感觉62导演49电影院38故事32俗188观众61好看49排38光线32十二生肖123可以60喜欢49哈哈37国民32什么104大家59上海48兽37时间32中国102教授56现在48水平37哈哈哈31徐峥

2、9011亿54搞笑47需要35逼30对微博信息挖掘,需要处理海量的用户信息和微博内容通过对微博信息的挖掘,可以获取相关的商业信息,人际关系信息,热点新闻,趋势信息等内容,以及对历史事件进行相关的分析总结。处理用户信息时可以挖出企业感兴趣的微博用户处理微博内容时进行文本挖掘可以得到有用信息微博文本挖掘步骤:1)文本挖掘信息的预处理:需要对文本信息进行统一个格式,因为不同格式,有些软件可能会不识别,如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。2)文本挖掘描述:这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述,包

3、括词频、词在文本的出现的概率等信息。3)特征抽取并分类:特征化的目的就是将数据降维,并从文档中抽取能反映研究主题的一些特征后,使用分类器进行训练,分类设置包括很多方法,如聚类、关联、信息检索、链接分析等方法。分类模型是文本分类的核心技术总体来说对文本挖掘分类的模型包括两种:(1)基于规则的文本分类在规则文本分类的技术中,规则的设定很重要,这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括:(I)决策树decisiontree,这种方法在文本挖掘中有很重要的地位,其得出的结果很容易理解,比较直观,分类准确性也能保证,只是在实际应

4、用中的效率不是很高,这在实际的商业用途上受到了极大的限制。(II)神经网络NeuralNetwork,这种方法效率一般,最主要的是其内部的算法无从了解,这也是机器学习的一种,通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证,而且在相同情况下,神经网络的结果准确性方法一般优于其他方法。(III)支持向量机(SupportVectorMachine)技术原理上是处理二次规划的全局最优解问题,但是他的计算速度通常比较慢,所以效率也不能保证,在准确性方面一般还算理想,但尤其当我们的样本量不是很大的情况下,得到的结果往往比较稳定。(2)基于统计的文本分类这种文

5、本挖掘的分类技术主要依

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。