基于文本分类的网络知识发现_吕曹芳.pdf

基于文本分类的网络知识发现_吕曹芳.pdf

ID:52768391

大小:700.29 KB

页数:3页

时间:2020-03-30

基于文本分类的网络知识发现_吕曹芳.pdf_第1页
基于文本分类的网络知识发现_吕曹芳.pdf_第2页
基于文本分类的网络知识发现_吕曹芳.pdf_第3页
资源描述:

《基于文本分类的网络知识发现_吕曹芳.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、计算机与现代化2013年第2期JISUANJIYUXIANDAIHUA总第210期文章编号:1006-2475(2013)02-0117-03基于文本分类的网络知识发现吕曹芳,薛向锋,朱岳超,宗军君(中国人民解放军陆军军官学院,安徽合肥230031)摘要:研究基于网络的文本知识发现,根据搜索引擎分类内容的特点,通过几种常用搜索引擎的比较,结合文本分类的特点,发现单纯搜索文本信息资源的引擎更适合于文本分类;进而给出基于文本分类的网络信息获取原型,提出基于元数据的用户感兴趣知识的提取模式,用户可以根据实际情

2、况在给定范围内提取自己感兴趣的文本信息,从而提高文本信息挖掘的精准性。关键词:知识发现;文本分类;搜索引擎;规则挖掘中图分类号:TP391.1文献标识码:Adoi:10.3969/j.issn.1006-2475.2013.02.028WebKnowledgeDiscoveryBasedonTextClassificationLCao-fang,XUEXiang-feng,ZHUYue-chao,ZONGJun-jun(ArtilleryAcademyofPLA,Hefei230031,China)A

3、bstract:ThepaperstudiestherelatedtechnologiesoftheChinesetextknowledgediscoveryonInternet,accordingtothefea-turesofsearchenginesclassification,comparingandanalyzingsearchengineswithfeaturesoftextclassification,discoversthattheenginesofsimplexsearchtextin

4、formationismoresuitablefortextclassification.ThispaperproposesaInternetachievingin-formationprototypebasedontextclassification,proposesanextractionmethodonuserknowledgeofinterest,userscanextracttextinformationofinteresttoimproveaccuracyoftextinformationm

5、ining.Keywords:knowledgediscovery;textclassification;searchengine;rulemining面对网上海量的数据信息,需要寻找一种相对有0引言效的信息获取技术以克服传统获取网页信息人工分互联网飞速发展,网络成为了海量数据的一个载类的繁琐、误差大等缺点。基于文本分类的网络知识体,互联网用户可以借助Internet搜寻大量的数字化发现是使文本信息资源得以有效利用,同时也可依据信息,这些数字化信息可以是文本、数字、图形、图像、需求者的兴趣获取文本信息,

6、通过分类分析进而发现地图、声音甚至可以是视频。但这些信息大都是分散文本信息资源背后隐含的知识。的、无结构数据,存在着大量无用或垃圾信息,只有小1搜索引擎部分是有用的信息,这使得人们利用网络获取自己所需的特定领域的信息时比较费时费力。如何利用现互联网的使用给人们带来了巨大的信息资源,如有的网络资源检索技术采集互联网上特定领域的信何从中取得用户有用的信息资源,这就需要借助互联息,并从数据中挖掘出有用的知识?网搜索手段———搜索引擎。文本分类是根据文本的表现特征将其分到预先搜索引擎依据不同的方式可以分为不同的

7、类[3-4]定好的不同类别中,将文本集合的每个文本自动地归型。国内对搜索引擎的区分通常按照两类:分类[1-2]入某个类别。需求者可以依据类别方便地浏览文搜索引擎和关键词搜索引擎。分类搜索引擎需要人档,还能够依据限制搜索范围使得文档的查询更加容工对网站进行标引和组织,提供分类检索。关键词搜易。索引擎是程序自动索引网页建立数据库,提供关键词收稿日期:2012-10-23作者简介:吕曹芳(1979-),女,安徽寿县人,中国人民解放军陆军军官学院讲师,硕士,研究方向:数据挖掘;薛向锋(1957-),男,安徽汉城

8、人,教授,硕士,研究方向:文本数据。118计算机与现代化2013年第2期搜索。较随意,有时同一个网页甚至出现多个不同的主题内Internet具有数据量大、动态分布、规模大等特容。Web文档中的文本内容用许多标签标记,这些点,用户实时高效地从网络中获取所需要的有用信息标签形成了Web文档的结构。因此,需要对文档进有一定的困难。不同搜索引擎搜索的内容不同,需求行预处理,获取其标记其特征的关键数据。者可以根据目标的不同选择适合自己的搜索引擎。面对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。