基于数据挖掘的文本分类算法

基于数据挖掘的文本分类算法

ID:9134893

大小:75.00 KB

页数:8页

时间:2018-04-18

基于数据挖掘的文本分类算法_第1页
基于数据挖掘的文本分类算法_第2页
基于数据挖掘的文本分类算法_第3页
基于数据挖掘的文本分类算法_第4页
基于数据挖掘的文本分类算法_第5页
资源描述:

《基于数据挖掘的文本分类算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于数据挖掘的文本分类算法李志坚阿坝师范学院文木分类是网络数据管理研宄中的难点,木文运用支持向量机非线性分类能力和协同进化粒子群算法全局搜索能力,提出一种基于数据挖掘的文本分类算法。首先对网络文本样本进行相关预处理,提取文本的特征向量,然后将训练样本输入到支持量机进行训练,采用协同进化粒子群优化算法优化分类器参数,最后采用ReUterS21578数据集对模型性能进行分析。研宄结果表明,运用协同进化粒子群算法可以快速找到支持向量机的最优参数,提高文木分类的正确率,分类速度可以满足文本分类在线应用要求。关键词:文本分类;协同进化粒子群算法;特征向量;支

2、持向量机;TextClassificationAlgorithmOptimizingBasedonDataMiningAbaTeachersUniversity;Abstract:Textclassificationisakeyprobleminnetworkdatamanagementresearch,thispaperputsforwardatextclassificationalgorithmbasedondataminingwhichusesnonlinearclassificationabilityofsupportvectormachi

3、neandsearchabilityofcollaborativeglobalevolutionaryparticleswarmoptimizationalgorithm.Firstly,thetextsamplesarepre-processedtoextractfeatures,andthenthefeaturesoftrainingsamplesareinputtosupportvectormachinesfortrainingwhichcoevolutionaryparticleswarmoptimizationalgorithmisuse

4、dtooptimizetheparametersofclassifier,finally,theperformanceofthemodelistestedbyReuters21578data.Theresultsshowthat,co-evolutionbasedonparticleswarmoptimizationalgorithmcanquicklyfindtheoptimalparametersforsupportvectormachine,improvethecorrectrateoftextclassification,classific

5、ationspeedcansatisfytheapplicationrequirementofonlineclassification.Keyword:textclassification;co-evolutionbasedonparticleswarmoptimizationalgorithm;featurevector;supportvectormachine;随着互联网的高速发展,网络上的信息量呈指数形式增长,其中非结构化文本数据所古比率最大,如何从纷繁的文本数据屮挖掘出用户感兴趣的信息变得口益重要III。文本分类是网络文本数据挖掘的基础,分

6、类结果的好坏直接影响文本数据挖掘效果,因此如何构建正确率高的文本分类算法成为网络信息数据挖掘研究中的重点1^1。针对文本分类问题,国内外学者和专家投入了大量的时间和精力,进行了广泛深入的研宂。文本分类算法可以划分两个阶段:人工分类阶段和自动分类阶段位1。人工分类方法主要通过专家或专业人士对文本类别进行划分,费时费力,而且分类结果不科学,不能满足当前海量的文本数据挖掘需求Ill。自动分类方法主要通过计算机采用一定的算法进行文木分类,分类复杂性大幅度降低,分类效率得以提高m。文本自动分类是模式识别中的一种多分类问题,主要包括文本特征提取、选择以及文本分

7、类器的构建等m,本文主要针对文本分类器进行研宄。当前,本文分类器主要基于支持向量机和神经网络等数据挖掘技术进行构建。神经网络是一种基于经验风险最小化原则的数据挖掘技术,其可以描述文木类别与文木特征之间的非线性关系,在文木分类中到广泛的应用然而网络文本是一种特殊文本数据,其特征向量的维数相当高,导致神经网络在分类过程屮,经常出现“维数灾”等难题,而且神经网络自身存在网络结构复杂等不足,限制了其在文本分类的应用范围m。支持向量机是一种基于结构风险最小化原则的数据挖掘技术,较好地解决了“维数灾”等难题,泛化能力优异,成为文木分类中的主要研究方向[10-1

8、2]。支持向量机的文木分类性能与核函数及参数密切相关,因此要获得分类正确率高的文本分类结果,首先要解决支持向量机参数优化问

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。