朴素贝叶斯分类器的改进

朴素贝叶斯分类器的改进

ID:22592291

大小:144.00 KB

页数:5页

时间:2018-10-30

朴素贝叶斯分类器的改进_第1页
朴素贝叶斯分类器的改进_第2页
朴素贝叶斯分类器的改进_第3页
朴素贝叶斯分类器的改进_第4页
朴素贝叶斯分类器的改进_第5页
资源描述:

《朴素贝叶斯分类器的改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、《模式识别》课程大作业朴素贝叶斯分类器的改进摘要:朴素贝叶斯分类器是一种简单而高效的分类器,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系,以及它的被动学习策略,影响了它的分类性能。本文从不同的角度出发,讨论并分析了三种改进朴素贝叶斯分类性能的方法。为进一步的研究打下坚实的基础。关键词:朴素贝叶斯;主动学习;贝叶斯网络分类器;训练样本;树增广朴素贝叶斯1问题描述随着计算机与信息技术的发展,人类获取的知识和能够及时处理的数据之间的差距在加大,从而导致了一个尴尬的境地,即“丰富的数据”和“贫乏的知识”并存。

2、在数据挖掘技术中,分类技术能对大量的数据进行分析、学习,并建立相应问题领域中的分类模型。分类技术解决问题的关键是构造分类器。分类器是一个能自动将未知文档标定为某类的函数。通过训练集训练以后,能将待分类的文档分到预先定义的目录中。常用的分类器的构造方法有决策树、朴素贝叶斯、支持向量机、k近邻、神经网络等多种分类法,在各种分类法中基于概率的贝叶斯分类法比较简单,在分类技术中得到了广泛的应用。在众多的分类器的构造方法与理论中,朴素贝叶斯分类器(NaiveBayesianClassifiers)[1]由于计算高效、精确度高。

3、并具有坚实的理论基础而得到了广泛的应用。文献朴素贝叶斯的原理、研究成果进行了具体的阐述。文章首先介绍了朴素贝叶斯分类器,在此基础上分析所存在的问题。并从三个不同的角度对朴素贝叶斯加以改进。2研究现状朴素贝叶斯分类器(NaïveBayesianClassifier)是一种基于Bayes理论的简单分类方法,它在很多领域都表现出优秀的性能[1][2]。朴素贝叶斯分类器的“朴素”指的是它的条件独立性假设,虽然在某些不满足独立性假设的情况下其仍然可能获得较好的结果[3],但是大量研究表明此时可以通过各种方法来提高朴素贝叶斯分类

4、器的性能。改进朴素贝叶斯分类器的方式主要有两种:一种是放弃条件独立性假设,在NBC的基础上增加属性间可能存在的依赖关系;另一种是重新构建样本属性集,以新的属性组(不包括类别属性)代替原来的属性组,期望在新的属性间存在较好的条件独立关系。目前对于第一种改进方法研究得较多[2][4][5]。这些算法一般都是在分类精度和算法复杂度之间进行折衷考虑,限制在一定的范围内而不是在所有属性构成的完全网中搜索条件依赖关系。虽然如此,寻找条件依赖关系依然需要较复杂的算法。而通过重新构建样本属性集的方式则可以避免寻找条件依赖关系,保持朴

5、素贝叶斯分类器的简单和直观。事实上,属性构造方法一直是机器学习领域中重要的方法之一,在决策树、规则学习、神经网络等方面得到了有效应用[6][7]。Pazzani提出了一种构建NBC的方法:BSEJ算法,该算法是基于原有属性的笛卡儿积来构建新的属性。3算法原理3.1朴素贝叶斯分类器朴素贝叶斯分类器假定特征向量的各分量间相对于决策变量是相对独立的,并使用概率规则来实现学习或某种推理过程,即将学习或推理的结果表示为随机变量的概率分布。这可以解释为对不同可能性的信任程度。它的出发点就是贝叶斯定理和贝叶斯假设[3]。假定随机向

6、量x,Θ的联合分布密度是p(x,Θ),它们的边际密度分别为p(x),p(Θ)。一般情况下设X是观测向量。Θ是未知参数向量,通过观测向量获得未知参数向量的估计。贝叶斯定理记作:5《模式识别》课程大作业从上式可以得知,对未知向量的估计综合了它的先验信息和样本信息,这正是贝叶斯增量学习模型的基础。可简单地理解为:后验知识(I1)=先验知识(I0)+样本信息(s)。当新的样本到来时,上面的后验知识变为先验知识,因此它是一个利用样本知识来修正当前知识的连续的动态的过程。朴素贝叶斯分类器将每个训练样本数据分解成一个n维特征向量x

7、和决策类别变量c,并假定特征向量的各分量间相对于决策变量是相对独立的。设特征向量X={xl,x2,…,xn}表示数据个属性(Al,A2,…,An)的具体取值,类别变量C有m个不同的取值Cl,C2,…,Cm,即有m个不同的类别。则:由贝叶斯定理知x属于Ck的后验概率为:朴素贝叶斯分类器将未知类别的决策变量X归属于类别当且仅当:由于P(X)对于所有类别均是相同的,因此:由于类别的事前概率是未知的,因此,可以假设各类别出现的概率相同,P(C1)=P(C2)=…=P(Cm)。这样求公式(2)的最大转换为求P(X

8、CK)最大,

9、否则就要求P(X

10、CK)P(CK)得最大。可以通过训练样本数据集合估计P(Xi

11、CK)(1≤i≤n,1≤k≤m):其中,Sk为训练样本数据集合中类别为的样本个数,为整个训练样本数据集合的容量。为训练样本数据集合中类别为且属性A,的取值为Xi的样本个数。4算法实现4.1从属性变量间的关系来改进朴素贝叶斯分类器朴素贝叶斯分类器关于变量独立性的假设虽

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。