Bayes分类器原理

Bayes分类器原理

ID:40532088

大小:137.50 KB

页数:5页

时间:2019-08-04

Bayes分类器原理_第1页
Bayes分类器原理_第2页
Bayes分类器原理_第3页
Bayes分类器原理_第4页
Bayes分类器原理_第5页
资源描述:

《Bayes分类器原理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、贝叶斯分类器一、朴素贝叶斯分类器原理目标:计算。注:t是一个多维的文本向量分析:由于数据t是一个新的数据,无法在训练数据集中统计出来。因此需要转换。根据概率论中的贝叶斯定理将的计算转换为:(1)其中,表示类Cj在整个数据空间中的出现概率,可以在训练集中统计出来(即用Cj在训练数据集中出现的频率来作为概率。但和仍然不能统计出来。首先,对于,它表示在类中出现数据t的概率。根据“属性独立性假设”,即对于属于类的所有数据,它们个各属性出现某个值的概率是相互独立的。如,判断一个干部是否是“好干部”(分类)时,其属性“生活作风=好”的概率(P(生活作风=好

2、好干部))与

3、“工作态度=好”的概率(P(工作态度=好

4、好干部))是独立的,没有潜在的相互关联。换句话说,一个好干部,其生活作风的好坏与其工作态度的好坏完全无关。我们知道这并不能反映真实的情况,因而说是一种“假设”。使用该假设来分类的方法称为“朴素贝叶斯分类”。根据上述假设,类中出现数据t的概率等于其中出现t中各属性值的概率的乘积。即:(2)其中,是数据t的第k个属性值。其次,对于公式(1)中的,即数据t在整个数据空间中出现的概率,等于它在各分类中出现概率的总和,即:(3)其中,各的计算就采用公式(2)。这样,将(2)代入(1),并综合公式(3)后,我们得到:(4)公式(

5、4)就是我们最终用于判断数据t分类的方法。其依赖的条件是:从训练数据中统计出和。当我们用这种方法判断一个数据的分类时,用公式(4)计算它属于各分类的概率,再取其中概率最大的作为分类的结果。改进的P(t

6、Cj)的计算方法:摒弃t(t1,t2,t3,)中分量相互独立的假设,P(t1,t2,t3,

7、Cj)=P(t1

8、Cj)*P(t2

9、t1,Cj)*P(t3

10、t1,t2,Cj)注意:P(t3

11、t1,t2,Cj)===此结果的含义是在某类Cj中在t1、t2后t1、t2、t3出现的概率主要思想:在大规模的语料(或整个门户网站的分类结果中)上寻找支持度和置信度均大于其各自

12、的阈值的频繁项集(关键词组),从而进一步去确定这些频繁项集(关键词组)的概率,对于小于阈值的项集中的关键字认为则认为是相互独立的。注:分析的结果中的每个频繁项集中的关键词不宜太多(这个可以通过阈值来限制);分析的结果在一定时间内是比较稳定的而且是收敛的;分析结果可以形成多个“相关性词袋”。‘相关性词袋’比‘近义词词袋’更接近人的思维也更接近客观实际同时不依赖于人的主观思维和大量的标注劳动,如:姚明,篮球不同属于一个近义词词袋,但很有可能在同一个相关性词袋。克服了人标注的不完备性。二、文本分类的具体方法文本分类中,数据是指代表一篇文本的一个向量。向量的各维代表

13、一个关键字的权重。注意:权重可以通过TF/IDF方法来确定训练文本中,每个数据还附带一个文本的分类编码。对此我们有两个方面的工作:(1)分类器学习:即从训练数据集中统计和,并保存起来。(保存到一个数据文件中,可以再次加载)。在分类器的程序中,需要有表达和保存这些概率数据的变量或对象。(2)分类识别:从一个测试文档中读取其中的测试数据项,识别他们的分类,并输出到一个文件中。但文本分类有一个特殊情况:各属性的值不是标准值,不像“性别”这样的属性。因此在查找时会遇到麻烦:新数据的值可能在训练数据中从未出现过。这个问题的另一方面是:训练数据中各属性(分别对应一个关键

14、词)的值太分散,几乎不可能出现某个关键词在多篇文章中的权重相同的情况。这样,太多、太分散,没有统计上的意义。这一问题的处理方法是:将各关键词的权重分段:即将权重的值域分成几个段,每段取其中数值的平均值作为其标准值。第一种方法是,直接对所有训练数据的属性值进行分段,如对第k个属性,将其值域分为(0~0.1),(0.1~0.2),…,(0.9~1),各段分别编号为0,1,…9。一个数据的该属性值为0.19,则重设该属性值为它所处的分段编号,即1。另一种方法同样进行分段,但分段后计算各段的平均值作为各段的标准值。根据具体数据相应属性的值与各分段标准值的接近程度,重

15、新设置数据该属性的值。如对第k个属性,将其值域分为(0~0.1),(0.1~0.2),…,(0.9~1),假设(0.1~0.2)的平均值为0.15,(0.2~0.3)的平均值为0.22,而一个数据的该属性值为0.19,则该数据的该属性值与0.22更接近,应该重设为0.22。这就是我们要采用的方法。下一个问题是,以什么作为分段标准?如果按平分值域的方法,则可能数据在值域各段中的分别非常不均匀,会造成在数据稀少的值域中失去统计意义。因此一个方法是,按照分布数据均匀为标准进行分段划分。假设有N个数据,将属性值域分为M段。对属性k,将数据按k属性的值排序,然后按N/

16、M个进行等分,计算各值域分段中的标准值。(5)其中,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。