朴素贝叶斯分类算法及其MapReduce实现.docx

朴素贝叶斯分类算法及其MapReduce实现.docx

ID:57286180

大小:40.44 KB

页数:7页

时间:2020-08-09

朴素贝叶斯分类算法及其MapReduce实现.docx_第1页
朴素贝叶斯分类算法及其MapReduce实现.docx_第2页
朴素贝叶斯分类算法及其MapReduce实现.docx_第3页
朴素贝叶斯分类算法及其MapReduce实现.docx_第4页
朴素贝叶斯分类算法及其MapReduce实现.docx_第5页
资源描述:

《朴素贝叶斯分类算法及其MapReduce实现.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、最近发现很多公司招聘数据挖掘的职位都提到贝叶斯分类,其实我不太清楚他们是要求理解贝叶斯分类算法,还是要求只需要通过工具(SPSS,SAS,Mahout)使用贝叶斯分类算法进行分类。反正不管是需求什么都最好是了解其原理,才能知其然,还知其所以然。我尽量简单的描述贝叶斯定义和分类算法,复杂而有全面的描述参考“数据挖掘:概念与技术”。贝叶斯是一个人,叫(ThomasBayes),下面这哥们就是。本文介绍了贝叶斯定理,朴素贝叶斯分类算法及其使用MapReduce实现。贝叶斯定理首先了解下贝叶斯定理PHX=PXHP(H)P(X)是不是有感觉都是符号

2、看起来真复杂,我们根据下图理解贝叶斯定理。这里D是所有顾客(全集),H是购买H商品的顾客,X是购买X商品的顾客。自然X∩H是即购买X又购买H的顾客。P(X)指先验概率,指所有顾客中购买X的概率。同理P(H)指的是所有顾客中购买H的概率,见下式。PX=XDPH=HDP(H

3、X)指后验概率,在购买X商品的顾客,购买H的概率。同理P(X

4、H)指的是购买H商品的顾客购买X的概率,见下式。PH

5、X=X∩HXPX

6、H=X∩HH将这些公式带入上面贝叶斯定理自然就成立了。朴素贝叶斯分类分类算法有很多,基本上决策树,贝叶斯分类和神经网络是齐名的。朴素贝叶斯

7、分类假定一个属性值对给定分类的影响独立于其他属性值。描述:这里有个例子假定我们有一个顾客X(age=middle,income=high,sex=man):·年龄(age)取值可以是:小(young),中(middle),大(old)·收入(income)取值可以是:低(low),中(average),高(high)·性别(sex)取值可以是:男(man),女(woman)其选择电脑颜色的分类标号H:白色(white),蓝色(blue),粉色(pink)问题:用朴素贝叶斯分类法预测顾客X,选择哪个颜色的分类标号,也就是预测X属于具有最高后

8、验概率的分类。解答:Step1也就是说我们要分别计算X选择分类标号为白色(white),蓝色(blue),粉色(pink)的后验概率,然后进行比较取其中最大值。根据贝叶斯定理PHwhiteX=PXHwhiteP(Hwhite)P(X)同理PHblueX=PXHblueP(Hblue)P(X)PHpinkX=PXHpinkP(Hpink)P(X)Step2其中P(X)为常数。D为全集元组数,Hwhite,D为全集中分类标号为white的元组数。PHwhite=Hwhite,DD同理PHblue=Hblue,DDPHpink=Hpink,DD

9、Step3那么只需计算PXHwhite就可以了。PXHblue,PXHpink同理就不在进行阐述。对于许多属性的集,PXHwhite有可能是缺失的,对于多个X的计算开销可能非常大,那么根据朴素贝叶斯分类假定一个属性值对给定类的影响独立于其他属性值。PXHwhite=k=13Px1Hwhite=Pxage=middleHwhite×Pxincome=highHwhite×Pxsex=manHwhite可以很容易的由训练元组得出:Pxage=middleHwhitePxincome=highHwhitePxsex=manHwhiteStep4

10、PHwhiteX,,PHblueX,,PHpinkX后验概率中最大的,那么它的分类标号就是X的分类标号。改进1,目前X(年龄=中,收入=高,性别=男)中的属性都是分类属性,而不是连续值属性,我们要处理连续值属性可以使用如下方法:Pxage=middleHwhite=gxage=middle,μwhite,σwhite=12πσe-(x-μ)22σ2连续值属性xage=middle服从均值为μ,标准差为σ的高斯分布。2,如果遇到零概率值怎么办?比如在训练元组中Pxsex=manHwhite为零,可以使用拉普拉斯校准的方法避免该问题。朴素贝叶

11、斯分类的MapReduce实现我们通过MapReduce计算X(age=middle,income=high,sex=man)的分类标号。根据上面的推导,P(X)为常数只需计算PXHwhiteP(Hwhite),PXHblueP(Hblue),PXHpinkP(Hpink)最大值即可。源文件为old:low:man:bluemiddle:high:man:whiteold:low:man:blueyonng:high:woman:whiteyoung:low:woman:pink那么如何使用一次MapReduce就计算出P(Hwhite)

12、,PxageHwhite,PxincomeHwhite,PxsexHwhite等等MapClass为publicstaticclassMapClassextendsMapReduceBasei

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。