监督学习算法学习笔记.docx

监督学习算法学习笔记.docx

ID:57377848

大小:292.73 KB

页数:10页

时间:2020-08-13

监督学习算法学习笔记.docx_第1页
监督学习算法学习笔记.docx_第2页
监督学习算法学习笔记.docx_第3页
监督学习算法学习笔记.docx_第4页
监督学习算法学习笔记.docx_第5页
资源描述:

《监督学习算法学习笔记.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、监督学习1基本概念监督学习又称为分类(Classification)或者归纳学习(InductiveLearning)。几乎适用于所有领域,包括文本和网页处理。给出一个数据集D,机器学习的目标就是产生一个联系属性值集合A和类标集合C的分类/预测函数(Classification/PredictionFunction),这个函数可以用于预测新的属性集合的类标。这个函数又被称为分类模型(ClassificationModel)、预测模型(PredictionModel)。这个分类模型可以是任何形式的,例如决策树、规

2、则集、贝叶斯模型或者一个超平面。在监督学习(SupervisedLearning)中,已经有数据给出了类标;与这一方式相对的是无监督学习(UnsupervisedLearning),在这种方式中,所有的类属性都是未知的,算法需要根据数据集的特征自动产生类属性。算法用于进行学习的数据集叫做训练数据集,当使用学习算法用训练数据集学习得到一个模型以后,我们使用测试数据集来评测这个模型的精准度。机器学习的最基本假设是:训练数据的分布应该与测试数据的分布一致。2决策树推理2.1什么是决策树决策树学习算法是分类算法中最广泛

3、应用的一种技术,这种算法的分类精度与其他算法相比具有相当的竞争力,并且十分高效。例如,对于表2-1所示的贷款申请的数据集,可以学习到一种决策树结构,表示为图2-1。表2-1贷款申请数据根据数据集建立的一种决策树结构如下:图2-1对应与表2-1的决策树树中包含了决策点和叶子节点,决策点包含针对数据实例某个属性的一些测试,而一个叶子节点则代表了一个类标。一棵决策树的构建过程是不断的分隔训练数据,以使得最终分隔所得到的各个子集尽可能的纯。一个纯的子集中的数据实例类标全部一致。决策树的建立并不是唯一的,在实际中,我们希

4、望得到一棵尽量小且准确的决策树。1.1学习算法学习算法就是使用分治策略,第贵的对训练数据进行分隔,从而构造决策树。递归的终止条件在算法的1~4行,当所有的节点中的数据都属于同一个类时,迭代终止。学习算法中,每一个后续的递归都选择最佳分类属性作为分隔当前数据实例集的属性。最佳分类属性等的选择通过混杂度函数(ImpurityFunction)来实现,这个函数反映了用该属性进行数据分隔以后的数据集的混杂度。决策树学习算法如图2-2所示。图2-2决策树学习算法该算法最核心的思想就是选择能最大限度降低类别混杂度的属性作为

5、决策点。其中的第7行使用熵的公式计算:熵在这里代表一个集合的无序程度,集合中的熵偏小,说明该集合中的大部分元素都是同质的。第9行计算划分后的熵大小。采用如下公式:其中v是划分后子集的个数。信息增益计算公式如下:信息增益用来衡量混杂度的减少量。算法第11行进行这个操作,选择最大的使得混杂度的减少量达到最大。1分类器的评估标准主要的评估标准就是分类精度,它是用在测试集中被正确分类的数据数量除以测试集中的数据数量得到。在一些实际应用中,我们仅对数量占少数的类别感兴趣,那些用户感兴趣的类别通常称为正例类别,其他类别称为

6、负例类别。查准率、查全率和F-score是评价分类器的三个常用指标,通过混合矩阵,我们可以很方便地得到查准率和查全率两个数据,混合矩阵(如表3-1)中包含数据的真实情况和分类器的预测结果。表3-1分类器的混合矩阵分类器认为是正例分类器认为是负例实际上为正例TPFN实际上为负例FPTN根据上述混合矩阵,正例类别的分类查准率(p)和查全率(r)定义如下尽管查准率和查全率理论上是不相关的,但是在实际应用中,高查准率往往实在牺牲查全率的情况下得到的。同样,高查全率是在牺牲高查准率的情况下得到的。在实际应用中到底哪个标准

7、更重要取决于这个应用,如果仅用一个指标来衡量分类器的性能,此时常使用F-score:F-score是查全率和查准率的调和平均值。两个数值的调和平均值更加倾向于两个数当中较小的那个。因此,如果想得到较高的F-score,则p和r都必须很高。1朴素贝叶斯分类1.1准备知识条件概率:设A,B是两个事件,且称为在条件A下发生的条件事件B发生的条件概率。乘法公式:设则有全概率公式:设随机事件A1,A2,...,An以及B满足:(1)A1,A2,…,An两两互不相容;(2)或者;(3)(n=1,2,…),则有,称为全概率公

8、式。全概率公式的应用:把事件B看作是某一个过程的结果,把A1,A2,…,An看作该过程的若干个原因,根据历史资料,每个原因发生的概率已知(即Pr(Ai)已知),且每一个原因对结果的影响已知(即Pr(B

9、Ai)已知)则可用全概率公式计算结果发生的概率,即求Pr(B)。1.2朴素贝叶斯文本分类贝叶斯公式:设随机事件A1,A2,…,An以及B满足:(1)A1,A2,…,An两两互不相容;(2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。