基于决策树的知识获取方法研究new

基于决策树的知识获取方法研究new

ID:33541844

大小:833.19 KB

页数:3页

时间:2019-02-27

基于决策树的知识获取方法研究new_第1页
基于决策树的知识获取方法研究new_第2页
基于决策树的知识获取方法研究new_第3页
资源描述:

《基于决策树的知识获取方法研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于决策树的知识获取方法研究Basedonthedecisiontreeofknowledgeacquisitionmethod张晶ZHANGJing(聊城大学东昌学院电子科学系,聊城252000)摘要:本文以决策树理论为基础,提出了基于决策树知识获取的方法。该方法充分利用决策树把知识表示与获取融于一身的优点,使知识表示与知识获取同时进行,克服了传统人工智能系统中知识表示与知识获取分离的缺点。关键词:决策树;知识获取;贪心算法中图分类号:TP391 文献标识码:A 文章编号:1009-0134(2011)4(下)-0154-03Doi:10.3969/j.issn.1009-

2、0134.2011.4(下).461决策树知识获取方法进一步划分的取值特征,叶子代表类或者类的分布。首先,根据用户的实际需要选择类别标识属知识获取是指从大量数据中去除无用信息、性及其决策树的决策属性集,决策属性集是指在提取有用信息的过程。决策树学习的目的就是从候选属性中选择属性集,然后构造决策树。决策大量实例中归纳出以决策树形式表示的知识,因树归纳的基本算法被称为贪心算法,是以自顶向此决策树的学习过程就是一种知识获取过程。所下递归各个击破的方式来构造决策树。以可以把决策树的学习与知识获取问题联系起来,其算法描述如下:从而把知识获取问题转换为决策树的学习问题,1)树从表示训练样

3、本的单个节点作为起始点。从而实现知识的自动获取。2)如果样本属于同一类,则该节点将成为叶由于决策树知识获取即为决策树学习,而决节点,并用该类做标记。策树学习的核心就是决策树的学习算法,因此研3)否则,算法将选择最有分类能力的属性作究决策树的知识获取方法实际上也就是研究决策为决策树的当前节点。树的学习算法。所以在此就可以直接利用这一算4)根据当前决策节点属性取值的不同,将训法生成决策树,以实现通过决策树进行知识的自练样本数据集划分为若干子集。每个取值形成一动获取(即机器学习)。个分枝。根据上一步得到一个子集,重复进行上1.1生成树的构造算法面步骤,最后递归形成每个划分样本上的决

4、策树。决策树构造可以分为两步进行。第一步,决5)如果某个属性出现在一个节点上,就不能策树的生成:通过训练样本集生成决策树的过程。在该节点的任何后代中考虑它。在一般情况下,训练样本数据集是根据实际需要递归划分步骤当且仅当下列条件之一成立时由历史的、综合性的、用于数据分析处理的数据结束:集。第二步,决策树的剪枝:决策树的剪枝就是1)给定节点的所有样本属于同一类。对上一阶段生成的决策树进行检验、修正的过程。2)剩余的属性可以用来进一步划分样本。在主要是用新的样本数据集(称为测试数据集)中的这种情况下,通过多数表决的形式,将给定的节数据校验决策树生成过程中产生的初步规则,将点转换成叶

5、节点,并以样本中元组个数最多的类那些影响预测准确性的分枝剪除掉。别作为类别标记;同时,还可以存放该节点样本的在决策树生成的过程中,训练样本数据集作类别分布。为输入的内容,决策树作为最终的输出结果。决3)如果某一个分枝test_attribut=ai没有样本,策树的每一个决策节点对应着要进行分类的下一则以该样本的多数类来创建一个树叶。个决策属性(测试属性),分支则对应着按该属性收稿日期:2010-12-22作者简介:张晶(1975-),女,山东聊城人,讲师,硕士,研究方向为计算机软件与理论。【154】第33卷第4期2011-4(下)【154】第33卷第4期2011-4(下)假设

6、用F代表当前样本集,当前候选属性集ifCthenCLASSE-用F.attributelist表示,则C4.5算法C4.5formtree(F,精简之后的规则形式为R-F.attributelist)的伪代码如下:ifCthenCLASSE-1)创建根节点M;其中C是从C中删除条件Q之后的形式。-2)IFF都属于同一类C,则返回M为叶节点,这样,规则W覆盖的实例可分为以下4个部分:标记为类C;满足条件C,属于类E的;满足条件C,属于其-3)IFF.attributelist为空ORF中所剩的样本数他类的;满足条件C,但不满足条件Q,属于类-少于某给定值则返回ME的;满足条件C

7、,但不满足条件Q,属于其他为叶节点,标记M为F中出现最多的类;类的,以上四类实例分别用Y1,F1,Y2,F2来表示。4)FOREACHF.attributelist中的属性规则W覆盖了Y1+F1个实例,其中误判实-计算信息增益率informationgainratio;例数目为F1。规则R覆盖了Y1+F1+Y2+F2。5)M的测试属性test.attribute=F.attributelist所以规则R的误判概率为UCF(F1,Y1+F1),规-具有最高信息增益率的属性;则R的误判概率为UCF(F1+F

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。