数据挖掘中的新方法---支持向量机

数据挖掘中的新方法---支持向量机

ID:27506128

大小:204.00 KB

页数:8页

时间:2018-12-04

数据挖掘中的新方法---支持向量机_第1页
数据挖掘中的新方法---支持向量机_第2页
数据挖掘中的新方法---支持向量机_第3页
数据挖掘中的新方法---支持向量机_第4页
数据挖掘中的新方法---支持向量机_第5页
资源描述:

《数据挖掘中的新方法---支持向量机》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘中的新方法---支持向量机龙信数据(北京)有限公司数据研发部郭泽泉摘要:本文从至支持向量机角度对数据预测进行了研究,研究发现:在数据挖掘中,当我们想预测某些数据的走向时往往因为数据量不足造成预测的不准确,或者数据量过大而造成过拟合现象的发生,支持向量机方法很好的解决了高维数但因数据量较小而无法进行预测的问题,预测的准确率较高。关键词:支持向量机预测小样本一,背景支持向量机是统计学习理论中的一部分,它在医学,生物,军事,工业,IT等行业有着很好的发展前景,所谓支持向量机,本质问题就是将一组数据根据他们的不同属性进行划分,可以是两分类,也可以是

2、多分类。在传统的分类问题中,分类的主要目标是将可能的分类错误降到最小,即:分类错误最小化。通过核函数以及拉格朗日算子的引入,将非线性问题转化为线性问题求解,但在一些重要问题中,往往其中一类的数据的分类错误要比另外一类重要很多,也就是说它们的错分类代价是不同的,这一类称为损失敏感支持向量机,本文先不介绍,只研究最基本的支持向量机(SVM).二:SVM的基本思想支持向量机(SupportvectorMachines)是在统计学习理论上发展起来的,利用优化方法解决机器学习问题的有效工具。我们了解,机器学习的目的是根据所知道的训练样本来计算某系统的输出和输

3、入之间的依赖关系,也就是说要寻找一个最优的目标函数,使他能对未知训练点尽可能准确的预测,而评估好坏的标准是使期望风险最小。支持向量机方法是根据传统经验风险最小化来代替期望风险最小化,但这并没有理论上依据,而是提出的一种基于结构风险最小化的机器学习方法。SVM是从线性可分问题的最优分类超平面发展而来的,对于线性不可分的问题只要将其映射到高维的特征空间,就成为线性可分的了,这种方法最终转化为求一个凸二次规划问题,因此变得相对简单易行。然而对于线性不可分的情形我们就必须考虑高维空间的内积运算问题,这就涉及到SVM方法的核心问题—核函数、核函数参数的选择以

4、及构造适合的核函数的问题。因此一般来说,支持向量机理论有以下四个要点:(1)非线性映射(2)对特征空间划分的最优超平面,是SVM的目标;(3)支持向量(SV),是SVM的结果;(4)二次规划是计算SV的手段。支持向量机方法最初提出是用来解决机器学习中的分类问题,因此我们就先来研究分类问题的思想:图1.1分类问题分类问题简单来说,就是根据给定的两类数据组成的集合来判断一个新的数据属于哪一类。如图1.1是一个2维空间上的分类问题。已知在平面χ1οχ2上有8个点,它们分别属于正类点和负类点,正类点用“+”形来表示,负类点用“ο”来表示,现在平面上给出一个

5、点x,分类问题的目的是要推断该点属于正类还是负类,即要寻找一个规则,把平面划分成两部分,使得该点落入正类点部分或者负类点部分。用数学语言来描述分类问题就是:分类问题根据给定的训练集Τ=��xi,yi�

6、xi∈Rn,yi∈{−1,1}i=1,···,m�,寻找Rn上的一个实值函数g(x),以便用决策函数:y=ℱ(x)=sgn(g(x))(1.1)推断任一模型x相对应的Y值。其中,sgn(·)是符号函数:sgn(x)=�−1,x<0;1,x>0,(1.2)xi∈Rn是输入指标向量,或称模式,其分量称为特征,或属性,或输入指标;yi∈{−1,1}是指输出

7、指标,或输入指标,i=1,···,m。yi=1表示xi属于正类,yi=−1则表示xi属于负类。这m个样本点组成的集合,称为训练集,所以也我们也称样本点为训练点。我们归纳分类问题:对于任意给定的一个新训练点x,根据所知的训练集来判断断它的Y是1还是-1。确切的说上述分类问题是两类的分类问题,也有多分类问题,不同点在于前者的输出只取两个值,后者则可取多个值。下面考虑对应图1.2所示的2维空间上的简单分类问题,讨论函数g(x)是线性函数g(x)=(w·x)+b的情况,其中X是输入向量,w是法向量,“∙”代表两个向量的内积运算符号,这样,此时分类问题就是要

8、寻找一条适当的直线划分整个2维平面,即确定法方向以及截距b。图1.2分类问题1能将两类点正确分开的直线有很多,如:ℓ1,假设他的法方向为w,不改变法方向,平行地向右上方或左下方平移直线l1,知道碰到某类训练点。这样就的到了两条极端的直线ℓ2与ℓ3,称这两条直线之间的距离为与该法方向相应的“间隔”。那么如何选取这个间隔呢?SVM方法就是从解决线性可分情况的最优分类面出发的,其思想就是选取使间隔达到最大的那个法方向,相应得到的两条极端直线就是最优分类线,所谓最优分类线是能将两类点正确分开的分划线(训练错误率为零)如图1.3所示。是分类间隔最大化实际上就

9、是对推广能力的控制,这是SVM的核心思想之一。最小化训练误差和最大化泛化能力就是体现了支持向量机最小化结构风险的思想。对于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。