监督学习和无监督学习.docx

ID：57377849

大小：29.43 KB

页数：3页

时间：2020-08-13

资源描述：

《监督学习和无监督学习.docx》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、监督学习和无监督学习这个问题可以回答得很简单：是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。首先看什么是学习（learning）？一个成语就可概括：举一反三。此处以高考为例，高考的题目在上考场前我们未必做过，但在高中三年我们做过很多很多题目，懂解题方法，因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似：我们能不能利用一些训练数据（已经做过的题），使机器能够利用它们（解题方法）分析未知数据（高考的题目）？最简单也最普遍的一类机器学习算法就是分类（classi

2、fication）。对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是找到特征和标签间的关系（mapping）。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。在上述的分类过程中，如果所有训练数据都有标签，则为有监督学习（supervisedlearning）。如果数据没有标签，显然就是无监督学习（unsupervisedlearning）了，也即聚类（clustering）。（但有监督学习并非全是分类，还有回归（regression），此处不细说。（哇擦，贵圈太乱，逼着

3、我用了这么多括号））目前分类算法的效果普遍还是不错的（研究者们每天都在outperform其他人……），相对来讲，聚类算法就有些惨不忍睹了。（聚类：这不是我的错嘤嘤嘤嘤└(T_T;)┘）确实，无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题，答案（标签）是非常重要的，假设两个完全相同的人进入高中，一个正常学习，另一人做的所有题目都没有答案，那么想必第一个人高考会发挥更好，第二个人会发疯。这时各位可能要问，既然分类如此之好，聚类如此之不靠谱（分类<(￣︶￣)/，聚类└(T_T;)┘），那为何我们还可以容忍聚类的存在？

4、因为在实际应用中，标签的获取常常需要极大的人工工作量，有时甚至非常困难。例如在自然语言处理（NLP）中，PennChineseTreebank在2年里只完成了4000句话的标签……这时有人可能会想，难道有监督学习和无监督学习就是非黑即白的关系吗？有没有灰呢？Goodidea。灰是存在的。二者的中间带就是半监督学习（semi-supervisedlearning）。对于半监督学习，其训练数据的一部分是有标签的，另一部分没有标签，而没标签数据的数量常常极大于有标签数据数量（这也是符合现实情况的）。隐藏在半监督学习下的基本规律在于：数据的分布必然不是完

5、全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。（此处大量忽略细节(￣ε￣；)）因此，learning家族的整体构造是这样的：有监督学习（分类，回归）↕半监督学习（分类，回归），transductivelearning（不懂怎么翻译，直推式学习？）（分类，回归）↕半监督聚类（有标签数据的标签不是确定的，类似于：肯定不是xxx，很可能是yyy）↕无监督学习（聚类）

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

监督学习和无监督学习.docx

监督学习和无监督学习.docx

相关文章

相关标签