2018网球年终总决赛决赛|网球肘最佳治疗方法用药|
| 主页 | 频道首页 | 本站地图 | 论坛留言 | 合作联系 | 本站消息 | |
科技动态 技术发展 文化研究 生物生态 人的研究 生命起源 基因工程 科学普及 科学探索 专题其他

如何向你奶奶解释机器学习是什么

2016-12-15
机器学习,许铁,混沌巡洋舰,什么是机器学习
机器学习是你不去设计, 而让计算机自己去琢磨,让它在一套很一般的模子里打磨出能够解决特定问题的武器。 这点上,机器学习做的正是” 自发能够产生解决问题的程序的程序” , 一些机器学习的经典算法如线性回归, SVM, 神经网络, 它们单个都不能解决问题, 但是通过“学习”却可以一会去预测房价一会去寻找美女。


如何向你奶奶解释机器学习是什么
2016-12-15 许铁 混沌巡洋舰

今天这篇文章想用最直白的话讲讲大数据和机器学习的几个基本概念。 部分案例来自machine learning is fun ,(https://medium.com/@ageitgey/machine-learning-is-fun-80ea3ec3c471#.onsw9pi04),之后巡洋舰会有翻译!

什么是机器学习:

我想巡洋舰的关注者很多是伟大的码农, 一个基本的问题是, 码农(传统算法工程师)和机器学习工程师都在码程序做算法,大家都想让计算机给人类做事, 两个有什么区别?

这里可?#28304;?#19968;个简单的例子入手, 一段程序可以看做一连串从输入到输出的过程,无论是工程师还是程序员,我们都想通过设计来完成某种功能, 比如说你做一个网页, 你要画视觉图, UI图, 前端后端交互图,我们是给计算机设计一套解决具体问题的流程, 如做一个?#21592;?#32593;。

机器学习呢? 机器学习是你不去设计, 而让计算机自己去琢磨,让它在一套很一般的模子里打磨出能够解决特定问题的武器。 这点上,机器学习做的正是” 自发能够产生解决问题的程序的程序” , 一些机器学习的经典算法如线性回归, SVM, 神经网络, 它们单个都不能解决问题, 但是通过“学习”却可以一会去预测房价一会去寻找美女。

它是怎么做到的:

我们模仿人学习的过程让机器来学习些程序:

最常见的方法就是是有老师告诉你?#28304;?#30340;学习 ,这个称为有监督学习 。

一个一般被作为监督学习入门的?#36947;?是预测房产的价格, 一个房子的价格决定于非常多的相关因素, 比如房子中卧室, 厕所,客厅的数量和面积, 周围环境的交通, 安静与否,有无学校等, 我们要从这些要素中知道房子的价格。如果你是传统的房产专家, 你的方法一定是到各个地点做调查成交价, 随着经验的增加, 你会得到各个区域的基?#25216;?#26684;, 然后按照这个基本价格结合房子?#22902;?#24449;上下调整,得出你的经验公式。 这真是累死小哥啊。

有了最原始的机器学习,我们?#37096;?#20197;把这个人类得出经验的过程让机器解决。我们的小哥现在只需要在网上放一?#30452;?#26684;, 让人们把有关房子的有用无用的信息?#22270;?#26684;都填了, 做一个巨大的excel表格。 然后我们让程序从这些信息学习价格的pattern(模式)。

之前的因素在这里我们换以一个新的词汇-特征。每一个特征, 这?#25105;?#29992;一个数表示, 如同线?#28304;?#25968;里的坐标基。而这些特征如何决定价格的, 我们就可以不管, 让机器决定去。特征的个数我们通常称之为维度,一个问题的维度往往决定其复杂性, 以及所使用的方法, 这就是复杂系统所擅长讨论的范畴了在此不详述。 维度本身同?#26412;?#23450;我们可能需求的数据量多少, 高维度意味着我们需要求解问题的信息量也成比例的增长。 特征工程就是在大量的信息, 比如“我的房子有个大落地?#21834;?#36825;种话里提取出?#22836;?#20215;可能相关的属性(attribute)。

所谓机器学习的模型选择,就是在寻找一个基本学习框架, 包含你对预测事物的非常一般的理解, 比如房子的价格可能是很多因素的叠加这种初中水平的东西,学名线性回归:

你不是有众多特征吗? 我可以用一个算法,让一个非常初级的模型自动的进化,机器学习工程师要做的是把这个模式的毛坯?#39029;?#26469;,以及这个寻找自动算法的算法做出来,这个一旦做出来, 后续的数据就像一颗颗子弹把模型打造成型。

这个把模型打磨成型的过程就是学习,行里叫求解?#38382;?#36825;组?#38382;?#19981;是让某个特定的房子的价格被最好的拟合,而是让整个数据集都被一组?#38382;?#28085;盖。 这组?#38382;?#23601;是我们学习的结果, 放佛具有了一种人一样的预测未知房价的能力。

就像人一样,机器也是从错误中学习的,因此,最经典的监督学习里, 我们首先要做的是衡?#30475;?#35823;的大小,我们用一个叫cost function的东西衡量模型预测的结果与真实值的差距, 模型的效果?#35762;睿?这个cost function的值就越高。

这个函数告诉你的是,?#30475;?#29359;错都是潜在的风险和损失,我们称之为cost。而cost 函数来衡量目前模型离最终正确模型的距离。

这个cost函数恰恰是由刚刚说的?#38382;?#20915;定的。 这些?#38382;?#30340;含义是, 当你改变某一个特征比如房屋的面积,你的房子价格就会变动,但是变动的方式是什么, 你不知道, 你就去随机的扰动这些?#38382;?#30475;看?#32654;?#30340;价格会如何变化,并且和真实的价格信息比较, 可能你忽然发现某个瞬间, 你的所有房子的价格都被一组?#38382;?#31070;奇的拟合了。对, 就是这么神奇, 几个?#38382;?#21487;以预言不是一个,而是所有房子的价格!

我们?#26222;?#32452;?#38382;?#20026;最优,或者说我们学习的结果。虽然这个cost函数和统计学里的?#35762;?#24456;相近,但说的不是一个意思。

机器学习能否成功,就在于这个最优位置能否找到, 而在大多数时候,我们连这个最优位置是否存在都不知道。

?#27604;?#21018;刚说的随机方法很是不?#31185;祝?#23454;?#20160;?#20316;中我们用到的是一个叫梯度下降的方法, 让?#38382;?#39034;着最快速减少预测错误的方向去自动调整,如下图。

图中的x,y轴代表?#38382;?高?#21364;?#34920;错误率, 洼地的那个点正是最优?#38382;?#28857;。


训练与测试:


用一个形象的比喻理解有监督学习,它就像一个拿着一堆模拟?#38469;?#39064;学习的学生, 这个过程里你通过不停的比较你和标准答案的差距来学习完成试卷, 而最终这个学生要面对的是真实的?#38469;浴?相对应的,我们通常在有监督学习里把我们的数据分成两部分, 一部分做学习的试题,另一个部分做?#38469;?#29992;。 一个学生完全可能在平时练习的时候把每道考题被的滚瓜烂熟,而在真正的?#38469;?#37324;一塌糊涂,这种情形我们称之为过拟合。


如果用两个最简单的例子来解释过拟合发生的原因,主要就是在局限的数据里过度的挖掘模式导致的。 比上图说一个人想要识别树叶,它只见过那些有锯齿的树叶, 见到没有锯齿的叶子就会判断它不是叶子。 或者一个人只见过白天鹅, 它拼命的根据已有的经验去定义天鹅,而当第一个黑天鹅出现时候, 它的定义就失效了。

无监督学习 :

再一些更困难的问题里, 我们根本不掌握我们所要求解的信息,比如房屋的价格, 这好比一个没有标准答案的开放性考题, 我们需要学生发散式?#22902;?#32034;。

无监督学习看起来不能给出一定的答案, 但是其结果却可以让我们得到意想不到的惊喜。

无监督学习最典型的范例是聚类, 一个典型的例子是, 你是一?#19968;?#32852;网公司,你要对你的一大堆客户信息, 你首?#35753;?#23545;的是如何把这些数据进行整理归类,无监督学习里的聚类算法如k-means,它可以轻松的把你的客户信息根据特征自动划分成大类, 之后你可以发现?#19981;?#29233;马仕包的女生也爱喝拉?#39057;?#32418;?#26222;庵中?#24687;,然后你可以验证一下你的猜测,就可以愉快的推销啦!

再有说如果你有大量的人的心电图,你要?#30452;?#20986;哪些是异常的可能是心脏病的情况,但是你又不知道病人有关的信息, 让机器自己去无监督学习, 都可能得到意想不到的insight。

机器学习很美吗:

机器学习这件事, 看上去很美, 事实上一点也不, 因为你面临的是变幻莫测的问题, 你训练的再好, 你的预测也是有风险(no free lunch here)的。首先, 因为存在模式,问题才可以预测, 如果你的问题本身就没有模式, 或者模式极为不可捉摸, 你的算法再强大?#19981;?#22833;败。比如说你要预测某个商品网站上衣服的价格, 但是这个网站里的衣服都是一个疯狂销售者根据他每天的?#37027;?#22909;坏定的, 而你却去找了一堆衣服的尺码材质特征来, 那你的算法?#31449;?#35201;失败。

?#35789;?#26159;一个模式存在的问题, 也总会在某个时点上, 碰到问题的边界。比如说你要做一个根据女生特征匹配对象的机器学习算法, 你的算法总是根据你过去掌握的男女匹配记录预测的, 而总会有某个时刻, 你的对象已经不符合历史数据的规律,这时候要不你调整算法, 要不你直接放弃服务这类无法预测的人。

机器学习最难的是什么?

如果你思考一遍上述流程, 你可能发现一切?#24049;?#23481;易, 从数据清洗,特征提取,到模型选择, 事实上这你就错了。 因为机器学习最难的一部 , 这里根本就没提到, 那就是把现实生产生活中的问题, 提炼成一个机器学习问题 。

这需要的是你对问题本身的深刻洞察。 有一天也许整个数据清洗到模型选择和交叉验证都自动化了。但始终有一个东西不能完全被机器搞定, 那就是你如何从一个全新的领域, 去提取机器学习可以有助解决的最重要的问题。

再有, 无论机器的预测多准确, 它的结果如果不是在解答人的需求, 也是一个没用的或至少不令人?#19981;?#30340;东西。 比如我发明一个算法能够特别准的预测老人的寿命, 或者根据女生现在的长相推测她80岁的长相, ?#35789;?#31639;法十分牛掰, 这样的产品估计也不是客户?#21442;?#20048;见的。



如何向你奶奶解释机器学习是什么
六个月内学会一门外语 5个原则7个行动
巫师外星人和星舰中的书目
引力之谜:从牛顿的?#36824;?#21040;爱因斯坦的时空弯曲
Science刊文对年轻科学家提出5点忠告
《马奇论管理》读书摘要
那些气候、生活、文明的秘密,土壤能告诉你
不可捉摸的现实——?#35835;?#23376;理论》序
小径交叉的命运:地理决定论之一种
美国顶尖医生谈癌症
李庄:抗战后方的学术重镇
各学科领域入门书籍推荐
《数据之巅》涂子沛著
张首晟:大数据时代感受物理、科技、人文的跨界之美
MIT牛人解说数学体系
人造爱因斯坦:一场关于“现代物理奠基人”的闹剧
国外大牛们一年发7点以上SCI的诀窍
植物神经生物学的诞生
?#19988;?#26159;如何储存的
人脑之谜——专访复旦大学脑科学家杨雄里院士
中国私募行业的7大派系各有千秋
一个学术报告,别人可看透你一切
神作?#40517;?#19982;摩托车维修艺术》
物理学的逻辑和霍金的答案
第四个科学发现范式
香港台湾部分大学的学术论文期刊下载方法
麻省理工(MIT)牛人解说数学体系
《潜意识:控制你行为的秘密》
海外中国研究丛书
四位大牛的看文献方法
DARPA究竟是什么
爆发:大数据时代预见未来的新思维
西学基本经典
MIT牛人解说数学体系
乔治·戴森讲述计算机的诞生
大牛很通俗地介绍《信号与系统》
对称破缺之美:2008年物理?#24403;?#23572;奖工作介绍
达尔文和他改变的世界
认知科学的几个基础假设
田国强: 现代经济学的基本分析框架与研究方法
《美国经济评论》百年经典论文导读
各学科领域入门书籍推荐
物理学的诗,关于将相对论,量子力学,弦理论与文学结合的第一次尝试
?#22987;?#26412;电池容量恢复
一不小心成了计算机病毒的?#35848;窤dleman
好的搜索引擎尽在此处
个性化推荐系统简介
学者称中国50年内出不了《自然》杂志
科学作家嵇晓华:中国读者很难提出好问题
量子物理学量子通信技术未来
Google应?#20040;?#20840;
科学:人文科学、自然科学和社会科学
傅立叶变换和卷积的物理意义
关联规则挖掘综述和关联规则挖掘算法
量子物理学引发奇谈怪论:薛定谔的猫
CIPP评估模型与信用评估模型
《行为经济学新进展》简介
《行为经济学新进展》
《纽约时报》2009年十大好书
[转]MIT牛人解说数学体系
如何使用Google
世界数学大事记
如何写出令同行?#34892;?#36259;的科技论文
什么是科学的研究方法
科学领袖的素质及特点讲座总结
贾文毓:科学语境中的“道,可道,非常道...”
钱学森著《关于思维科学》
ctfmen.exe病毒分析和ctfmen.exe病?#38745;?#26432;
叶永烈认为国家的科技实力决定科幻水平
查找文献的一些体会
“猫癣下载器”病毒和“猫癣下载器”专杀工具
让科学流行起来
“科普”要普及的是“科学思维”
科普:一颗难啃的大松果
科学家揭示做噩梦六大原因
地震探秘和火山探秘10
火山探秘和地震探秘7-9
科学技术普及,科普知识1 科学技术普及,科普知识2

本栏目主要介绍科学普及知识,包括科普知识、中国科普、科普文章、科普读物、如何向你奶奶解释机器学习是什么等。特别关注有关人与文化方面的研究。

『科学频道首页』 『本栏页首』 『关闭窗口』

2018网球年终总决赛决赛
pk10最牛稳赚模式5码 独胆一期技巧 大乐透复式14加2多少钱 内蒙古时时1019号 重庆时时稳定计划app下载 keno稳中方法 六肖赔多少 玩彩票 什么样的倍投最好 华彩软件站下载 下载365彩票板机按装