专注人工智能在金融领域的应用

大话机器学习(一)——机器学习入门

本文通过通俗易懂的例子对机器学习的概念和原理进行介绍,通过本文,你会对看似神秘的机器学习有直观的了解。

1婴儿如何学习识别苹果和梨的?

首先,我们想一下妈妈是如何教婴儿识别苹果和梨的呢?妈妈会给宝宝看很多苹果和梨的图片,告诉宝宝这个是苹果,那个是梨。这个时候宝宝就会思考,为什么妈妈说这个是苹果,那个是梨呢?宝宝会去看苹果和梨有什么不同的特征,会发现苹果和梨的颜色和形状不同,这时候宝宝脑海里就会形成规律红色的圆形的是苹果,黄色的椭圆形的是梨。

《大话机器学习(一)——机器学习入门》

宝宝是不是就此学会了识别苹果和梨呢?这个识别苹果和梨的规律是否正确呢?我们看下面的示例,妈妈给宝宝拿来以下图片,这时候宝宝一看这个东西是黄色圆形的,他发现之前的规律不能覆盖这种情况了,那么到底这个是苹果还是梨呢?这时候妈妈告诉宝宝,这个是苹果,宝宝明白了原来这个是苹果啊,他就会对原来的规律做一个修正,增加一条规则,黄色圆形的是苹果。

《大话机器学习(一)——机器学习入门》

这个时候又来了奇怪的东西如下图,宝宝一看黄色圆形的,这个东西是苹果。这时候妈妈跟宝宝说不对,这个是梨不是苹果,宝宝脑海里就会对原来的规律进行修正,黄色圆形皮粗糙的是梨,黄色圆形皮光滑的是苹果。

《大话机器学习(一)——机器学习入门》

以上就是婴儿学习的过程。大家看到这是不是觉得这不就是专家系统的规则嘛,其实机器学习的本质就是专家规则,只不过有一些细微的差别,导致机器学习的效果和专家规则不太一样。

2、机器学习和专家规则(婴儿学习)的差异

机器学习和婴儿学习的过程类似,都是根据历史看到的样本总结出规律,这就是学习的过程。

机器学习最重要的就是样本,那么什么是样本呢?上面提到的苹果、梨用来进行学习的东西就是样本。

机器学习和专家规则区别主要体现在样本数量、规则数量和总结能力上。

《大话机器学习(一)——机器学习入门》

机器学习用的是全量样本,而专家规则用的是抽样样本,为什么专家规则使用抽样样本而不使用全量样本呢?就是因为专家看不过来全量样本。

机器学习可以处理海量的规则,而专家维护几百条规则就已经很困难了。

机器学习通过机器可以用全量样本和海量规则(可以达到几亿条规则)进行总结,而专家规则通过抽样样本和顶多几百条的规则进行总结。为什么使用全量样本和海量规则要比抽样样本和几百条规则总结出的规律效果要好呢?下面我们会分别进行分析。

差异一:全量 VS 抽样

为什么说全量样本比抽样样本好呢?首先看一下抽样的起源。

抽样起源:由于处理能力有限,从总体随机抽一部分研究。

抽样优点(理论保证:大数定律):最少数据获得最多信息。

抽样的问题

  1. 大数定律要求抽样必须是随机的才有意义,而绝对随机是很难做到的。例如,当年奥巴马总统选举需要做民调,那么他们是怎么做民调的呢?从美国所有人口中随机选一部分打电话做民调,但由于业务的限制,他拿不到所有人员的电话号码,他只能拿到固定电话的电话号码,只能以固定电话为基础做投票民调,结果最后的投票结果和他电话民调的结果相差很远。民调的结果是奥巴马输了,实际是奥巴马赢了,为什么会这样呢?就是因为他抽样没有做到绝对的随机。固定电话代表的人群大部分是年纪较大的,很多年轻人很有可能只有手机而没有固定电话,而奥巴马胜出的很大原因是年轻人投票较多。
  2. 抽样会忽略细节,一旦细分,随机采样的误差会变大。例如,我们要算男女比例,我们随机抽样在小样本中计算男女比例就可以代表整体的男女比例,但是如果我们要细分性质,比如我们要统计东北部富裕女性占比,这时候随机采样的误差就会很大,因为你很有可能一个富裕女性都采样不到,更别说计算富裕女性的占比,所以一旦细分精确到个人特征时,这种随机采样的方法就不可取。比如我们想要做千人千面,不同的人进行不同的营销策略,一旦使用这种随机抽样,效果就会很差,因为你没有办法区分细节。

还是拿刚才宝宝学习识别苹果和梨的例子进行分析,宝宝看到下面这个东西是红色的,皮是光滑的,按照他之前总结的规律,他会认为这是一个苹果。实际上它是红茄梨,在中国江苏、辽宁、河北、河南等省有少量栽培。一旦做了随机抽样会有什么问题呢?由于它的样本数量很少,这部分样本很有可能不会被抽进去,宝宝永远看不到这个样本,他永远不会知道这是一个梨而不是苹果。实际遇到这个样本的时候就会出错。

《大话机器学习(一)——机器学习入门》

还有个例子就是医生看病,大家在看病的时候都愿意选年老的医生,为什么呢?这其实跟全量样本和抽样样本也有关系,医生在学校的时候根据学习到的样本总结的规律是不完善的,随着参加工作后接触的样本越来越多,他会对以前总结的规律不断进行修正和完善,这也说明了样本数量越多越好。

通过以上分析我们可以得出结论,通过全量样本训练出的模型效果要比抽样样本训练出的模型效果好。

差异二:海量规则 VS 几百条规则

为什么海量规则要比几百条规则好呢?我们先看下规则的本质是什么。

规则的本质:根据特征(属性)对样本分类。

特征就是属性,比如之前例子中宝宝看到的形状、颜色都是特征(属性),宝宝根据这些特征对样本进行分类。可想而知,特征越多,规则就会越精细。

《大话机器学习(一)——机器学习入门》

通过前面苹果和梨的例子,我们可以看到特征的多少决定了分类的个数,在规律2.0中特征只有颜色和形状,那么分类只能分为四种,如下:

《大话机器学习(一)——机器学习入门》

之后又出现了新的东西,不在上面四个分类中,宝宝发现颜色和形状两个特征不够用了,要考虑新的特征,就是皮的粗糙程度。加入新的特征后,物品的种类可以划分为8种,可以更加细化了。

《大话机器学习(一)——机器学习入门》

我们再看一个常见的银行营销的例子,银行的目标就是从所有的黑色小人中找到红色标注的小人。如果使用专家规则,那么几十条,最多几百条规则就很多了。假设通过专家规则将人群划分为4类,效果也不错,抓住了右下角的主要人群,漏抓了左侧的4个红色小人,除此之外还误抓了右下角的黑色小人。

《大话机器学习(一)——机器学习入门》

如果我们采用更多的规则,可以将人群进一步细分,就会抓住更多的红色小人,并且右下角的黑色小人不会被误抓,这就是海量规则相对几百条规则的优势。

《大话机器学习(一)——机器学习入门》

差异三:机器总结 VS 专家总结

机器总结的基本原理:定义一个损失函数(错误率),尝试所有的划分方法,取损失函数最小的划分方法。

看一下上面例子中的两种划分方法,错误率(漏抓和误抓)分别为12.7%和0.8%,显然第二种划分方法的损失函数(错误率)更小,因此机器会选择第二种划分方法。

《大话机器学习(一)——机器学习入门》 《大话机器学习(一)——机器学习入门》

由于机器的计算能力比人强很多,所有机器可以穷举所有的划分方法,选择最优的一个,这就是机器总结相对于专家总结的优势。

当然,在很多实际情况下穷举的计算量对于机器来说也是非常大的,这时候我们会通过mini batch、剪枝等方法减小计算量。当然,太精细也会带来过拟合问题,可以通过正则惩罚等来解决过拟合问题。

当然,专家规则和机器学习各有优缺点,前面的例子可以看到,专家规则通过两条线(两个规则)就能抓取到大部分的红色小人(错误率12.7%),通过最有效的数据和最简单的规则发挥头部价值。机器学习通过海量的数据和更多的规则,可以更加细化个体的特征,可以进行个性化的营销,从而挖掘长尾价值。

《大话机器学习(一)——机器学习入门》

本文对机器学习做了直观介绍,并通过和专家规则的对比,我们可以了解机器学习的原理和优势。在后面的文章中,我会通过更多案例来进一步阐述机器学习,欢迎关注。


精彩回顾

基于tcc的Java分布式事务框架

事务的基本介绍

Zeppelin源码分析(1)—Zeppelin的设计思想

Zeppelin源码分析(2)——编译、调试和Maven modules分析

《大话机器学习(一)——机器学习入门》

长按二维码,关注程序员王小闲

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>