不服跑个分?人工智能也出现“刷分”乱象

jopen 9年前

原文  http://www.pingwest.com/face-recognition-is-not-a-simple-score-game/

2014年,人工智能领域突然爆发,成为了科研和科技创业的热门领域。特别是到了去年年底的时候,巨头公司也好创业公司也罢,频繁发布图像、语音识别等相关人工智能领域的研究成果和学术论文,大有中国人将引领世界人工智能技术革命的架势。

在所有进行人工智能研究的公司当中,百度无疑是成绩最卓越的那家。根据余凯 透露的情况 ,IDL在人脸识别方面取得了99.62%准确率的顶尖级成绩。对比来看, 非死book人工智能实验室2014年6月底对外公布的成绩只有97.35%论文链接 ),比百度成绩低了2个百分点;而斯坦福大学研究人员发现用人测试的准确率大约是99.2%,比百度的成绩低了零点4个百分点。

在惊讶于百度取得世界最好的人脸识别准确率成绩之余,也有不少人对如何定义准确率产生了疑惑。何为人脸识别的“准确率”?准确率多高算高?带着一系列问题,PingWest品玩开始寻找答案。

根据已经公开的资料,前文所提到的“准确率”,指的是对全世界最权威的人脸数据库 LFW(Labeled Faces in the Wild) 进行比对测试的成绩。LFW可以被认作一个考察深度学习系统人脸识别能力的“题库”,由美国马萨诸塞大学阿默斯特分校管理。它会从互联网上(其实主要就是 Yahoo News)提取6000张不同朝向、表情和光照环境的人脸照片(大多为知名人士的新闻照片,足够高清,且重复的人的照片基本在同一时期拍摄,也即外貌变化 不大)作为考题,可以让任何系统在里面“跑分”。

跑分的过程是这样的:LFW给出一对照片,询问测试中的系统两张照片是不是同一个人,系统给出yes或no的答案。99.62%的准确率,意味着在测试中的所有题目里,百度的人脸识别系统答对了99.62%的题目。

图像识别技术公司 旷视科技(Megvii/Face++) 创始人印奇向PingWest品玩确认,非死book目前公开的DeepFace论文,显示其LFW准确率的确是97.35%,非死book在达 到这个成绩之后就没再继续公开过后续的LFW成绩(如果有的话)。PingWest品玩发现,Google的成绩同样未公开,不过从余凯的言论中可以确 认,在LFW比对测试上,百度、Google和非死book同处于世界最高水平。LFW多高算高?至少超过非死book的97.35%才算 “高”。

然而,关于LFW的成绩,对一家公司或研究机构的人脸识别技术实力究竟有多大的代表性,印奇有不一样的观点。

“LFW纯粹是一个题库性质的测试,最主要的作用是测试一套系统能不能达到基本的人脸识别能力。”也就是说,如果所有的人脸识别系统都是3岁小孩,LFW就是用来测试这些小孩够不够上幼儿园的智力水平测试。 “为什么说它是题库,就是因为这6000组网络样本——6000张照片,是固定的。任何一个系统都可以对这6000组样本进行有针对性的优化,从而达到刷高分的效果。”

印奇对PingWest品玩透露,“刷分”并不能代表研究单位的真实技术水平。一位不愿意透露姓名的图像识别专家表示:“把题库背下来了,整个人就变聪明了?这样说是行不通的。”

该专家指出,包括一些大型互联网公司,以及“不少大学教授,特别是华人教授”出来创业的人脸识别研究团队,多少都有在LFW测试上刷分并将其作为 宣传点的行为存在:“并不是说这样做不对,而是对人脸识别行业的研究没有实质性的意义。”PingWest品玩发现,在搜索引擎中输入“人脸识别”、准确 率等关键词,可以搜索到许多条大公司和初创公司拿下超99%准确率的条目。

不服跑个分?人工智能也出现“刷分”乱象

Labeled Faces in the Wild (LFW) Samples

印奇对PingWest品玩透露,业界一些人工智能和深度学习领域的大小团队之间的风气不太好。它们无外乎几种类型——他们极少谈及自己的技术实力和商业应用能力,而是:

1. 强调团队创始人是海归大师、名教授、学术泰斗;

2. 强调天使、pre-A就已经获得某某世界知名基金数千万美元投资;

3. 经常出席各类演讲场合,陈词滥调人工智能历史,千篇一律大胆预测人工智能发展未来;

4. 巧妙地利用规则进行刷分。

其中,前三条已经是整个互联网创业圈的通病了,而第四条则是目前 人工智能研究领域的一个严重问题

印奇对PingWest品玩透露,旷视科技前段时间刚刚用一种比较低智程度的卷积神经网络(Convolutional Neural Network,CNN)刷了一次分,没有针对LFW“题库”进行专门优化,就刷到了99.5%的顶尖成绩。在此之前,旷视科技并没有对外公开过LFW比 对测试的分数。

但问题是,LFW是一个纯粹实验室级别、学术性质的测试工具。在样本量可能达到十万级、百万级的实际商业场景下,LFW里取得高准确度的系统并不一定能延续刷出来成绩,其误识率将直线上升,甚至有可能根本没法用。

印奇用Face++的金融业务举例。比如,在支付宝使用人脸验证、或者未来的互联网银行用人脸来进行远程开卡校验过程的时候,用户用前置摄像头拍 下自己,图片传输到识别系统当中,而跟这张临时照片进行比对的照片通常是身份证照片。这意味着,两张用于比对的照片既不是高清,也有可能存在胡须、发型、 眼镜等不同特征,更有可能不在同一时期,存在年龄导致的特征变化,从而提高系统的识别难度。

“实际情况中,样本量可就不是6000个了,你想想支付宝有多少用户……在金融领域,通常要求的误识率在10的负5次方到负6次方。在这个误识率水平上,金融客户会要求你给出一个至少90%的通过率。”印奇指出。

根据PingWest品玩了解,误识率和通过率的定义如下: 误识率:将两个不同的人错认为是一个人的比率; 通过率:能够正确识别前来进行比对的人是本人,并放行的比率。

在LFW跑完分之后,旷视转而用自己的成绩来“打脸”,将这个模型扔到金融场景的证件照比对上,发现在万分之一的误识率基础上,连70%的通过率成绩都达不到。

用通俗的话说:有这样一家识别人脸准许进门的银行,一万个人里面系统就至少得把一个人认成另外的人,万一这个人正好就是个大案要犯呢?然后认对的 人里面还有30%通不过,意味着就算你不是罪犯,也有极高的可能被挡在银行外面不让你进。前者会对银行的安全带来重大隐患,后者则严重降低了用户体验。

不服跑个分?人工智能也出现“刷分”乱象

在银行和安防场景中,人脸识别系统的准确度要求更高,条件也复杂得多,比如图像清晰度低(几十×几十的像素)、人脸移动(行走)、要求的识别速度极快…

LFW成绩和实际商业应用的要求之间的区别,就在这里。据了解,旷视目前可以在十万分之一误识率的前提下,通过率达到93%,高于此前 商业周刊中文版报道 的万分之一误识率下通过率超过90%。 然而,业界很多人脸识别研究单位并未对外公开过在商业识别场景下的成绩。

前述专家认为,这个情况是因为很多研究单位对于人工智能研究并没有一个清晰的商业化导向。“用人脸识别来说, 刷LFW分成为了技术无法商业化的救命稻草。 你这个东西没法商业化,但总要对上对下对外有一个交代是吧?”

具体来说,大公司有多种领域和形态的业务,也有海量的应用场景,但并不是每一个场景都可以将人工智能研究能力商业化。在人脸识别方面,如果这家公司跟人脸就不怎么打交道,也就没有将技术商业化的动力。

“商业化对于人工智能太重要了,你没有明确的商业化产品落地,就不会规模化的数据反馈产生。人工智能是一个数据量要求极大的领域,人人都在说自己 家的‘大脑’有多聪明,可是绝大部分的深度学习系统其实做的都是规模化和结构化数据的积累。现阶段聪明的‘大脑’不是有多会思考,而是有多少知识储备。你 不搞商业化,没有足够的数据来反哺系统,系统又怎能变得更聪明呢?”印奇说道。

刷分就像应试教育,不是谁分数高谁就一定厉害。用一句流行语来说就是:不看广告看疗效。

</div> </div>