人类为什么能从极少量的数据中学习？秘密可能是随机映射算法

jopen 10年前

原文 http://www.almosthuman.cn/2015/12/22/mlheu/

最近一项研究表明，人类可以使用少于1％的原始信息来分类数据，验证了一种解释人类学习的算法——这种方法也能够用于机器学习、数据分析和计算机视觉。

人类能够快速地学会识别复杂的物品和它们的变体。通常我们总是能够识别出字母「A」，不管其字体如何，纹理如何或者背景如何。我们也能够认出同事的面孔，即使她带了帽子或者换了发型。我们还能仅通过部分可见部位识别出某一物品，比如说床之一角或者门缝边缘。但是我们是如何做到的呢？在这些不同的任务中，人类有没有使用到一些简单的技术呢？这些技术能否移植到计算机上来改进计算机视觉、机器学习或机器人性能呢？

乔治亚理工学院的研究员们发现人类能够仅使用少于1%的原始信息对数据进行分类，验证了一种解释人类学习的算法——这种方法也能够用于机器学习、数据分析和计算机视觉。

乔治亚理工学院的计算机科学特聘教授Santosh Vempala是该项目的4名研究员之一。他说：「人类是如何理解周遭如此庞大、种类繁多的数据，而且还处理得如此迅速和可靠呢？在最根本的水平上，人们是如何开始做这样的事情的呢？这是个计算方面的问题。」

乔治亚技术学院计算学院的研究员Rosa Arriaga、Maya Cakmak、David Rutter和Vempala研究了人类在「随机映射」（random projection）测试中的表现，以此来理解人们在学习物体的表现有多好。他们向测试对象展示一系列原始的抽象图片，之后测试他们能否在随机展示的、仅有图片一部分区域的情况下正确识别出这些图片。

人类为什么能从极少量的数据中学习？秘密可能是随机映射算法

高级研究科学家和发展心理学家Arriaga解释道：「我们假设随机映射是人类进行学习的一种方法。简单来说，我们的预测是正确的。总数据的仅仅0.15%对人类来说就已经足够了。」

接下来，研究员们测试了一种计算机算法，让机器（非常简单的神经网络）完成同样的测试。机器和人类表现的一样好，这给了我们一种有关人类如何学习的新理解。Arriaga说道：「我们找到的证据表明，事实上，人类和神经网络的表现非常相似。」

研究者想对典型和非典型刺激的样子建立一个数学定义，以此来预测哪些数据对人类和机器来说是最难学的。由于人类和机器的表现差不多，证明了你能预测随着时间推移，哪些数据是最难学习的。

他们的研究成果最近发表在麻省理工学院出版的期刊《神经计算》（Neural Computation）上。据悉，这是首个采用人类被试的「随机映射」研究。

为了验证他们的理论，研究者先创作了3组150×150像素的抽象图像，然后创作了创作了这些图像中非常小的局部的「随机草图」。测试对象被展示了完整的图片，时间为10秒。接着，向他们随机展示了每张图片的16张草图。使用抽象图片的目的是为了防止人类和机器拥有任何先验知识。

Vempala说：「我们惊奇于极其简单的神经网络和人类之间的表现是如此接近，神经网络的设计灵感就是来自于我们所认为的人类学习方式，但仅是个非常微弱的灵感。发现它如此匹配人类的表现力实在是惊奇。」

人类为什么能从极少量的数据中学习？秘密可能是随机映射算法

加州大学圣地亚哥分校的计算机科学与工程学教授 Sanjoy Dasgupta说道：「这篇迷人的论文介绍了一种基于局部的随即映射，能够在将图片进行压缩的同时，仍然使得人类和机器能够区分大类。这是来自于几何、神经计算和机器学习中的创新性见解组合。」

虽然研究员们无法明确地宣布人类大脑确实采用了随机映射，但作者总结到，这个结果支持了这样一种观念：随机映射是一种可能的解释。另外，这暗示着一种非常有用的机器学习的技术：大数据如今是一巨大挑战，而随机映射是一种能使数据可控而不丢失核心内容的方法，至少对于一些基本任务（比如分类和决策制定）来说是这样。

基于随机映射的学习算法理论已被引用超过300余次，并成为了机器学习的一种常用技术，来处理不同类型的大量数据。

Journal Reference:Rosa I. Arriaga, David Rutter, Maya Cakmak, Santosh S. Vempala. Visual Categorization with Random Projection. Neural Computation, 2015; 27 (10): 2132 DOI: 10.1162/NECO_a_00769

来自 gatech ，机器之心编译出品。参与：柒柒，汪汪。

人类为什么能从极少量的数据中学习？秘密可能是随机映射算法

相关资讯