当机器学习遇到机器视觉
原文 http://www.dataguru.cn/article-6568-1.html
本主题包括两篇文章,由微软研究院和剑桥大学的Jamie Shotton,Antonio Criminisi,Sebastian Nowozin共同完成。
机器视觉是通过计算机算法自动理解图片内容的技术,十九世纪六十年代,它起源于人工智能和认知神经科学。为了“解决”机器视觉的问题,1966 年,在麻省理工学院,这个问题作为一个夏季项目被提出,但是人们很快发现要解决这个问题可能还需要更长的路要走。在50年后的今天,一般的图像理解任务仍 旧是不能得到完美解决。但是也已取得显着进展,并且随着机器视觉算法商业化的成功,机器视觉产品已经开始拥有广泛的用户,包括图像分割(例如微软 office中去除图片背景的功能)、图像检索、人脸检测对焦和Kinect的人体行为捕获等。几乎可以确定的是机器视觉最近的突飞猛进主要得益于最近 15到20年机器学习领域的快速发展。
本主题的第一篇文章主要是探索一下机器视觉所面临的挑战和介绍一个非常重要的机器学习技术——像素智能分类决策树算法。
图像分类
想像一下并试着回答下面这个有关图像分类的问题:“在这张图片中有一辆汽车吗”。对于计算机来说,一张图片仅仅是由三原色(红、绿、蓝)构成的像 素组成的格子,三原色中每一个颜色通道的值的范围都是0到255。这些值的改变不仅依赖于事物对象是否在图片中呈现,也依赖于一些干扰事件,比如摄像机的 视角、灯光条件、背景和对象的形态。另外,一个必须处理的问题是不同类别的汽车呈现不同的形状。例如,这辆汽车可能是辆旅行车、或者小卡车、或者是辆跑 车,这些都会对图片像素造成很大影响。
幸运的是监督机器学习算法提供了替代原本需要人工编码解决这些多可能性的问题的方式。通过收集图片的训练集和适当的人工标记每一张训练图片,我们 能够使用最好的机器学习算法找到哪些像素模式是同要识别的对象相关的以及哪些是干扰因素产生的。我们希望我们的算法最终能够适用于识别以前没有经过训练的 新的样本,并且对于噪声保持不变性。在新的机器视觉算法的发展和数据集的收集标注两个方面我们都取得了长足的进步。
像素智能分类决策树算法
图片在很多层面上包含细节。就像前面我们提到的,我们可以问一个问题——在整张图片中是否有一个特定的对象类别(比如汽车)。现在我们可以问一个 更难点的问题——这张图里都包含了什么,这就变成了一个著名的问题“图像语义分割”:提取图片场景中所有的对象。例如下面街道场景的图片。
你可以想象一下,这可以用于帮助你有选择的编辑一些照片,或者用于拼接一张全新的照片;我们还能马上想出更多的应用场景。
解决语义分割问题可以有很多方法,但是一个最有效的算法是像素智能分类:训练一个分类器在像素级别预测每一个对象(如汽车、街道、树、墙等)分布 情况。这个任务带给机器学习一些计算问题,特别是图片包括很多的像素的时候(例如,诺基亚1020智能手机拍照的像素是4100万像素)。这就意味着整个 运算时间是我们分类任务全部训练和测试样本图片乘以几百万的倍数。
这个问题的规模促使我们寻找一个更有效的分类模型——决策树(也称为随机树或随机决策树)。一个决策树是一个分离训练后的决策树的集合,如下图所示。
每一决策树都有一个根节点,多个内部“分支”节点,和多个叶子节点。测试分类时,从根节点开始,并且计算二叉“分支函数”,这个函数可能就像“这 个像素是否比它的邻域像素更红”一样简单。根据该二元决策,它将沿分支向左或向右,接下来查看下一个“分支函数”,一直重复这样的操作。当最终达到叶子节 点,一个存储的预测——通常是一个包含类别标签的直方图——就是输出(你也可以去看一下Chris Burges最近的一篇非常出色的论文,是关于提升变种决策树在搜索排名中的应用)。
决策树的美在于他的执行效率:虽然从根节点到叶子节点包含指数级可能的路径,但是任意一个独立的测试像素仅仅通过一个路经。此外,分支函数的计算 是以此前的事件为条件的:例如,分类器只需要依赖此前分支决策的答案提出正确的问题就行了。这很像“20问”游戏:当你仅被允许去问少量问题时,你可以很 快学会根据你以前问题的答案来调整自己要提出的下一个问题。
有了这项技术,我们已经能够成功处理这些不同的问题,如照片的语义分割,街头的场景分割,人体解剖学的3D医学扫描图像分割,摄像头的重定位和使 用Kinect深度摄像头对人体身体部位的划分。对于Kinect来讲,决策树测试时间效率是关键:我们有一个非常严格的计算预算,但是这样的计算要求搭 配Xbox GPU并行处理像素的能力,意味着我们能够适应这种应用场景[1]。
Jamie, Antonio and Sebastian
[1] 身体部位分类只是骨骼追踪的一个阶段,整个骨骼追踪方案是Xbox的 fantastic team 的工程师完成的。