图像识别与机器学习面临的困难和今后的研究方向 - 信息快递

图像识别与机器学习面临的困难和今后的研究方向

发布时间：2016年06月27日

图像识别是人工智能领域非常核心的一个课题。同时从研究的角度来看，机器学习也是人工智能下的一个研究方向。因此，这个题目会更容易引起大家的共鸣。

图像识别与机器学习面临的困难和今后的研究方向
　　
　　一、什么是图像识别?
　　
　　图像识别是什么?以这张图像为例，第一个问题是：在这个图像里面有没有街灯。在学术研究中，我们把这个问题叫作图像检测。第二个问题就是把街灯的位置给找出来，这叫做定位。第三个问题是物体的分类和识别，指出这是山，这是树，这个是招牌，建筑。我们可能还会对整张图片做一个场景的分类，是在什么环境下拍照的。它可能是一个室外的图像，关于城市的生活等等。基本上这些就是我们在图像识别里面涉及到的一些可能的研究问题。
　　
　　二、图像识别有什么应用?
　　
　　做这些研究可以有哪些用途?比如无人驾驶汽车：如果汽车上有一个带有摄像头的辅助系统，能够识别这个场景下所有的情况，包括车道线，交通标识，障碍物等，这样能够让我们驾驶汽车更方便、更轻松。
　　
　　另外，一些相机在拍照的时候，在用户摁下快门到一半的时候，相机就会去找到这个图像的人脸在什么地方。找到人脸以后把焦点对焦在脸上，使这个图像能够让人更清楚一点。
　　
　　还有，我们的计算机里面往往会有成千上万的照片，怎么组织它们，从而用户快速找到一张照片?如果有这样的图像识别系统，我可能会告诉计算机，我要找的照片里有两个人，这个照片是在颐和园照的。
　　
　　三、图像识别的困难在哪里?
　　
　　图像识别有很多难点。第一个困难就是它的视点变化很多。当我们对同样一个物体拍照的时候，因为视点不同，得到的图像外观是不一样的。所以对同一个物体这样看或者那样看，看外观非常不一样。但是也许两个不同的物体，外观又可能会很相近。所以这是造成图像识别的一个困难。
　　
　　第二个难点就是尺度问题。物体在图像中近大远小，这给我们做图像识别会带来一定的难度。
　　
　　光影的变化一向是计算机视觉特别关心的一个问题，光影变化是图像识别的第三个难点。同样一个人在不同光影下看起来判若两人。
　　
　　第四个难点是背景复杂。在复杂背景下，找到某一个人带着拐杖，找到一个戴帽子的人难度很大。
　　
　　第五个难点是遮挡。遮挡是计算机视觉特别关心的一个难点。比如说，这个图片里熙熙攘攘的人中，我们知道这大概是一个女孩：她有棕色的头发，穿着一个短袖衫。我们人的本领很强，这种情况下还能识别出男女。但是计算机现在还做不到这一点。
　　
　　第六个难点是变形。非钢体在运动的时候会产生变形。同样一匹马在不同的情况下的图像表现会非常不一样。
　　
　　四、图像识别的发展历史
　　
　　图像识别刚开始的时候是从单一的物体识别做起。上边这张图像展示的是传统的几何方法的结果。我们的客观世界那么复杂、那么多样，我们该怎么做识别呢?那就先从特别简单的问题做起。这也是我们做科学研究的一般的方法：从简单的问题着手。比如从做积木的识别入手。因为积木有很规范的几种形状。上图是识别出的简单的剃须刀。这些人造的非常规范的几何体的组合，只要识别出长方形、矩形、正方形、三角形等，就会把剃须刀，工具检测和识别得非常好。另外一种方法，是根据外观识别。我不考虑要识别的物体的几何结构，仅仅看它外观长什么样。这里列出的是做人脸检测的例子。
　　
　　做人脸识别的研究历史相对比较长。大概七几年就开始有这样的研究工作了。直到现在仍然有很多人脸识别的研究工作发表。
　　
　　另外一个课题就是手写数字识别。手写数字看起来是很简单的事，但是对手写数字识别的研究引发出相当多的研究方法，给我们带来很多的成果，是一个很有意思的课题。此外的课题还有汽车的检测。我这里只是列了这几个。其实同时期还有指纹识别、文字识别OCR等、等。当时有的研究工作已经发展到了产品化的程度，包括OCR和指纹识别。
　　
　　在2000年之前的图像识别曾经采用过几何的方法、结构的方法、规则的方法，当然也用了一些比较简单的模式识别的方法。
　　
　　在80年代后期、90年代期间，机器学习领域发生了什么?这个时期的机器学习有了一个飞速的发展，出现了一些了不起的研究成果，包括：支持向量机方法，AdaBoosting方法，计算学习理论等。成果出现。这些都使得机器学习和识别大大的往前走。在2002年后的一段时间里，一个华人女科学家，叫李飞飞，开始用一个新的思路做图像识别。他们希望设计一个统一的框架做图像识别，而不是就事论事地针对一种图像识别任务设计一套专门的方法。他们希望这个统一的框架能识别成千上万种物体。另外，希望机器学习领域的出色成果可以用在图像识别上。她们还借鉴文本分析里的方法-“词袋”(bagofwords)的方法用于图像识别。