推动计算机视觉边界的7项进展

通过的动作．2014年9月17日

在我们能够批判性地思考计算机视觉之前，我们需要花点时间来欣赏我们自己的人类视觉系统。想想看，作为有眼睛的人类，我们在生活中都能做些什么!我们分析、分类、在任意情况下对任意物体进行理解、毫不费力地跟踪物体的运动、回忆完美的图像3D模型、阅读(书写、打字，甚至画插图)字母、数字和单词，而且自我们出生以来，我们识别了成千上万张面孔。我们组织和理解每天出现在我们眼前的大量信息的能力令人惊叹。

然而，对于电脑来说，相机镜头和其他传感器(即人工智能)背后的生活并不令人惊叹，而是充满了困惑。然而，现在一切都在向好的方向发展。从另一个角度来看，在2006年，机器人甚至不能独立地拿起一个杯子，但到了2011年，这变得很容易了，现在我们有了协调能力很强的机器人一次玩5个球！

(嵌入式视频https://youtu.be/9asDO_1A27U）

为什么等待?嗯，计算机视觉是一个不小的挑战。为了让它在所有潜在的应用中都有用，计算机科学家们需要改变他们教授软件的方式;简而言之，他们需要喂养大量的bob体育手机下载．幸运的是，多亏了数据科学的应用，机器学习在过去的几年中，计算机视觉领域的进步不断涌现。bob体育手机下载

以下是最近的7项进步，值得你关注:

1.机器人海量知识图成为现实

它部分是由人类在网上提供直接反馈，部分是由不断在互联网上搜索的机器学习算法建立的，无袖长衫的大脑是计算机视觉研究人员可以访问的一个在线信息图书馆，让他们的机器人真正理解他们周围看到的世界。通过结构化深度学习，其中人工智能在某种程度上学习了许多层数（例如，不仅仅是咖啡杯看起来，而且是人类的影响），这个库将允许机器人基于数据馈送的3D知识图来制定最佳选择。Robo Brain不是这一领域唯一的项目，但它令人印象深刻的洞察力洞察机器学习与一点点众包的力量，因为网站的访客可以帮助纠正和添加到图书馆。

2.亚当项目展示了深度学习在图像识别中的威力

在机器学习中使用大量高质量的训练数据的价值再怎么强调也不为过。bob体育手机下载微软的亚当项目电脑视觉程序能分辨出彭布罗克犬和卡迪根柯基犬(一种犬种)的照片，这就把这一点讲得非常清楚了。而这项任务即使对人来说也相当困难。亚当计划将自己建模为一个神经网络，它的算法已经将1400万张图片分成了22000个类别，从ImageNet数据库．这就是其机器学习算法如同识别图像即使在不同的环境中也是如此擅长。

但犬种识别只是一个开始。亚当项目可以为有健康意识的消费者以及盲人和残疾人社区带来真正的希望。看看微软研究员Trishul Chilimbi在地平线上看到了什么。

(嵌入式视频:https://youtu.be/QnXuIQZhUWM）

3.展示人工智能是如何实现的以及人类如何控制机器人

当软件和机器人不能或不能做你想做的事情时，创建基于浏览器的软件让人类控制手头的工作是有意义的。除此之外，机器学习算法通常可以通过观察人类同事学到很多东西。以下是三个值得一试的例子:

Appen与哈佛大学合作，利用人群来计数神经元，训练算法来检测细胞的边缘，帮助他们的研究人员找到一种更快的方法来分析细胞图像上的视觉数据。这是一个算法无法解决问题的例子，人们需要介入。(类似的例子，你可以作为志愿者参与:Eyewire）
2012年，Willow Garage成立了亨利项目，将许多任务卸载到在线工人通过特定的家务和任务为直接PR2机器人支付。在工作期间，机器人能够观察和学习。观看娱乐视频来全面了解这个项目的进展。
Tell Me Dave是另一个例子．然而，它向在线志愿者学习的方式是通过虚拟环境中的模拟机器人。像电子游戏一样，志愿者可以在模拟空间中移动虚拟机器人，并教它如何做一些事情，比如为聚会准备房间(摆上几碗薯条和蘸酱等)，或者是否用炉子或微波炉烧水。绝对值得一试如果你想知道成为机器人的主人是什么感觉(现在是这样)。该项目旨在为PR2和其他机器人建立一个众包指令库，以便最终训练它们灵活推理、决策和理解自然语言。

智能自主系统组的PR2, Technischen Universität München。图片由Jiuguang王

4.卫星图像和大数据一样有很大帮助

除了著名的马航失联航班搜索卫星图像+众包已经被用来解决许多问题，包括评估洪水的损失，寻找间接的方法来绘制贫困地图，比如数金属和茅草屋顶从卫星照片。

5.扶手椅考古学家揭开古代雅典的历史

虽然戴软呢帽的印第仍然是我们想象中遥远考古学家的原型，但这个领域近年来发生了显著变化。

新边疆找到了我们的英雄寻找失踪的埃及城市塔尼斯或者征召一群空谈考古学家梳理卫星图像寻找成吉思汗的陵墓．在这两种情况下，专家图像分析和程序化图像分析的结合能够更快、更便宜、更有效地进行探索。

为了持续解决这类公民科学的挑战，巴塞罗那大学的一组研究人员计算机视觉中心开发了一个众包平台，叫知识该公司允许其用户进入全球移动劳动力市场，对文本和图像分析算法进行培训和补充。

对古雅典陶器的分析引起了我的注意。为了确定某一特定容器的起源和时间范围，研究人员需要找到线索。为了做到这一点，人群工作人员被要求在舰艇上重装步兵的头盔周围画出边界框。然后对这些裁剪过的图像进行编程分析，以确定每件作品的历史。

雅典陶器头盔鉴定任务诺克塞尔预览。

想象一下，随着这些新技术被更广泛地采用，隐藏的过去将揭示出什么样的新发现是很有趣的!

6.图像标签成功作为服务

有时，软件服务很像我们，他们需要知道他们在伸出手之前看出他们的样子。一个这样的案例是发现新葡萄酒喝或回顾你所享受的葡萄酒。的应用程序就是解决这个问题。他们拥有一个包含数百万张葡萄酒标签的数据库，利用机器学习来帮助人们准确挑选他们正在看的葡萄酒，并对其进行更多的了解。为了训练和改进这个算法，当应用程序用户拍下了Delectable无法识别的照片时，Delectable会让Appen的员工对瓶子进行分类、匹配和转录。

7.面部识别快速接近人类的能力

我们并不总是认为自己随身携带着面部识别软件，但我们在某种程度上是这样的。事实上，这个过程占据了我们大脑的很大一部分因为这是一项重要而不容易的任务。然而，多亏了像Facbob体育手机下载ebook上人们的照片这样规模的训练数据，计算机视觉应用程序变得几乎一样好了吗．

计算机视觉的未来

计算机视觉的未来是光明的。然而，还有很多工作、很多发现和很多研究有待完成。然而，有一点似乎很突出:上面的许多突破向我们表明，训练数据，由数据丰富平台开发，如bob体育手机下载的动作或Knowxel，结合机器学习，将促进该领域的发展，推动我们进入一个更加人工智能的未来。

其他你可能喜欢的博客文章

所有博客文章