通过观察像素 谷歌人工智能可以精确定位照片拍摄的位置

人工智能2020-03-23 16:01:22
导读谷歌现在有能力分析任何照片,并确定它在世界上的拍摄地点。来自谷歌的一种名为PlaNet的新型深度学习机器在从图像中识别街道场景或甚至室内

谷歌现在有能力分析任何照片,并确定它在世界上的拍摄地点。

来自谷歌的一种名为PlaNet的新型深度学习机器在从图像中识别街道场景或甚至室内物体的位置方面可以胜过人类。

谷歌现在有能力分析任何照片,并确定它在世界上的拍摄地点。根据定位机的设计者,它可以“超人的精确度”完成这项任务。

麻省理工学院技术评论报告说,谷歌的PlaNet神经网络的努力只能使用图像的像素来执行这个任务。

该项目由谷歌计算机视觉专家托比亚斯·韦扬德(Tobias Weyand)领导,他在一篇新论文中详细介绍了研究人员如何训练一个卷积神经网络,其中包含大量来自谷歌的图像数据集,并附有地理标签Exif数据或图像元数据。

正如本文所指出的,过去的努力已经接近地理定位作为一个图像检索的问题,并且只能选择地标来生成一个近似的位置。

谷歌DeepMind人工智能王牌Atari游戏挑战赛

DeepMind发表了一篇论文,详细介绍了它的人工智能技术不仅学会了如何玩一系列Atari游戏,而且在其中一些游戏中取得了成功。

阅读更多

PlaNet将这项任务视为一个分类问题,并使用多种视觉提示,包括天气模式、植被、道路标记和建筑细节,以确定某些情况下的确切位置。

这种方法可以让它“表达对照片的不确定性”。因此,例如,它可以对埃菲尔铁塔图像的位置相当自信,而峡湾的图片可能在新西兰或挪威。

该系统是通过将世界划分为26,000个方格来开发的。在给定的位置拍摄的图像越多,广场就越大,因此城市比偏远地区大,而海洋则完全被忽视。

为了训练网络,谷歌使用了一个来自网络的1.26亿张图像数据集和Exif图像元数据,然后分割出9100万张用于训练的图像和3400万张用于验证的图像。

为了了解PlaNet如何对抗10个“旅行频繁的人类”,研究人员随后使用了网站Geogussr和一组街景图像。该报称,PlaNet赢得了50轮中的28轮。

人类研究对象说,他们寻找“植被、建筑风格、车道标记的颜色和街道上的交通方向”——甚至有排除中国的好处,因为那里没有街景。

“人们会期望,这些线索,特别是街道标志,加上世界知识和常识,应该给人类一个不公平的优势,而PlaNet只对图像像素和地理位置进行训练。然而,PlaNet能够以相当大的优势超过人类。

为了进一步提高它的地理定位能力,对于缺乏足够视觉线索的图像,研究人员训练机器进行“序列定位”-也就是说,利用通常在序列中拍摄照片的方式,因此系统使用整个相册。

在这种情况下,培训和测试数据集甚至更大。研究人员写道:“为了完成这项任务,我们从谷歌收集了2970万张带有地理标签的公共相册数据集,我们将其分成2350万张4.9亿张图片的训练相册和620万张1.26亿张图片的测试相册。”

这种方法在地理定位方面被证明更有效,研究人员报告说,性能比单一图像模型高50%。

免责声明:本文由用户上传,如有侵权请联系删除!