Google 地图重大升级:套用 AI 深度学习,招牌、街道

2020-06-07 评论 349

Google 地图重大升级:套用 AI 深度学习,招牌、街道

在「从街景图像中提取基于注意机制的结构化讯息」(Attention-based Extraction of Structured Information from Street View Imagery)一文中,Google 描述了所採用的方法——怎样在街景视图中使用深度神经网络自动且準确无误地读出街道名称。

我们的计算系统在挑战「法国街道名称识别数据集」(French Street Name Signs (FSNS) dataset)中达到了 84.2% 的正确率,明显优于之前的最优系统。

重要的是,Google 的系统在提取其他类型信息也是很容易扩展的。比如现在帮助 Google 自动提取商店前面的商户名称。目前该演算模型已经开源。

Google 地图重大升级:套用 AI 深度学习,招牌、街道一开始应用于模糊人脸与车牌的神经网路

自然环境中的文本识别在计算机视觉和机器学习上是一个非常具有挑战性的问题。

传统的光学字符识别(OCR)系统主要侧重于从扫描的文档中提取文本。在自然场景中由于视觉伪影,如失真、闭塞、定向模糊、杂乱的背景或不同的角度给提取文本提升了难度。

Google 从 2008 年开始致力于解决这一问题,使用神经网络模糊了街景图像中的脸和车牌,以保护 Google 用户的隐私。从最初的研究中,团队意识到经过足够的标记数据训练后,机器学习不仅能保护用户的隐私,而且还可以自动升级 Google 地图相关的最新信息。

自动识别「街道名称」、「商店名称」以即时更新 Google Maps 的讯息

2014 年 Google 地面实况团队在街景门牌号数据集(SVHN)上公布了读取街道号码的方法,随后暑期实习生 Ian Goodfellow(现为 Google 员工)进行了运用。这个工作不仅是出于对学术的兴趣,而且也是使 Google 地图更为精确的关键。如今得益于这个系统,超过三分之一的全球地址已经在 Google 地图上有了自己的位置。在一些国家,如巴西,这个算法增加了超过 90% 的 Google 地图地址,大大提高了 Google 地图的可用性。

下一步是将这些技术扩展到街道名称。为了解决这个问题,Google 创建和发布了法国街道名称标誌(French Street Name Signs,FSNS),有超过 100 万的街道名称训练数据集,旨在提高人们对 OCR 模型在实际使用情况下的认识。FSNS 是 Google 经过多年的努力而构建的,它比 SVHN 数据集更加庞大,也更具挑战性,因为如果要準确识别某个街道标识,可能需要对各个角度所拍摄的图片进行整合处理。

Google 地图重大升级:套用 AI 深度学习,招牌、街道

上图是识别起来很有难度的一些标识,也被 Google 系统通过对图像的理解而正确判断了。尤其是第二个,不过这个模型在之前学习了语言模型,使其能够消除歧义,并正确识别出街道名。值得一提的是,在 FSNS 数据集中,同一路标在少于四个独立视图的情况下会以增加随机噪声的方式。

Google 实习生 Zbigniew Wojnazai 在 2016 年夏天用这个数据集开发了一个深度学习模型,它能够自动标注新的街景视图。这个新模型的一个优点是,它可以根据日常的命名习惯进行文本规範。

Google 地图重大升级:套用 AI 深度学习,招牌、街道

 

上图的例子中,可以将”AV.” 转化为”Avenida”,”PRES.” 转化为“Presidente”这是我们期望看到的结果

Google 地图重大升级:套用 AI 深度学习,招牌、街道

在这个图中,模型没有被图中的两个街道名称迷惑,将”Av” 正确转化为”Avenue”, 同时也识别出了数字”1600″

儘管这个模型非常精确,它依然有 15.8% 的序列错误率。不过,在分析错误样本后,团队发现,其中 48% 是由于地面实况错误,也就是说,模型与标记质量呈现的準确度基本一致。(在我们的论文中有详细的错误率分析)

这个新系统结合了提取街道号码技术,使我们能够直接从图像创建新的地址。现在,每当一辆街景车在新建的道路上行驶时,我们的系统可以捕捉上千万张图像,提取街道名称和数字,并自动在 Google 地图上创建和定位新地址。

但自动为 Google 地图创建地址是不够的。此外,我们还希望能够为商业提供导航。在 2015,我们发表了「从街景图像中进行大规模的商业发现」(Large Scale Business Discovery from Street View Imagery)一文,文中提出了一种方法可以準确地检测商店外墙的标誌。然而,检测到商店外墙,仍然需要準确地提取它的有用名称。模型必须找出哪个文本是商户名称,哪些文本是不相关的。Google 称这种提取为「结构化文本」讯息的提取。它不只是文字,而是具有语义意义的文本。

使用不同的训练数据,我们用来读取街道名称的模型结构也可以用来準确地提取商业名称。在这种特殊情况下,如果我们已经知道这个商户在 Google 地图的位置,可以只提取商业名称来进行验证,使之能够更準确地更新商业列表。

Google 地图重大升级:套用 AI 深度学习,招牌、街道

 

如上图所示,虽然没有从图片中获得任何有关真实地址的信息,但係统还是正确识别出了商户的名字 Zelina Pneus,而且没有被旁边的轮胎品牌所骗。

模型需要处理 800 多亿个街景图像,需要强大的计算能力。这就是为什幺 Google 地面实况团队採用 TPU,可以大幅减少我们的推理计算成本。

人们依赖于 Google 地图的精準性来协助他们工作和生活。同时,在景观、道路和商业不断变化的情况下,Google 地图的更新所面临的技术挑战,远远还没有解决。为超过十亿的 Google 地图用户创造更好的用户体验,一直是 Google 地面实况团队追求的目标。

——