(资料图片仅供参考)
上个月,谷歌推出了Multisearch,这是对谷歌搜索工具和应用程序的更新,用户可以通过拍摄照片来获得答案。该功能的工作原理是根据您向搜索引擎提供的图像和短语推荐类似的产品 - 例如:“我可以用绿色购买吗?”后跟帽子照片。
假设您刚刚观看完了Facebook上弹出的五分钟工艺品或预算蛋糕装饰视频之一,并且您很想在朋友的生日那天获得便宜的东西。
这个想法是,Multisearch将根据您提供的图像,从Google服务的数百万零售商以及您周围的本地企业中找到您所需要的东西。观看主题演讲视频(在新选项卡中打开)下面提供了有关多搜索和未来更新将如何工作的完整详细信息。
Google的技术和多模式理解可以识别您使用的图像的视觉复杂性,并将其与意图相结合。然后,该工具会扫描数百万张图片、评论和更新,并借助地图贡献者的帮助,查找附近餐饮场所和零售商位置的结果。
目前,这项技术只能识别在单个帧内捕获的物体,尽管显然在某些情况下,我们需要有关我们面前整个场景的信息 - 例如药房货架。
谷歌正在向多搜索(Scene Exploration)推进,用户可以平移摄像头,提出问题,并立即获得有关更广泛场景中多个对象的见解。
这种创新工具的应用是无限的,可以帮助一切,从日常用途,如购物清单,寻找少数族裔拥有的产品来支持,探索博物馆或美术馆,摄影地点侦察,协助环保主义者识别濒临灭绝的植物物种,并帮助救灾人员快速筛选他们收到的捐款。
在场景探索模式下使用智能手机摄像头时,有用的见解将叠加在您面前,并且在平移商店货架时,标签将悬停在特定对象或产品上,以识别它是否不含麸质和乳制品或包含任何坚果。
场景探索通过使用计算机视觉来操作,以即时连接构成您正在捕获的场景的多个帧,并识别其中的所有对象。然后,使用Google的知识图谱,该软件将根据您在使用智能手机摄像头扫描时询问的关键字或问题显示最有用的结果。