GoogleAI看了几万部电影,只为

编者按：本文来自“爱范儿”，作者：李超凡；36氪经授权发布。

上周，AlphaGo「终极版」AlphaGoZero再次让世人惊讶，自学3天完胜李世乭，40天登顶「世界围棋冠军」。

但这并不意味着人工智能有能力取代人类，套用机器人界的一句话：

五岁以上的人类能够做的事情，机器人都能轻松胜任，但学会走路，办不到。

简单来说，要AI识别人类的行为动作至今仍是一个难题，而四个月大的婴儿就能识别各种面部表情了。

Google正在让自家的AI克服这个难题，最近Google发布了新的人类动作数据库集体AVA（atomicvisualactions），可以精准标注视频中的多人动作，而其学习的对象则是YouTube的海量视频。

图自：YouTube

据GoogleResearchBlog介绍，AVA的分析样本主要是YouTube中的影视类视频。Google先从这些视频中收集大量不同的长序列内容，并从每个视频中截取15分钟，并将这些15分钟片段再平均分成个不重叠的3秒片段，同时在采样时让动作顺序和时间顺序保持一致。

3秒片段边界框标注示例，示例中只显示一个边界框

接下来则需要手动标记每个3秒片段中间帧边界框中的每个人，从80个原子动作（atomicaction）中选择合适的标签（包括行走、握手、拥抱等）给这些人物行为进行标注。

sit

watch

kiss

Google把这些行为分成了三组，分别是姿势／移动动作、人物交互和人际互动。目前AVA已经分析了个视频片段，标记了个人类动作，并生成了个动作标签。

AVA的数据分析，会对每个视频片段的每个人物动作进行识别，也发现了人类的的行为往往不是单一的。

统计至少带有两个动作标签的人物数据，就可以分析人类不同动作一起出现的频率，在AVA的文档中称之为共现模式（co-occurrencepattern）。

从AVA的数据可以看到，打架和武术、亲吻和拥抱、唱歌和弹奏乐器，这些都是比较常见的共现模式。

同时为了尽可能覆盖更大范围的人类行为，AVA所分析的电影或剧集，采用了不同国家和类型的影片，这也可能是为了避免出现性别歧视和种族歧视。早在年，GooglePhotos就曾因为误把两名黑人标注为「大猩猩」（Gorilla）而备受诟病。

图自：Twitter

Google还将对外开放这一数据库，最终目的是提高AI系统的「社交视觉智能」，从而了解人类正在做什么，甚至预测人类下一步要做什么。

当然目前距离这个目标还很遥远，正如Google软件工程师ChunhuiGu和DavidRoss在介绍AVA的文章中写道：

教会机器去识别视频中的人类行为是发展计算机视觉的一大基本难题，但这对于个人视频搜索和发现、体育分析和手势界面等应用至关重要。

尽管过去几年在图像分类和查找物体方面取得了令人激动的突破，但识别人类行为仍然是一个巨大的挑战。

虽然柯洁称「对于AlphaGo的自我进步来说人类太多余了」，可人脑有亿个神经元细胞、万亿个连接，AI神经网络要想达到大脑的认知水平也绝非易事。

目前计算机视觉技术的发展也主要集中在静态图像领域。

Google从年开始用深度学习算法代替人工识别，GooglePhotos现在已经可以识别出猫狗的照片并自动分类。

从a到b分别是GoogleCreatism系统从街景图到最终作品的全过程

Google的人工智能实验室DeepMind正在利用人工智能将Google街景图制作成专业的摄影作品，其水准甚至已经可以媲美专业摄影师。

图自：Motherboard

而iPhoneX上的FaceID技术，也许会让面部识别技术在智能手机上变得更为普及。就连全球最大的色情网站Pornhub，也宣布将引入人工智能技术对网站上成人影片的内容和表演者进行自主检测，让AI算法为成人影片的内容和演员进行标签分类。

图自：TheNewYorker

相比而言，计算机对于人类动态行为的识别则要困难得多。最近《纽约客》新一期的封面在美国社交媒体火了起来，封面文章《黑暗工厂：欢迎来到未来机器人帝国》（DarkFactory）描述了越来越多人类的工作逐渐被机器人取代。

虽然机器人能做的事越来越多，但在该文中也可以看到机器人对很多看起来简单的工作依然无能为力，比如打开一个盒子和解开一个结，美国布朗大学人机实验室的Winnie机器人前不久才刚刚学会了摘花瓣。

而Google这次的人类动作数据库集体AVA，目前最直接的作用可能就是帮助旗下的YouTube处理和审核每天上传的大量视频，同时也能更好地服务广告主。

过去Google就曾因为无法对视频内容精准识别而吃过大亏，《连线》杂志的一篇文章曾披露，Google在视频中植入广告的自动系统，将一些广告放置在了宣传仇恨和恐怖主义的视频旁边，已经让沃尔玛和百事可乐等大客户放弃了Google的广告平台。

对于90％收入来自广告业务的Google来说，这个问题当然不能怠慢，此前Google主要通过聘请一大群临时工去监测和标记各种视频内容，并以此作为AI的训练数据。

这样的做法除了需要高昂的人力成本，也有观点认为这些临时工不稳定的工作状态和与Google的缺乏沟通，将会影响到AI识别的精确度。

由此可见，如果Google这个AI的学习能力足够强，那不久的将来，这些临时工也将统统失业，而将来这项技术的应用当然也不局限于此。

随着AI对人类认知越来越深，对于人工智能伦理的讨论也许会变得更加激烈。