人工智能观看100部电影学习如何识别接吻 | 智能文娱

发布日期:2019-07-19 10:00
Netflix的一位资深数据科学家训练人工智能来检测电影中的接吻场景。



Patrick Swayze和Demi Moore在1990年的电影“幽灵”中亲吻,这是一部数据科学家用来训练AI发现一个吻的100部电影之一。

就像一个从未被亲吻过的人一样,人工智能开始通过狂热观看浪漫电影剪辑来了解基本知识,看看好莱坞明星如何锁定嘴唇。通过训练已经证明熟练识别面部和物体的深度学习算法,以识别由专业演员戏剧化的热情接吻场景,数据科学家已经展示了AI系统如何能够更深入地了解最亲密的人类活动。

基于人工智能的吻探测研究来自 Netflix的高级数据科学家Amir Ziai,他正在完成课程,以获得斯坦福大学的AI研究生证书。Ziai从过去一个世纪的好莱坞电影数据库中挑选了100部电影的代表性样本。然后他手动将不同的电影片段标记为接吻或非接吻场景,并使用来自这些片段的静止帧和声音片段来训练深度学习算法以检测暗杀的景象和声音。

为了避免任何人得到错误的印象,目前还不清楚亲吻检测方法是否适用于超越接吻的更多性爱场景。 “在我的训练集中,我远离过度的性场景,以确保模特不会混淆接吻和性爱,”齐亚说。

Ziai目前的雇主Netflix没有参与斯坦福大学的研究,该研究在预印本服务器arXiv上发表的论文中有详细介绍。Ziai尚未调查此类技术在Netflix上的任何可能应用。但不难想象,Netflix或其他公司(如YouTube,Facebook,Instagram和TikTok)可能会感兴趣的商业应用可以处理大量流媒体或存储视频。

早在2019年4月,谷歌宣布其Pixel智能手机已经收到了Photobooth功能更新,允许手机在智能手机相机拍摄的单帧中检测到接吻时自动拍照。Ziai展示了与视频有关的吻检测技术,暗示未来的应用可以 自动分类视频内容,为观众创建个性化的视频推荐,甚至可能筛选某些视频作为在线内容审核的一部分。

“这是一个很好的例子,说明现代计算机视觉技术如何能够相当容易地开发特定的'感知和响应'软件,提示定性/非结构化的东西(如场景中的接吻),”杰克克拉克说,策略和OpenAI的传播主管,他的导入人工智能新闻通讯, 最近突出了亲吻检测研究。“我认为这是人工智能如何改变个人软件开发范围的最不充分的方面之一。”

当视觉识别接吻场景时,最成功的深度学习模型是ResNet-18,这是一种图像分类算法,已经对来自流行的ImageNet数据库的超过一百万张图像进行了预训练。为了听取接吻的声音,一个名为VGGish的深度学习模型训练了每个场景的一秒钟段的最后960毫秒的音频。 

这种双管齐下的训练AI来处理接吻的图像和音频的方法帮助整个模型获得了相当令人印象深刻的0.95的F1分数 - 这一度量表示算法关于误报和假阴性的准确度的加权平均值。

但是当它在一些电影场景中遇到更复杂的视频编辑和摄像机视角时,该模型仍然会有混淆。例如,演员接吻的广泛镜头有时会混淆算法,因为大部分相机镜框都是背景风景。快节奏的视频削减和拍摄, 一切具有挑战性。

总是很难弄清楚哪些特定数据模式导致深度学习模型进行预测。人类尝试理解AI逻辑的一种方法是使用显着性图来突出显示在分析过程中受到AI最多关注的数据。在好莱坞亲吻场景的情况下,深度学习模型似乎更加关注与演员面部相关的图像像素。 

Ziai说,一些“有限的实验”也表明人工智能更依赖视觉特征而不是音频来识别接吻场景。他观察到,吻探测系统可以从“更精心制作的数据集”中受益,并且可能利用更多的上下文信息而不仅仅是静止图像来检测接吻。 

目前还不清楚AI模型在100部好莱坞电影中的表现如何,如 Anna Karenina(1935), Ghost(1990)和 Casino Royale(2006)将在更大的电影数据集中发挥作用。但是,在培训数据集超过80个视频后,该模型只看到了“边际改善”,Ziai说。好莱坞电影数据集和一些计算资源 由斯坦福大学计算机科学助理教授Kayvon Fatahalian 实验室提供。

另一个问题是,这种AI模型在检测社交媒体上常见的视频类型中的吻场景时是否能够以相似的准确度执行。这一挑战可能需要对更大的视频数据集进行额外培训,其中的例子不仅仅是屏幕上的好莱坞情侣,如Patrick Swayze和Demi Moore。尽管如此,一些非常初步的测试表明,这种更广泛的AI驱动吻检测应用显示出了希望。

“ 这项研究的尝试是使用多样化的数据集,以便模型不会过度适应任何特定类型的电影,”Ziai说。“ 有趣的是,该模型似乎在我发现的一些YouTube视频上运行得相当好。”