不过在面对电影场景中一些棘手的片段或某些拍摄机视角时,该模型还是略显吃力。例如,远景或广角的接吻镜头会使算法产生混淆,因为此类视频片段中包含了太多背景画面。此外,一些快节奏的视频片段和不同时包含两个演员的镜头对模型来讲也都是极大的挑战。
电影《Titanic》中Jack和Rose在邮轮甲板上拥吻图片
深度学习是一个“黑盒子”,我们很难弄清楚深度学习模型实现预测时所使用的的具体数据模式。为了尝试理解AI的逻辑,人们通常采用的一种方法是使用显著地形图来可视化分析过程中受到AI关注最多的数据。在好莱坞影片识别接吻场景的项目中,深度学习模型似乎更加关注与演员面部相关的图像像素点。
Ziai表示,即使是在少量有限的实验中也可以看出,人工智能更依赖视觉特征而不是音频特征来识别接吻场景。他发现“精心挑选的数据集”对于训练接吻检测系统有很大帮助,这类数据可以让该系统利用更多的上下文信息来检测接吻,而不仅仅是通过静态图像。
AI“kiss”之原理
AI模型是如何习得这种能力呢?
和初吻尚在的人类学习基本亲吻知识的途径一样,AI模型基于已经成熟的深度学习算法,观看各式各样的好莱坞明星上演的浪漫拥吻片段,通过这种大量的训练来识别影片中人物的面部表情和定位嘴唇,数据科学家说明了AI系统如何能够更深入地了解最亲密的人类活动的原理。
让AI识别kiss有什么用?
早在2019年4月,谷歌宣布其智能手机Pixel已更新其Photobooth功能,这项功能可以在你面部表情发生变化的时候自动拍照,比如说微笑、亲吻、嘟嘴、伸舌头等等,该功能可是使智能手机从手机拍摄的视频中识别出接吻画面。
具体来说,当你按下Photobooth功能的拍摄按键之后,手机的AI就会自动分析你的脸部表情。根据不同状态,手机会自动判定「最佳时刻」,并将这一刻记录下来。同样,Ziai研发的应用端视频接吻识别技术使我们看到了视频内容自动分类,用户个性化视频推荐,甚至视频在线内容审核的未来。
Pixel手机Photobooth功能拍摄的静态图片
OpenAI的策略和传播主管Jack Clark在他的文章《Import AI newsletter》中重点强调了这项研究的意义:“现代计算机视觉技术已经使得开发特定的'感知和响应类'软件变得相当容易,诸如识别定性或非结构化的东西,识别电影中的接吻场景就是一个极佳的例子,但此类AI对个人软件的应用能力明显被低估。”
AI“kiss”之未来
好莱坞影片数据集和计算资源由斯坦福大学计算机科学助理教授Kayvon Fatahalian的实验室提供。
目前,这个用100部好莱坞影片(如《安娜·卡列尼娜》(1935),《人鬼情未了》(1990)和《007:大战皇家赌场》(2006)等)训练的AI模型在面对更大规模的影片时性能尚不清楚。但Ziai表示,在经超过80个影片进行训练后,该模型只看到了“边际改善”。
另一个值得关注的问题是这种AI模型在检测来自社交媒体的不同类型接吻场景视频时否能达到相似的准确度。这是个极大的挑战,可能需要模型对更多的视频数据集进行额外训练,而且训练集中不能仅包含那些出现在电影银幕上诸如Patrick Swayze和Demi Moore的好莱坞明星。尽管如此,从一些非常初步的测试中能看出,这种基于AI的接吻测技术会有很好的的应用前景。
“未来研究将尽量使用更多样化的数据集,以确保模型不会对于某种类型的电影过拟合,”Ziai说道,“不过有趣的是,该模型在我所选的YouTube视频上性能表现得相当好。”