第一句子大全,网罗天下好句子,好文章尽在本站!

没破绽!斯坦福新AI:输入文本改变视频人物对白 逼真到作者害怕

时间:2009-11-09

斯坦福和普林斯顿大学等最新研究:给定任意文本,就能随意改变一段视频里人物说的话

友情提示:本文共有 3670 个字,阅读大概需要 8 分钟。

栗子 安妮 发自 凹非寺量子位 出品 | 公众号 QbitAI

细思极恐的事情还是来了。

斯坦福和普林斯顿大学等最新研究:给定任意文本,就能随意改变一段视频里人物说的话。

并且,改动关键词后人物口型还能对得奇准无比,丝毫看不出篡改的痕迹,就像下面这样:

苹果今日收盘价91块4,改成82块2你也看不出来。

让新垣结衣向你表白,让石原里美大声喊出你的名字,甚至随便根据某个人的视频伪造个人陈述……现在都不在话下。

手握这项技术,在视频里让你怎么说你就怎么说,让你说什么你就得说什么,谁也看不出来这是假的。

有视频有真相?现在已经彻底过去了。

可能因为技术过于强大真是,研究人员还在项目主页上特意声明,这项技术一旦被滥用会造成可怕的后果,公布技术只是用于向公众科普,还呼吁相关部门建立相关法律……

这项研究的论文中选了计算机图形学顶会SIGGRAPH 2019。

来看全部效果展示↓↓↓

天衣无缝P视频

这个技术可以完成对视频多种类型的篡改。

(视频只能上传一个,更多视频请前往微信公众号量子位)

功能1:改变人物台词

改变视频里的关键词,用假信息替换真内容,后果不要太可怕。

开头展示的视频就是改动后的效果。

功能2:改变人物嗓音

就算用合成的嗓音改造视频主角,也可以把人物口型调的宛如原生。

功能3:随意删除信息

即使你删掉视频中的部分关键词,也可以保持语音和图像的连贯。

有些话你说了么?你觉得说了,但看起来就是没说~

功能4:扩充视频背景

AI将视频里没有拍到的内容进行补充,窥一斑而见全豹:

功能5:连贯视频

此外,这项技术还能把磕磕巴巴的演讲/对话等视频,拆开后重新拼接,变成流畅画面。

结巴的救星、镜头恐惧患者的福音就是它了。

研究人员进行了不同维度的测评,发现这项技术的效果在同类产品中领先了不少。

将此方法与深度视频人像(Deep Video Portraits,DVP)方法输出的人物渲染图像相比,新技术终于看起来不那么诡异了。

比如牙齿的合成效果:

比如衣服细节的合成效果:

与传统删除视频场景的MorphCut技术对比,MorphCut在第2、3、4帧的场景删除任务中失败了,而新技术可以成功切除:

与Face2Face的面部改造技术相比,新技术避免了画面中出现的“鬼影”,合成画面也更加高清、稳定。

最后,研究人员还邀请了138位志愿者,来评估这种方法的真实性如何。

这些志愿者去判别“这个视频是不是真实”,如果同意真实则给5分,完全确信是假的就给1分,结果显示,这项技术在很多时候,已经让丧失了对视频真假的准确判断。

AI对口型

自动合成某个人的语音,已经有许多算法可以做到。这里,团队使用了原本视频主角的录音,而在不需要原声的部分,用了Mac自带的语音合成工具。暂不赘述。

这项研究最闪亮的部分,是流畅自然的“对口型”。

左手拿着视频,右手拿着文本,团队使用了五步法:

第一步:视频和文本要对齐

这里需要的是非常细致的对齐,精确到音位 (Phoneme) 。

音位是什么?那是人类语言里能够区分语义的最小声音单位,分成元音和辅音。

找到特定的元音辅音,就能组成你要的单词,或者句子。

每种音位,又有各自对应的口型。所以在对口型任务里,视频和文本之间的精准对齐很有必要。

团队用的对齐工具叫P2FA:除了分辨出各种音位,还会把每个音位开始和停止的时间标记出来。

当然,如果手头数据只有视频没有文本的话,也可以用自动语音转录工具来生成文本,这类应用已经很常见了。

第二步:3D人脸追踪和重构

要为视频的每一帧,注册一个3D参数人脸模型 (3D Parametric Face Model) 。

模型里的各种参数,会在后面的步骤中混合 (Blending) ,发生奇妙的反应:

比如,用某一帧的面部表情,搭配另一帧的头部姿势/朝向,组成新的一帧。

为了获得3D参数模型,团队从前辈的研究里借鉴了单目的、基于模型的人脸重构算法 (Monocular Model-Based Face Reconstruction) 。

这类算法,可以把头部姿势参数化,把脸部几何参数化,还有脸部的反射率、表情,以及场景中的光线,都可以参数化。

于是,视频的每一帧都获得了257个参数的向量。

第三步:唇形搜索

刚才的精细对齐,现在派上用场了。

就像上文提到的,每种音位对应了各自的唇形。但不同音位也可以有相似的唇形,可以通用。

比如,想把蜘蛛 (Spider) 改成狐狸 (Fox) ,原本需要“f”的唇形和“ox”的唇形。

不过,“v”和“f”从视觉上看并没有太大差别。如果,视频里讲过毒蛇 (Viper) ,只要把“v”的唇形提取出来,和“ox”的唇形拼到一起,也能组成“fox”的动作。

根据文本,可以从视频里面,把需要拼接的片段,从视频里面抽出来。

第四步:重新定时,参数混合

可四下提取出来的片段,还不能直接拼到一起。有两个重要的问题需要解决:

一是,音位视频里提取的音位,可能动作满足要求,但时长就不一定跟新台词吻合了。

二是,两个需要连在一起的片段,可能在原始视频里相距很远,说话人头部的位置、姿势都会发生变化,直接拼起来就会不连贯了 (下图右) 。

想生成连贯自然的视频,前面做好的3D人脸参数模型,就是这里的大招:

把头部姿势、面部表情、反射率、场景光线等等参数,都放在一个参数空间里面去混合 (Blend) 。

这个过程,包括给各个片段重新设定时长,也包括把头部动作变连贯。

除此之外,为了避免摄像头移位带来的背景变化,还需要选择一个背景序列。

这样,一个流畅的背景视频就做好了。

之所以叫“背景视频”,是因为在这个步骤里,嘴部动作被提前抠掉了,所以还有下一步。

第五步,脸部渲染

最后一步,训练一个循环网络 (RNN) 作为GAN的生成器,加上一个时间空间判别器:

让GAN把嘴部动作 (下半张脸) 和背景视频,无缝混合到一起。

到这里,跟着新台词对口型的视频,就愉快地生成了。

作者介绍

这篇研究的作者共有10人,都带着闪闪发光的履历。

他们来自较为知名的机构,包括斯坦福大学的Ohad Fried、Michael Zollhfer、Maneesh Agrawala,普林斯顿大学的dam Finkelstein、Kyle Genova,马克斯·普朗克信息学研究所的Ayush Tewari、 Christian Theobalt和Adobe的Eli Shechtman、Zeyu Jin,此外还有DAN B GOLDMAN。

一作Ohad Fried为现在为斯坦福大学的博士后,与印度裔教授Maneesh Agrawala合作,主要研究计算机图形学、计算机视觉和人机交互。

Fried小哥本科和研究生毕业于希伯来大学,博士去普林斯顿进行深造,随后在谷歌、Adobe等实习过。

二作Ayush Tewari目前是马克斯·普朗克信息学研究所博士三年级在读,此前有多篇论文被顶会收录,包括一篇ECCV 18、两篇CVPR 18和一篇ICCV 17。

作者团队中还有一位华裔成员,是来自Adobe的研究科学家ZEYU JIN。

ZEYU JIN的个人主页显示, ZEYU主要研究方向是语音和音乐合成,视频中用到的音频处理软件Adobe Project VoCo就是ZEYU主导的项目。

技术“太吓人”

最后,在这个项目的主页地址,里面还有研究人员的专门声明:

这个基于文本的视频编辑方法,为更好的电影后期编辑打下了基础。原本,电影里的对话要重新定时或者修改,需要繁琐的手动工作。但现在AI可以依靠文本,更好地调整视频里的图像和音频。除了影视作品,技术也可以用于教学视频,或者给儿童讲故事的应用。但这种技术,也有被滥用的隐患。行为不良的人可能用这样的方法来来伪造个人陈述,诽谤知名人士。所以,视频中要有明显证据表明它是合成的,这一点至关重要。比如在视频里直接陈述,或者加入水印标明这一点。并且,技术社区应该继续发开发识别假视频的技术,在减少滥用的同时,为有创造性的合法使用提供空间。最后,我们认为有必要进行强有力的公开讨论,建立适当的法规,平衡这类工具的滥用风险与创造力的重要性。

他们强调,这项技术一旦被滥用会造成可怕的后果。

到底多可怕?不光颠覆一行一业,也对现有的伦理和法律提出新挑战,随便举几例:

在deepfake刚刚兴起的时候,就有不少人评论称,娱乐行业,靠脸吃饭的流量小生,使用好这项技术,结合换脸AI deepfake和语音合成,真的就能靠脸吃饭。

台词功力?表情演技?都不重要,甚至有个替身方便换脸就好。

现在,利用这一技术篡改的人物口型几乎一般人难辨真假,如果有人借新闻主播之口制造一段假新闻,就可能引起大众的恐慌。

在安防监控领域,视频里的人说了什么、做了什么,真的就可信吗?这项技术可怖不在于让视频中的人和事“从有变无”,而是有能力“无中生有”。

AI技术进展太快,现有伦理道德和法律法规,是时候重新考量了。

你说呢?

最后,附上论文Text-based Editing of Talking-head Video地址:

链接因政策隐去,Arxiv号码为1906.01524

— 完 —

本文如果对你有帮助,请点赞收藏《没破绽!斯坦福新AI:输入文本改变视频人物对白 逼真到作者害怕》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
怎样生成语言才能更自然 斯坦福提出超越Perplexity的评估新方法

怎样生成语言才能更自然 斯坦福提出超越Perplexity的评估新方法

...结合人类和统计评估的新架构。怎样度量生成的语言生成文本是很多 NLP 任务的核心,但如何恰当地评估生成语言的「自然性」是很有难度的。好的评估指标应该不仅能捕捉到生成结果的质量,还能考虑到生成结果的多样性,这...

2023-06-06 #经典句子

除基于身份特点的对白语句 一些有技巧的对白创造出一种透明度

除基于身份特点的对白语句 一些有技巧的对白创造出一种透明度

...语句,一些有技巧的对白创造出一种透明度。角色的语言文本将她的内心世界隐藏起来,不让其他角色知道,但能让读者/观众穿透他行为的表面看懂,而言行所溢出的情绪、情感内容都直指人物的心理。此时的言语对白实际上...

2023-01-23 #经典句子

《斯坦福大学写作课》:配得上诺贝尔文学奖的大师教你写作心法

《斯坦福大学写作课》:配得上诺贝尔文学奖的大师教你写作心法

...当使人身临其境,合乎事实与日常的观察。如果你笔下的人物跟任何一个在世或者过世的真实的人没有一点相似性,这个人物会非常没有说服力。我们都知道,蒲松龄在《聊斋志异》中为我们描绘了一个想象奇特的鬼怪世界。他...

2007-05-14 #经典句子

她毕业于清华大学“姚班” 斯坦福博士毕业 毕业论文火了!

她毕业于清华大学“姚班” 斯坦福博士毕业 毕业论文火了!

...的毕业论文究竟说了什么。摘要教机器学会理解人类语言文本是人工智能领域最困难的长期挑战之一。本论文致力于解决阅读理解问题,即如何构建一个计算机系统来阅读一段文本并回答理解问题。一方面,我们认为阅读理解是...

2023-06-01 #经典句子

爱因斯坦生前留下一句话 让后人不断猜疑 到底发现了什么?

爱因斯坦生前留下一句话 让后人不断猜疑 到底发现了什么?

...如说当时的牛顿,爱因斯坦等等一些伟大的科学家,这些人物都是给社会做出了很多的贡献,那么今天小编主要来给大家介绍的这一个人物就是爱因斯坦,我们对这一个人物也是非常的了解,而他的一生也是做出了很大的贡献,...

2023-11-15 #经典句子

斯坦福大学学霸提分秘籍:要对英语写作树立信心 成绩遥遥领先

斯坦福大学学霸提分秘籍:要对英语写作树立信心 成绩遥遥领先

...地产生抵触情绪。实在不得不写的时候,他便会在英语作文本上胡乱“摘抄”几段;考试的时候,他就绞尽脑汁写上几段,全然没有什么章法于是日子便在这种“糊弄”中渐行渐远,直到我们的中学时代快要结束时,他オ发现自己的英语...

2023-08-28 #经典句子

汉语拼音之父周有光传奇人生 爱因斯坦一席话点醒他 能否唤醒你

汉语拼音之父周有光传奇人生 爱因斯坦一席话点醒他 能否唤醒你

...于业余。是否有拨开云雾见天明,醍醐灌顶之感呢?今天人物传记的主人公周有光,中国著名语言学家,汉语拼音之父,享年112岁。出生于江苏常州,从小爱好阅读。曰:"三日不读书,寡淡; 七日不读书,食之无味。"高中就读...

2023-12-19 #经典句子

爱因斯坦的这句话 给人留下疑惑 我们无需太多挣扎

爱因斯坦的这句话 给人留下疑惑 我们无需太多挣扎

...真理的窥探者,被美国时代周刊杂志评为20世纪世纪风云人物。他是一个孤独的人,他的科学或者说哲学已经达到了形而上的前沿,为世界留下了很多巨大的科学财富。但是他的一句话却留给人们很多疑惑,这句话就是“一切都...

2023-11-15 #经典句子