Deepfake自问世以来,一路向着人性阴暗面奔去。
B站用户让蔡徐坤顶着六小龄童的面孔在偶像练习生C位出道。民间技术流已经能对着AI换脸教程玩的不亦乐乎。但每个人也更容易成为受害者:伪造绑架视频勒索诈骗,不雅视频毁坏名誉,或者恐怖视频制造混乱,都因为Deepfake的开源技术变得空前容易。
让一众名人换上布什的面部动作 图 TED
在PS摧毁了公众对图片的信任后,Deepfake正在摧毁公众对视频的信任。没有人想在互联网上看到自己的面孔说着自己没说过的话。许多针对个人的伤害,也因为影响不够巨大而投诉无门。
美国正在形成一支Deepfake打假队伍,不仅是高校实验室、研究中心在寻找Deepfake的破绽,一股创业潮流也正在兴起。
但这是一场造假AI与鉴假AI之间“你有张良计,我有过墙梯”的竞赛。每一篇检测Deepfake的论文,仿佛都能提示造假技术修补自身漏洞,从而更上一层楼。
关上Deepfake的潘多拉魔盒,他们能做到吗?
用打假Deepfake创业
Shiva Kintali离开担任讲师4年的普林斯顿计算机系,正在硅谷创业鉴别伪造视频。他告诉硅星人,他的合作对象有警察、记者、保险公司等,通过机器学习寻找伪造视频的破绽,用区块链记录信息等技术来辅助鉴别。
Kintali的网站已经可以上传图像、音频、视频,来分析检测是否有修改痕迹。他同时在开发一个手机相机应用,用人工智能为图像添加时间、地点水印,并将图片原始信息印在区块链上。一旦传播图像的信息与原始图片不符,就容易判断真伪。
这些产品希望帮助记者、媒体公司、政治竞选团体、执法机构,保险公司和大公司,在其平台上阻止虚假的视频、音频、照片传播。
由于Deepfake降低了视频造假的门槛。面对真伪难辨的影像资料,记者不知道能否发布,保险公司不知是应该理赔还是报警诈骗,警察收集证据后,也需要专业工具去鉴定图片和视频的真伪。
目前流传的假视频大多是“浅度造假”,但因为数量多,造成了无数困扰。斯坦福的研究人员向鉴别公司了解到困扰他们的三大问题:数量太多,可用鉴别时间太短,缺乏标准化的工具。
因此,研究者们在寻找能够大规模应用的打假方法。Facebook、Twitter等社交网络上爆炸式传播的图片和影像,给辟谣留下的时间窗口越来越短。普通福斯也不可能雇佣专业人士进行鉴别。
抢先商用化的图像验证平台Truepic已经上线了一款智能相机应用。用户拍下的图像将上传至服务器,在创建时对照片和视频进行身份验证,获得唯一编码。相机应用捕获设备的传感器数据,在传输之前加密照片或视频,运行20多个图像取证测试,并在几秒钟内,将图像的加密签名印在公共区块链上,使得信息不可被篡改。
这是一种“自证清白”的方式,适用于电子商务平台和公民记者类用户。如果用户将图片发送给接收者,Truepic允许收件人验证图像的原点和元数据的完整性。任何二次传播的多媒体材料,都可以与区块链上的原始信息对比,辨别真假。
在Deepfake的威胁下,鉴定图片、视频的真实性,都成了相机应用的卖点。但这类以营利为目的的产品又引起了用户新的隐私担忧。毕竟,谁能确保Truepic不作恶呢?
算法打算法
位于硅谷的SRI International AI中心则“以毒攻毒”,用伪造的视频训练算法,让算法能够更好识别出伪造痕迹。在人们上传视频到社交网站的时候,平台需要对视频重新编码。这是一个检测虚假视频的好时机。
但随着Deepfake的漏洞日渐优化,用算法打算法的难度也日益加大。
打假AI原本就是训练造假AI的一部分,二者刚好在生成对抗性网络的两端。一个生成器,一个鉴别器,道高一尺,魔高一丈。
由于Deepfake的技术在于篡改数据,那么鉴别方则在寻找一切篡改数据的痕迹。一种方法是基于像素的视频检测,视频其实是成千上万帧图片连放,细致到检测每个像素的改变痕迹,是一件颇为浩大工程。
此外,伪造的面部表情目前仍有缺陷。伪造的脸部表情往往与其他部分存在不一致,计算机算法可以检测图片或视频中的这种不一致。
UC Berkeley研究者比较真假人物的面部差异 图 UC Berkeley
举例而言,初代Deepfake视频中的人物,眨眼的方式都有点奇怪。
纽约州立大学奥尔巴尼分校计算机科学副教授Siwei Lyu曾撰文表示,成年人的眨眼间隔为2秒到10秒,一次眨眼需要十分之一到十分之四秒。这是正常视频人物应有的眨眼频率,但很多Deepfake视频的人物没能做到这一点。
彼时由于缺乏闭眼图像数据,算法的训练并不完美,视频人物面孔总有一种“哪里不对”的不和谐感。
然而,通过闭眼的面部图像、或使用视频序列进行训练,可以改善眨眼间隔。虚假视频的质量总会提高,而研究人员需要继续寻找检测它们漏洞的方法。
南加大的研究者Wael Abd-Almageed表示,社交网络可以使用算法来大规模识别Deepfake。为了实现这一过程的自动化,研究人员首先创建了一个神经网络,“学习”人类在说话时如何移动的重要特征。然后,研究人员使用这些参数将伪造视频的堆叠帧输入AI模型,以检测随时间的不一致性。
普渡大学的研究人员也采用了类似的方法,他们认为,随着训练模型的Deepfake视频数据量越来越大,模型也会更加精确,更容易检测出伪造的视频。
美国2020年大选在即,如何阻止Deepfake从低俗娱乐发展到操纵民意,是研究者们最迫切的动力之一。但愿一键打假的速度,能追上一键换脸的速度。