让 Deepfake 越来越逼真的一个核心技术是 GAN(Generative Adversarial Network),也就是生成对抗网络。它的原理类似左右手互博 —— 生成器生成假视频,鉴别器用以鉴别真伪,以此不断提高造假的质量。
正因如此,检测 Deepfake 的方法很容易被超越。比如在 2018 年,就有研究通过人物的眨眼是否自然来判断视频的真伪。但是很快,这个特征就被下一代的 Deepfake 纳入训练内容,制造出眨眼自然的人物。
类似的检测思路还有人物的微表情:比如特朗普会如何撅起嘴,或者别的政客如何挑起眉毛。这与眼睛的动态一样,经过模型的优化后,不难被机器模仿。
眼动和脸部微表情的检测思路,主要是从已经生成的内容出发,试图寻找哪里可能有破绽;那有没有生成器无法捕捉和实现的特征?也就是,自然界中,是否存在某些难以模仿的信息?
由此思路出发,美国汉宾顿大学教授尹立军和他的学生将生物信号 PPG 引入 Deepfake 检测技术。那么利用生物信号来检测 Deepfake,有什么特殊性?
新检测方式:生物信号
尹立军告诉 DeepTech,PPG 信号已经应用在远程医疗等领域,即通过视频信号读取出一个人的心率数据。PPG 叫做光体积变化描记法,其原理是,脉搏的压缩和扩张,会带来血红蛋白与氧气有规律的结合,由此会带来全身血管的明暗变化。
这一细微的变化,远超出人眼的捕捉能力,但是却可以通过分析视频像素获得。将这一指标运用在 Deepfake 检测中,就是去检测视频中人物心率的时空一致性。
“因为你是一个人,从你身上拿一部分,或者是从脖子上拿一块,PPG 信号应该是一致的。” 但是这对于目前 Deepfake 伪造出来的人物形象来说,就很困难。
图| 选取脸的关键部位进行特征分析(来源:论文)
就具体检测方式而言,空间上,可选取人物脸部不同的区域,以分析其信号的一致性;时间上,可通过在一秒视频中抓取至少 30 帧,看每一帧预测出来的心跳频率是否一致。“如果是真人,至少 5 秒钟之内的心率应该是一致的。”
基于这一方法,研究人员在已有的数据集和包含了网上 “野生” 视频的数据集上进行测试,均实现了 90% 以上的辨别率。
在此基础上,尹立军和学生进行第二项研究,可以将假视频进行溯源。即分析出 Deepfake 视频的生成模型。
这是由于在 Deepfake 视频中人物的心跳是假的,通过假心跳信息,能够分析出残差的特征。残差是模型预估值与实际值之间的偏差。通过残差信息,就能够追溯到原始模型。
图| 不同的生成模型能够分析出不同类型的残差(来源:论文)
目前,这一方法能够分辨出四种 Deepfake 的生成模型(Deepfakes、Face2Face、FaceSWap、NeuralTex)。
无独有偶,另外一个华人科学家团队也开发出了采用 PPG 信号检测 Deepfake 的模型。日本九州大学的马雷教授以及新加坡南洋理工大学的郭青等人开发出了 DeepRhythm。
DeepRhythm 采用双时空 Attention 来检测人脸的动态变化和伪造类型。郭青告诉 DeepTech,这里面有两个双重的 Attention,即注意力机制。实现检测需要将人的生物信号提取并且放大,这部分工作难点在于,视频是在某些帧上进行窜改的,而不同帧的窜改效果不一致。
他们想抓住那些做得不够好的区域,这里采用到了第一个双重的 Attention,一方面是人为指定某些重要区域,二是通过网络自身学习得到一些区域。
另外一个双重 Attention 则是针对视频时间上的特征,一是通过神经网络学习,让模型抓取被篡改的视频片段,二是考虑到某些视频质量受损,缺少一些帧,由此丢失连续信息,在这种情况下,他们引入了 Frame-level Temporal Attention,依靠某些关键帧来作为补充信息。
图| 两个双重注意力机制(来源:论文)
生物信号检测会失效吗?
既然 GAN 如此强大,是否有一天基于 PPG 生物信号的检测也会失效呢?答案是肯定的。但是对于目前的伪造技术来说,想要模仿出这样的生物信号并不容易。
这是由于,目前生成网络的可控性还比较差。当增加微观的生物信号时,可能会导致视觉质量的下降。也就是说,目前的技术,还不能对每个视觉属性进行独立操作。
因此生物信号检测是一个值得关注的方向。当未来的伪造技术发展更好的时候,视频的分辨率更高,人脸的细节特征就会更多地体现出来,这时候生物信号或许能发挥更大的作用。
尹立军则向 DeepTech 表示,生物信号是内在特征在脸部的显现,无论需检测的数据来自何处,这个内在信号都存在,因此这个信号更可靠。这一检测方式也就相对更有前景。
-End-