智能手机的音频变焦技术到底是什么?

想象一下自己身处拥挤的聚会中,人声鼎沸、杯觥交错,突然间,有一、两句的言谈里好像提到了您的名字,让您禁不住侧耳细听远方的谈话。那交谈的两个人与您相距数米,不过,当您将注意力集中在他们身上时,他们的对话似乎变得更容易理解、更清晰、甚至更大声,而其他的杂音则奇妙地消失了。

我们的大脑能在注意力集中于某种确切的听觉元素时,同时过滤掉其他所有的声音,这种现象称为「鸡尾酒会效应」。

就心理声学的研究方面来说,我们大脑所具备的这种能力即称为「鸡尾酒会效应」。而如此实用的能力终究被智能手机行业所仿效,运用在我们触手可及的手机上,正式称为「音频变焦技术」。三星对此功能的描述如下:「通过远距焦点收音功能,您可在录制视频时,以屏幕上的缩放图标来控制录制的音量;当放大时,所录制的声音就会变大,缩小时,周围的声音不会再被摒除掉。」

随着三星的脚步,苹果也为其最新的机种iPhone 11 Pro配备了这项技术。不过,并非只有iPhone 11 Pro和Galaxy Note 10 + / 20 Ultra具备音频变焦技术,第一款采用这项技术的手机可追溯到2013年的LG G2,接着是2017年的HTC H11;诺基亚的Audio Zoom音频变焦技术则应用在全新的Oppo Find X2和X2 Pro;而最近新发布的华为P40系列以及OnePlus 8 Pro也拥有音频变焦技术。

「音频聚焦技术能选定所录制声音的方向,同时降低其他方向所传入的声音。当此技术能更有效的运用(像是能一并控制视频摄像头的视觉变焦),其所呈现的效果就称为音频变焦技术。」诺基亚的Audio Zoom音频变焦技术如此描述。

音频变焦的主要技术为波束成形或空间滤波。它能变更音频录制的方向(也就是说,它可感测声源的方向)并依所需加以调整。在这种情况下,最佳方向为超心形指向性(如下图),可增强从前方(即相机直接正对的方向)所发出的声音,同时也可减弱来自其他方向的声音(背景噪音)。

这项技术的立基点是必须尽可能地设置全向性麦克风:麦克风越多、距离越远,越能录制到声音。当手机配置两个麦克风时,通常会置放在顶部和底部,好让彼此间的距离最大;而麦克风所收录到的信号,会以最佳的组合来构成超心形指向性。

左图是典型的音频录制;右图的音频变焦具有超心形指向性, 更能感测到目标音源并降低背景噪音。

此高指向性的结果是使用非定向接收器来获取,通过在手机各个位置上的每组个别麦克风设置不同的增益,然后将锋波的相位相加,以增强所需的声音,并破坏侧波,以减低离轴干扰。

至少,理论上是如此。实际上,智能手机中的波束成形本身就存在一些问题。一方面,手机不能使用大型录音室所具备的电容式麦克风技术,而必须运用驻极体换能器 — 一种只需很少的功率即可发挥作用的MEMS(微机电系统)微型麦克风。再者,为了优化清晰度并控制空间滤波所出现的特征频谱和时域音损(例如失真、低音损失,以及整体声音有严重的相位干涉声/鼻音),智能手机制造商不仅必须谨慎地考虑麦克风的位置,也必须仰赖自己独特的声音组合功效,像是均衡器、语音侦测与噪声门(它们本身可能就会造成听得见的音损)。

所以就逻辑上而言,每家制造商都有结合专有技术的独家波束成形方法。也就是说,每种不同的波束成形技术都具有其长处,从语音去混响到降噪。不过,波束成形算法很容易会将所收录音频中的风噪声放大,而且并非所有人都能够或想要使用额外的防风罩来保护MEMS。而为什么智能手机内的麦克风不多做些处理呢?因为,那会损害到麦克风的频率响应和灵敏度,因此,制造商倾向于依靠软件来降低噪音和减少风噪声。

此外,无法在实验室条件下模拟出自然声学环境中真实风噪声的问题,迄今仍然没有好的技术解决方案足以应付。因此,制造商必须根据所录制音频的评估结果,开发出独到的数码防风技术(无论产品的工业设计局限性如何,均可应用)。在下面的视频中,您可以听到诺基亚的OZO  Audio Zoom在其防风技术的辅助下所录制的声音。

诺基亚OZO Audio Zoom 加上防风技术所录制的视频

如同消除噪音和许多其他受欢迎的技术一样,波束成形最初也是为了军事目的而开发。在第二次世界大战时,相控发射器阵列被当作为雷达天线,而如今已应用在医学成像乃至于音乐庆典的各种用途中。至于相控麦克风阵列,则是由7 0年代的 John Billingsley(不,不是在《星际旅行:进取号》中饰演伏拉士医生的那位演员)和 Roger Kinns 所发明。尽管过去十年,此技术应用在智能手机中的成效未见显著改进,不过,由于有的手种具超大尺寸、有的装设多组麦克风,有的甚至搭载功能更强大的芯片组,让智能手机本身更上层楼,使得音频变焦技术能更加有效的运用于各种音频上。

在N. van Wijngaarden和E. H. Wouters的论文「通过使用智能手机进行波束成形来增强声音」中阐述着:「脑海中浮现,监控国家(或公司)可能会使用特定的波束成形技术来窥探所有的居民。但是,对于大规模监控的程度来说,智能手机的波束成形系统能造成多大的影响?[…] 理论上,如果技术变得更加成熟,它可能会成为监控国家军火库中的武器,但距离那一步仍然遥远。智能手机上特定的波束成形技术依旧是个相对未知的领域,而缺乏静音技术、不明显的同步选项都降低了秘密监听的可能性。」

「脑海中浮现,监控国家(或公司)可能会使用特定的波束成形技术来窥探所有的居民。」
因此,至少到目前为止,对于我们的隐私来说,这是个好消息。在智能手机成为声音监控的武器之前,您可以在以下我们使用三星的Galaxy S20 Ultra所录制的视频中,亲眼看看、亲耳听听音频变焦的声音。在所有用例中呈现出最佳的质量,仍然是最大的挑战。
音频变焦测试