语音不在是人类的!
亚里士多德曾说,声音是灵魂的镜子。声音是人类独特的表达方式,它是我们身份的一部分。语调的抑扬顿挫可以流露出一个人的个性和情绪。
曾经只有人类才能说话。但是,时过境迁,在过去的20年里,合成语音发展神速,目前,合成语音已经成为数字技术和相关经济产业的重头戏了。合成语音是人机交互的基石,它赋予机器“形象”和“灵魂”,让机器具有“个性”。在不远的未来,从口袋里的手机开始,合成语音将变得无处不在,我们甚至可能无法区分合成语音和真人语音的差别。
语音不再是人类的。机器合成的语音已经可以和真人的相媲美了。
竞争
数字技术巨头谷歌、苹果、微软和亚马逊是合成语音领域的重量级选手,它们把大量资金投入了与合成语音相关的技术研发领域。我们的智能手机已经能够听懂语音指令,并用合成语音回应我们的问题了。
合成语音未来将会融入私人助理技术,也就是为我们服务,成为帮助我们控制家中联网设备的人工智能。它们总是能随时随地倾听我们的愿望、满足我们的需求。像谷歌助理I/O、苹果的Siri、微软的小娜(Cortana)和亚马逊的Alexa就是这样的例子。
在全世界范围内,有许多大学的实验室都在研究这个课题,例如英国剑桥大学、爱丁堡大学、美国的卡耐基梅隆大学、日本的奈良先端科学技术大学院大学。在这些的选手中,位于法国巴黎的声学、音乐研究和协作学院(简称Ircam)凭借对技术创新和文化艺术的独到融合,脱颖而出。这所学院的独到之处是已经将合成语音应用到了娱乐和内容生产(如音乐、电影和电子游戏)的多个领域中。
虽然数字领域的巨头和一些实验室一直对标准式合成语音的应用感到沾沾自喜,但是Ircam的研究人员却另辟蹊径,从80年代开始就致力于让合成语音更具真人的特征:他们让合成语音也具有声纹、语气、个性和表现力。
近10年里,Ircam的声音分析和合成团队也取得了重大突破。得益于该团队的研究,合成语音变得不再呆板机械,变得更加自然、更富有表现力。而撑起这个质的飞跃的,是信号处理、机器学习和语言学的一系列进步。
目前的语音分析和合成算法已实现升级,它们能够更加忠实地还原人的声纹。另外,我们对语音的韵律,以及它和句法之间的关系有了更深入的了解,这让合成语音变得更加自然。
,新近引入的机器学习,以及计算能力的快速提升都对相应技术的飞速发展起到了决定性的作用。目前,在语音数据库中,每个样本都存储着一个人数小时的录音,而一个数据库通常会储存着数以千计的样本,也就是数以千计的人声。正是由于这些积累,现在的机器已经能够像人一样开口说话了。
现在,有许多制片厂都在使用Ircam研发的软件。利用这些软件,人们能够定制语音的声纹、语气、身份和个性。比如,这些软件能够轻而易举地将男人的声音变成女人的,把年轻人的声音变得老态龙钟,或是将老人的声音变得年轻。
用这类软件也能把一个人的声音变成另一个人的。我们的计算机和智能手机就能通过这个软件合成生动自然、具有个性的语音,它们甚至能够帮我们朗读任何文本。
未来,我们还能让无法开口说话的人也发出声音,或者让机器模仿一个人的声音说外语。以后,我们就能像换发型一样随意变声,或者和拥有的嗓音的机器人自然流畅地交谈。
这些科技进步无疑会成为科技和商业竞争的,还有伦理讨论的焦点。而要实现这些进步,研究人员必须先理解人类语音的独特性,并做到善加利用。
雕刻语音
每个人的语音身份由两个要素构成:音色和韵律。要改变一个人的声音,就要对这两个要素进行建模,这样才能复制或者改变一个人的语音。2010年,Ircam的研究人员就研发了一款名为IrcamTools TRAX的软件,它就能实现这样的功能。
这款软件能够对录音或者话筒中的声音信号进行数字处理。在调低或者调高音高后,声音就会变得更低沉或更尖锐。它也能进行数字滤波,改变语音的音色。通过这款软件,使用者能够轻而易举地让声音变性,或者把中年人的声音变成少年或是老年人的。
实际上,由于具有不同的生理特征(身高、身材胖瘦),男性和女性发音器官也有差异,这会影响他们发出的声音。男性的声带更长(17~25毫米),声道也更长(平均17厘米)。这样的生理特征使得男性的音高更低(70~160Hz),音色也更低沉。
女性的声带(12.5~17.5毫米)和声道(平均14厘米)均更短。因此女性的音高更高(130~300Hz),音色更“尖锐”。另外,一个的人的声音和身体一样会随着年龄的增加而变化。一个人的嗓音在青少年时更尖细,成年以后音色就会变得低沉,到了老年却又会变得尖细。
通过这些基本原理,软件可以调整声音的音高和音色从而让人产生错觉,以为说话的人变了性别或是改变了年纪。想要复制老年人特有的嗓音(比如颤音),就需要对数字处理做进一步的修饰。上了年纪的人的发音器官一般不太灵便:他们的声带松弛,因此说话时喘鸣声更重,而且时常会失声发出颤音。
让人惊讶的是,这种软件能够创造出不是天然存在的声音,比如它能让狮子说人话。这种特效的秘诀在于将人的语音和狮子的吼叫声混合在一起,用狮子的声带声纹特征代替人的,同时保留人的共鸣腔声效。处理后的音效简直让人目瞪口呆:我们可以清楚地听到一个人在说话,但是他的声音里却带着狮子的喘鸣和低吼声。
电影和动画行业的制片工程师经常使用这种方法来处理演员的声音,或者为虚构角色配音。现在,这些工程师的技术已经更进一步,能够复制演员或者历史人物的声音了。在Ircam,经常有人请求我们用留存的声音资料复活故人的声音。
用别人的嗓子说话
韵律和音色可以用来区别不同人的特色。但是,当一个人模仿别人说话时,这两个嗓音特征会起到什么样的作用?当一个人(爱丽丝)模仿另一个人(伯纳德)说话时,其实她主要模仿的是伯纳德语音的韵律。
要想模仿别人的音色不是一件容易的事。因为人的声道尺寸是由生理决定的,每个人都不同。所以,即使是才华横溢的模仿高手,也无法地复制另一个人的音色,仅能大致模仿他说话的韵律。
想要真实地还原一个人的嗓音,就必须复制他的音色。首先,要用伯纳德(被模仿者)的录音建立一套“语音面具”,然后为爱丽丝(模仿者)的声音戴上这种“语音面具”。
这样看来,要复制一个人的嗓音,就必须先收集这个人的录音,组成一个数据库。这些数据会被切成音素,做进一步分析,然后组合出被复制者的声学特征。具体来说,每个音素都有一个“语音面具”(一种声音滤波器),它能够调节声音中不同频率成分的强度比例。
在转换声音身份的时候,只需要将“语音面具”复制粘贴即可。针对爱丽丝的每个音素,系统都会在伯纳德的声音数据库中挑选相应的音素滤波器,从而进行替换。
在爱丽丝的声音数据库中,相应的算法会挑选使转换听起来逼真的声音滤波器序列。在经过一系列操作和处理后,爱丽丝的声音就有了伯纳德的音色。
这个技术面世后的应用就是在电影中再现玛丽莲·梦露(Marilyn Monroe,《玛丽莲》(Marilyn)的嗓音,随后,又在多部电影中重现了多位历史人物的对白。
比如要模仿喜剧演员路易·德菲内斯,演员就要模仿他的韵律按照剧本的人物台词表演,此时的声音会被分段记录下来。与此同时,研究人员还利用德菲内斯的历史录音建立起一个长达十分钟的数据库。
通过这个数据库和刚才的一系列处理手段,研究人员就可以利用德菲内斯的声音特征将演员的音色转化成他的样子。而德菲内斯发出的声音就像是近才录的,但其实,声音的原材料都来自他在70年代拍的电影。
声音拼图
Ircam 的研究人员通过合成语音拓展了语音处理的边界。现在,用录音改变一个人声音的技术已经成熟,如何用合成语音来朗读任意文本却成了的问题。
要考据合成语音的历史,可以追溯到18世纪。那时已经出现了汽车和可以发音的机器了。进入20世纪后,电力的出现让这些机器变得更先进、更完美,1939年由贝尔实验室制造的VODER(语音操作演示器)就是其中一例。当计算机出现后,一切又变得自动化了。
目前,语音合成系统已经完全实现了自动化,它们能够让数字声音具有个性。语音合成在本质上依赖的是语音数据库,如果要生成合成语音,只需要几个小时的真人录音就可以了。
语音合成和语音转换不同,它不仅要转换现有语音的特征,还要用基础的语音元素完整地重塑语言,朗诵任何文本。目前大多数合成器的基本工作原理都是“基元选取”(unit selection),这非常类似于拼图游戏。
每个基元是一段有特定韵律和音色的口语语料(包括音素、音节、词语等)。语料数据库就像拼图的集合,要有尽量丰富的语料才能满足合成语音时多变的需要。
在为一段文本合成语音时,要找到与文本对应的语料片段,从而进行组合。重组的过程就像跋山涉水一样麻烦:算法要先从数据库中挑选出大量的语料片段,但是语料本身有各自的声学特征,无法直接简单地拼凑到一起。要合成语音一段语音,就要尽量找到那些前后连贯的语料片段。
为了让合成语音听起来自然,既要保证音素之间配合得天衣无缝,还要保证文本本身易于被理解。另外,还要考虑到音素整体表现出的音乐感,也就是韵律。
语音还原的质量主要取决于数据库的容量:每段口语语料的素材数量越多,音素间的连接就越流畅、韵律就越丰满。,成品还要经过算法做局部润色,这样才能让语料之间的连接没有明显瑕疵,让断句更流畅。
2000年后,在语言学、信号处理和机器学习方面的进展,使合成语音韵律的建模能力有了惊人的进步。过去的合成语音仅仅勉强能听,现在的合成语音听起来不仅很自然,还很有表现力。
天然和人工之间的界限变得模糊了。在机器学习的帮助下,可以用上千种不同的语音创造出“平均”合成语音,当然,也可以用几个不同人的语音制造出混合语音,或者将某人的口音、情绪和说话的风格移花接木到另一个人身上。
这些处理的原理与“基元选取”是类似的,但具体的操作有很大的差异。这类方法并不是采用真人录制的口语语料直接合成语音,而是用一个统计模型来表示一个人的语音。这个统计模型是对语音的数学抽象,通过它可以复制和生成合成各种各样的语音。
利用统计分布规律(正态分布的平均值和方差),就能为每一个音素在声学空间(以音高、持续时间、音强和音色为参数的参数空间)中的分布建模。
选取的语音参数会随着说话的进程变化而变化,为了给这个过程建模还需要用到关于时间序列的模型(如隐马尔可夫模型)。在这类模型里,每个音素都会被分割成一系列“状态”,比如开始、中间、结束,而每个状态都有各自的统计分布。
通过声学空间统计参数的组合、插值和自适应,这套系统可以对声音的各项抽象特征进行计算。比如,我们能够利用两个真人语音的统计参数制造出混合语音,也可以将几千个人的语音组合成平均语音。
这种技术进步使文本合成语音的效率发生了翻天覆地的变化:它不再依赖于真人语音,只需要几分钟长度的录音就可以快速合成新的语音。
所以,即便这个人已经无法出声,只要利用几分钟录音资料就能再现他的声音。而且,就算不会说外语,现在的技术已经能实现用本人的声音合成外文语音。
虽然合成语音已经取得了令人瞩目的成绩,但是,还有进步的空间。在合成语音的过程中,始终需要人力辅助才能得到优良的合成效果。而现在,人工智能、人工神经网络下的深度学习和大数据领域的变革,都为语音合成注入了新鲜的血液。
在人工神经网络技术,或者说神经网络中,学习的硬件设备或者虚拟设备是由一层一层的“神经元”构成的,每个“神经元”都有两种可能的状态。神经元之间相互连结,在学习的过程中算法会对“神经元”的特征进行调整。
在70年代,神经网络被引入到了语音处理中,当时,人们认为这种结构能够模拟大脑的工作方式,从而更好地完成机器学习。然而,神经网络的发展一度受到理论、算法,以及当时十分有限的计算能力的限制。
近10年,理论进步和计算能力的飞速发展,让神经网络技术再次回到了舞台。
一些为深度神经网络(深度指的是包含多层神经元网络)量身定制的新的学习算法也逐渐出现在人们的眼前。这些深度神经网络的算法非常依赖大数据。
这些技术给了人们很大的想象空间。在未来,我们可能会创造出与真人语音没有差异的数字语音,它甚至能用任何语言传递信息,我们还能根据需求给它赋予独特的个性。
在未来我们可以随心所欲地改变自己的嗓音,我们能与声音无异于真人的智能机器顺畅地进行日常交流。然而,这种机器到底是天使,还是恶魔呢?这种技术已经引起了一部分人的反感,也引出了这样一个基本问题:在我们的社会中,合成语音以及人性化的机器究竟算什么?
用多人语音合成,或是用别人语音转化而来的声音究竟属于谁?它属于复制人吗,还是改造人?或者应该属于创造它的研究者和工程师?怎样区分合成语音和真人语音的差异?
如果能仿造某人的语音,怎样鉴定语音留言的真实性?合成语音的人格化和机器人的人形外貌一样,也发人深思。如果机器的声音太像真人,我们是否陷入了日本机器人学家森政弘提出的“恐怖谷”怪圈?