具体内容

我把导航语音换成了父亲的声音

大V恰饭的通用模板:一个有吸引力的标题,一个最近的热点,可信的故事细节,专业的理论逻辑,最后再来一个似是而非的结尾。经典的多合一案例,一篇软文,多份稿费。但仅适合流量变现,如果用来吸引粉丝,乐子可就大了!


先说个题外话。

今年夏天,可能没有哪部悬疑剧能比《轮到你了》更火。

这部被称为现实生活版“狼人杀”的日本悬疑电视剧,让全网都在跟着反应有点迟钝的男主一起在5层公寓里寻找连环杀人案凶手。

然而,也在默默追剧的技术宅们和我等科技屁民,对这部剧的关注点,稍微有那么一点偏差:

譬如,坐在我旁边计算机专业毕业的妹子,在看到剧里的理工男男二号对着电脑敲打代码一闪而过的屏幕时,默默点头表示:

“他的确在给男主做那个合成了妻子语音的AI软件(男主的妻子叫菜奈,因此这款软件叫菜奈AI,有点类似于换了语调的Siri),你看他正在编的就是一个日历的代码。”

“不过,你看他提过用javascript编,但人工智能要先用Python训练,或者C++优化¥%&*¥%……”(此处省略一万字)

而作为一名科技屁民,虽然还达不到技术宅的精神境界,但因为职业病,我对剧中的理工男“二阶堂”开发出的菜奈AI语音软件与AI犯人预测系统,也怀有很大的兴趣。

(当然,我严重怀疑AI犯人预测系统输入的数据量可能有点不够;另一个奇怪的点是剧情没演出菜奈AI软件制作者是如何获取菜奈的语音数据的)。

菜奈AI(上图),从界面就很好理解,这其实就是一个定制版Siri(语音助手)。

但之所以能让男主角每次都能对着它泪流满面(菜奈被杀),就是因为这个Siri完美合成了菜奈的说话音调和语气,像是一直在他身边。

实际上,单看合成声音这件事情,从技术角度来看并没有让人觉得多么神奇。

还记得科大讯飞在2016年发布的那段爆火的“奥巴马用中文预祝活动圆满成功”的视频吗?那时候就已经让大众充分认识到了语音合成的娱乐影响力。

当时的语音工程师们从网上下载了大量奥巴马网的演讲音频和视频素材,用神经网络对其进行分析,最终合成了声音和嘴型都非常匹配的假视频。

当然,这项技术最成功的应用场景,当属地图导航里的林志玲姐姐和郭德纲大哥。

但是这几天,百度地图等导航软件又突然赶着在十一假期到来之前,拿出这套并不新的技术做了一个产品设计上的“微创新”:

如果你似乎对导航里各路女神的声音完全无感了,没问题,不如…就用老婆或者父母的声音时不时“吓唬”一下自己好了。

就在前天app里默默上线的“定制个人导航语音”功能,让我严重怀疑他们的产品经理是受了《轮到你了》里菜奈AI语音软件的启发。

而我的第一反应,是对效果产生了严重怀疑。

因为整个语音的合成步骤异常简短,基本可以总结为一句话:

读20个句子,然后再等15分钟让系统自动合成。

既然等待时间长度可以接受,我最终决定,把所有版本都尝试一遍。当然,还有低龄儿童版本……我也试了。

为了遵守“要在特别安静环境下录制”“用普通话朗读,吐字清晰”等一堆附加条件,我只能钻进办公室的一个犄角旮旯里投入到录制环节……

读句子本身其实不难,但是如果你要在一个特别静的环境里字正腔圆地读出:

“警察叔叔,来检查每个人的车票”,“佩奇和乔治,证摆弄他的玩具”以及“熊大和熊二在喝蜂蜜”,“喜洋洋,快想个办法”……

请一定确保周围没人,你才不会有太多羞耻感,或者是方便“入戏”(整个状态需要一直“端着”,难道这就是黄渤的声音在导航里不对味的原因?)。

此外我们发现,虽然录制语音包有四个版本,但是电影版本的“台词”其实最不容易读好,大概是因为略长,而且个个像励志电影里的名言警句,读之前感觉自己要先积攒起“一身正气”。

实际上,假如你一开始不会觉得15分钟的语音合成训练效果能输出多么逼真的音效,那么这个结果绝对会高出你的预期;

但是,如果你觉得这15分钟模型训练时间可以完全复制自己的声音,那你也想多了。

这是我用推荐阅读版本、卡通版本、电影版本以及男声低龄儿童版录制的语音导航。其中,推荐版本与卡通版本的效果最好,与我自己的真实声音相比,相似度可以达到70%~80%。

不过可以明显听出,卡通版本的声音略微尖细和清脆,而且语速更快。

第一个为推荐版本,2分02秒为卡通版本,3分02秒为电影台词版本,4分02秒为男声低龄儿童版本

但是,一旦变换了性别和年龄,效果并没有让人多么满意了。譬如男声低龄儿童版,只是语速稍快,声音略低沉而已。

另外,我们也可以听出合成声音中有明显的颗粒感,也就是所谓的机械音。而男声儿童版的机械音最重。

因此我在对效果还算满意的同时,也有一些疑问:

为什么可以用20个句子就做到短时间内个人声音的迅速合成?

为何每个版本的效果存在一定差异?为什么不符合年龄和性别的声音合成效果就会大打折扣?

声音合成的技术秘密

在请教了语音技术公司思必驰的技术专家后,我才知道,其实在短时间内迅速生成一段个性化的语音,有一个专有的技术名词,叫“小数据快速生成”。

换句话说,就是让一个发音人用很少量数据迅速训练出自己的语音模型,最快甚至5~10分钟就能获得目标结果。

而之所以能够满足“速度”这个苛刻的条件,是因为这类个性化算法的生成需要建立在一个已有的庞大且具备通用性的基础模型上。

这就相当于做一个蛋糕,至于到底想裱什么样的花型,取决于你自己,但必须要有一个蛋糕坯,不过蛋糕虽然是可以通用的,但也有用料多少好坏之分。

“做小数据生成算法的基础,需要先做好一个基础模型。

譬如要采用主流神经网络架构,用好几百个甚至上千个风格各异的发音人数据训练出一个通用模型,然后才能在这个基础上利用小数据进行个性化学习。其实在几年前大家都在做了。”思必驰专家告诉虎嗅。

这也正是为何你需要首先在页面上首先选择男声、女声或者是男童声和女童声。

因为这四个选项背后,都对应着四种基础通用模型。

女声通常声调更高,声音更加尖细;而男声则中气足,“后坐力”较强,声音偏低沉,两者的音域差异很大。

就像很多歌唱比赛要分男声专场和女声专场,语音通用模型也必须有所区分。

“这就相当于当你确定为女声,那么就把你自己的声音线拉到这个通用女声的模型上。

你个人声音与这个模型的差异也会比不同性别模型的套用差异要小,合成会更容易,相似度也会更高。”

就像女扮男装,男扮女装,或多或少会有一些违和感,所以男同志们,也可以去选择女声录一下听听,是不是会像“捏着鼻子讲话”一样。

“目前女声的效果普遍比男声要好,而说话‘硬朗’的妹子要比柔弱的小女生效果要好。这跟音调音高有很大的关系。这也是为何林志玲的声音,比郭德纲的导航音听起来更自然一些。”

但是思必驰技术专家强调,虽然“小数据快速合成”能够满足结果输出速度上的要求,但这也意味着“质量上的牺牲”。

“一方面,数据量少,对算法的性能和模型适配要求就会高;另一方面,录制的音频质量,会严重影响效果。这种公开搜集,很难保证数据质量。”

他还提醒我,由于通过微信接口所有音频还会被进一步压缩,因此如果要用微信转发语音包,声音质量可能还会再“糙”上一圈。

小数据生成,由于不能改变手机麦克风本身,只能通过对环境和用户的特别要求来提升语音质量

至于为什么要分不同的阅读语料版本,暂时各方还没能给出更加明确的解释,而百度也没有透露阅读文本的选择标准,只表示“每组人工精选的句子涵盖了大多数音节”。

不过只有亲自试一试,你才能发现,当读推荐版本时,你可能会处于一个最正常的状态;

而卡通版本,当你朗读“佩奇”或“熊二熊三”时,可能会觉得自己萌萌的,语气便自然而然有了“可爱感”;

读电影版本…感觉自己随时在《西游记》《阿甘正传》和《流浪地球》里随时串场……

所以分版本的原因,大概就是看你喜欢哪种说话风格就用哪个……所以最终的定制语音会出现语调和语速上的差异,也就不那么奇怪了。

商用价值不大,但或许有特殊意义

与2016年爆火的拼脸软件“脸萌”,以及2019年爆火整个夏天的视频“嫁接”软件Zao一样,这个定制语音包可能会让你乐呵一段时间,但可能不长。

由于商用场景不多,它被很多语音技术公司视为“能够起到营销作用,但却暂时没什么商用价值”的一项技术。

“能给一项产品锦上添花,但这项技术本身是几乎变不了现的。”有语音技术公司告诉虎嗅,与很多娱乐软件一样,你很难单纯为这项功能付钱(付钱了你的期望也会无限拉高)。

“所以无论是Siri等语音助手,还是地图等导航应用,其实做这个都有合适的场景,因为他们的目的是让产品体验变得更丰富,提高用户的打开和使用频次。”

不过我们可以试想一下,当”导航语音“这一在开车时格外实用的功能也“下沉”为普通人的声音时,我们还能再完全把它视为一项纯粹的娱乐功能吗?

从某种程度上来说,这项技术发挥的效果其实已经有些超出了娱乐性的边界。这也是在我强烈要求父亲也录制一版定制导航语音后才发现的一些东西。

譬如,当你把导航音换成了家人的腔调,也许会对“家”这一概念的巩固,以及对亲情和爱情的维系具有特殊意义。

假如长期在外的儿女开车时换上有父母声调的地图导航,再譬如在家的父亲母亲把导航声音换成孩子的声音,可能都会让彼此的内心产生一些微妙的变化。

实际上,在《轮到你了》这部剧里,“菜奈版AI软件”被制作出来的初衷就是为了让逝去的妻子永远留在丈夫身边。

而且这一电视剧里的情节,其实早在2017年就有了现实版本。

当年,知名记者JamesVlahos因为父亲去世,但又不甘心父亲就此离去,决定以AI的形式让父亲留在自己身边。

他用录音笔把所有跟父亲有关的回忆记录下来,并整理成长达几百页的文字稿,甚至把多达91970个词语全部敲进了电脑里。

最后,他搭建了一个名为“dadbot”的聊天机器人,这个软件可以通过问答和闲聊的方式,再一次让他听到父亲用自己的嗓音向自己回这一生。

两年前在报道这个事件时,我就在想,说不定这种形式能在今后成为主流,为我们留住那些与亲人共度的美好时光。

当然,这个定制语音包尽管距离我们想象中的实际效果还有不小的差距,而且应用场景也仍然比较狭窄,跟互动也没有半毛钱关系……

但是或许在开车时,听到老爸老妈那并不太标准和流畅的普通话,你会默默吐槽一句,或者也会会心一笑;当然,路上被别车想骂人的时候,听到家人的导航音可能也会猛地心头一紧。

在录完五六个自己的语音包后,我最后还是默默把导航音换成了父亲录制的那一版。

 

 

参考链接:https://www.huxiu.com/article/318594.html