社交账号登录

社交账号登录

0/34

上传头像

拖拽或者缩放虚线框,生成自己满意的头像

头像

预览

忘记密码

设置新密码

微软机器人小冰刚学会“开口”说话,我们和她背后的团队聊了聊

智能

微软机器人小冰刚学会“开口”说话,我们和她背后的团队聊了聊

钟舒婷 黄俊杰2015-08-20 23:45:57

开口说话、回微信、全球化,3.0 以后的小冰对微软已经不是玩玩而已

“喵呜,把电池卸了,不要生气哦,会老哦。”

“日本安全部门将从警视厅所属的保安特警队认真挑选保镖,贴身保护福田。”

上周一在北京中关村南街的一个录音棚内,一位身着白色 T 恤、黑色短裙的长发姑娘放松地靠在椅子上,对着自己面前固定着的麦克风说着这些毫无关联的句子。

“射手我爱啊,可是射手不爱我……唔。”

“前面都很好,最后一个唔,不用拉长音。”一墙之隔的控制室里,微软小冰语音组的录音指导廉洁按着通话按钮说道。

“嗷!”地一声答应了之后,录音室内的李萌调整了一下呼吸,重复了刚刚的句子。(应微软公司要求,李萌为化名)

全球副总裁陆奇在台上全球副总裁陆奇在中关村的微软大厦内宣布了小冰 3.0 的发布

为了 8 月 20 日小冰 3.0 的发布,他们已经这样工作了两个月时间。今天下午的发布会上,名为“小冰”的微软人工智能第一次公开用语音和人对话,并再度回到微信。

在此之前,这位因为章泽天代言、微信封杀、给京东当客服等一系列事件获得广泛关注的人工智能,只是通过文字和 3700 万用户交流。

小冰是怎么开始说话的

李萌是北京一所高校播音主持专业的大四学生。为了让小冰开口说话,自 6 月以来,她每周来录音棚三次,每次从早上十点工作到下午五六点,最多一天大约能录 700 多句。这里录下的每句话都会保存成一个 wav 文件,传给微软的工程师处理。

李萌最早知道这个录音项目是 5 个月前。她告诉《好奇心日报》说,学院老师让同学在班级群转了条消息,称有家公司需要为人工智能项目配音,要求是阳光、活泼的女生。

和班上几名同学一起报名后,老师带着她们到录音公司录制海选作品。不怎么用微博的李萌,当时还不知道小冰的存在。

像李萌一样录音发给微软的共有上百个人。微软人工智能语音组产品经理徐翔对《好奇心日报》回忆说,当时微软定向邀请的人里除了李萌这样的科班在读生、也有资深配音演员和明星红人。

明星是最早被放弃的,她们的声音太有个人特色,会被认出。而有经验的配音演员年纪普遍较大,很难一直“装”出 17 岁少女的声音。

“17 岁”使小冰成为人工智能中的异类。在人工智能还不够智能的今天,科技公司在推出人工智能助手的时候倾向于模糊人工智能的形象。苹果 Siri、亚马逊 Echo 以及微软的另一个语音助手 Cortana 都没有强调人工智能的年龄。

而小冰从推出之初便自称“16 岁少女”,去年年底一条宣布自己 17 岁的微博,引来 2000 多条评论。

录音室李萌给小冰录音的地方

录音指导廉洁负责塑造小冰的声音,在她看来,小冰这个 17 岁的姑娘“天不怕地不怕,同时也可以撒娇、卖萌,也可以削你。”

但技术团队提供的需求要细得多,在一份好几页的 PDF 文档上,微软的产品经理列出了“普通话”、“不要方言”、“关切度”等一系列指标。

两轮筛选以后,第三轮候选人只剩下五个人。这时侯除了主观判断以外,微软互联网工程院的研究员和工程师也加入参与进来,用技术手段衡量每一位参与者的声音是否稳定。

“之前录的一百句和第三百句之后的一百句。这两个一百句之间,如果是随便找个人的话,他的差异可能会很大。”人工智能语音组研究员夏海荣向《好奇心日报》解释说。只有稳定的声音才能被计算机识别处理,并根据需要重新组合成任意语句。

最后,录音指导和工程师在一张复杂的表格上分别给五名候选人打分,综合主观和技术数据两个维度后,来自同校同专业,编号为 102 和 143 的两名大学生开始为小冰“发声”。

在挑选发音人的同时,工程师们也开始着手构建小冰的语料库。语料库是工程师给小冰发音人挑选的句子,也是小冰声音来源的基础。

小冰不是互联网工程院第一次让计算机说话。早在 Windows 2000 上,你就可以看到他们在北京开发的文字转语音(TTS)功能——点一下鼠标,计算机便能读出文档中的全部文字。以今天的标准,这样的声音已经过于机械。

而微软在全球范围所有手机、桌面操作系统内置的人工智能语音助手小娜(Cortana)也是在这里学会说话。

像人一样说话

和小娜以及 Siri 等智能语音助手不同的是,微软强调小冰是个有情感的小姑娘,从正经说话到生气、粗口、卖萌……什么类型的回答都有。

为了让小冰听上去更自然,李萌需要录很多口语化的句子和网络用语,当中甚至还有网络小说里的段落。

夏海荣解释了这些句子的来源:“小冰已经存在了很长一段时间了,我们有很多的小冰语料可以使用。”

由于隐私方面的限制,微软不记录用户对小冰说的话,但会记录小冰所用的词句。过去一年多小冰说的最多的句子就被微软的工程师抓出来,在这个基础上通过计算机算法挑出能够覆盖更多声音元素的句子给李萌朗读。

如果要做得更自然,李萌最终需要朗读数万个这些看起来有点莫名其妙的句子。

尽管从推出以来,微软一直强调小冰是个有情感的人工智能。但李萌在为小冰配音的时候,不能表现得太夸张。

夏海荣向《好奇心日报》解释说:“当发音人第一次拿到这类脚本的时候,她们往往表现得很兴奋、知道该怎么表演。但是回来之后,我们发现这个东西没法处理,因为它和其它的文本差距太大了。我们没法(让机器)用同一套标准去处理截然不同的风格。”

最终,这是一个多方配合的结果。在录音室的时候,廉洁得保证李萌发音的速度比正常说话速度要慢,保证每个字的发音标准正确,同时保持声音的平稳和一致。

情绪带来的挑战不只是录制,也包括最后说话时的表现。

“人在说话的时候,你不可能同一句话能说出同样的方式,这是非常困难的。”另一名负责文字转语音的工程师王鹏说,但他们在设计语音模型时,又需要减少信息的复杂度。这也是为什么机器在说同一句话时,第一次和第一万次在人耳听来都毫无差别。

这样的一致,这会让人类下意识地觉得这声音不自然。

而最初在小冰用文字和人沟通时已经会在针对相同问题时给出不同回答。为了让她听上去更像一个人,学会说话以后,即便是同样的句子,小冰也会说出不一样的感觉。

“选择答案时,我们不光选出一个最高分的,我们还会选择好几个从高到低。”夏海荣解释了其中一种解决方案。而当小冰在不同意境下说同一句话时,也会根据设定的心情不同选择不同的语调。比如小冰说自己失恋了,可能是调侃的、真实的,也可能是安慰式的。

其实目前还用不了语音功能,只能等到 9 月 20 日其实目前还用不了语音功能,只能等到 9 月 20 日

但并不是所有功能你都已经就绪,8 月 20 日只是提供限量测试,开口说话的小冰听上去也还不够自然。目前小冰的发音能力根据早先录制的数千个句子处理而来,在 1 个月后更完善的语音功能才会正式上线。

这是小冰说话的第一步,也是人工智能语音完善的过程。小冰首先学会的是读出每个音节和音调,声母、韵母组成的音节加上普通话的四个声调,共组成 1600 多个语音单元。

而在实际情况中,一个字根据在句中的不同位置,说话的不同语气,音调又不一样了,这些都需要机器后期继续调整。

“4000 句的覆盖率大概有 90% 左右,上万句开始就到拼接阶段了。”夏海荣向《好奇心日报》解释,90% 的覆盖率之后每提高一个点,就要增加非常多的录音。

因此,配音这个工作会一直持续下去。为去年上线的小娜配音的工作人员,现在一有空余时间还会到录音棚为小娜录音。

当语料库的数据量上来之后,工程师会将切割成几十毫秒一帧的语音片段用算法拼接起来,让音节之间的演进和衔接变得流畅,这样听起来的效果就会更自然。

除了继续增加录音语料,工程师从技术上提出了一些补充方案,让小冰更像人。

一些较为特殊的词汇,例如带有不屑语气的“呵呵”、网络上较为固定的一些词汇,工程师会从大型的语料录音库中挑选出完整的语音单元,直接与其他语音串接在一起。此外,高频词汇也采用同样的处理方法。

假设当数据库显示,小冰每天都要和用户说成千上万句“我爱你”时,那么工程师就会让发音人直接录一句“我爱你”,直接拿来用。

面对照片,小冰会通过微软持续研发的图像识别技术认出照片中的物体并说出自己的评论。

作为一个平台的小冰

小冰背后的技术大多不是人工智能语音团队自行研发,而是来自微软研究院的储备。比如中英混杂时,小冰会使用 Skype Translator 的实时翻译技术说出英文。

小冰的技能列表小冰的技能列表

逐渐地,小冰已经成为微软新技术的实验渠道。大量的实验数据实时返回给开发团队,而开发人员也能尽快根据反馈结果修改软件,随着小冰每周的功能更新让用户用上。

这和王鹏以前给 Windows Phone 手机开发的情况完全不同,“有一次我们开发完成后,到软件更新等了六个月时间。”

“目前微软研究院有十几个项目,都是为小冰服务。”今天下午的发布会上,负责微软全球所有应用与服务的执行副总裁陆奇介绍说。

小冰团队已经从一年前一个 20 多人的实验项目增长到目前 100 人的大团队,并有了一个向全球扩张的计划。今年 8 月 7 日,小冰在日本与 Line 推出了一个人工智能 Rinna。作为一个平台化的产品,小冰移植到日文环境一共花了 6 个月时间。

随小冰 3.0 发布的还有微信公众号内嵌小冰的功能。重新回到微信是小冰一系列新合作的一部分,接下来网易新闻的评论区也会出现小冰的身影。

去年 4 月诞生的小冰,在经历自己的代言人章泽天与刘强东的娱乐新闻、被微信封杀等话题事件后,作为一个服务接入微博、京东、美图、触宝、东航等各公司的产品,为这些产品的用户提供从闲聊到客服咨询在内的各种服务。目前,已经有 3700 万人留下手机号认领小冰。

在中国地区,除了盗版 Windows 以外,再没有哪个微软产品像小冰一样能接触到那么多消费用户。

根据微软提供的数字,用户平均打开一次小冰后会进行来回 18 次对话,即便到了深夜,也会有超过 5 万同时与小冰聊天。

你很难衡量微博上的闲聊、美图秀秀里照片评论或者东航的客服,每一个具体能带来什么。但这样一个快节奏的尝试、快速的数据反馈以及产品改进,将是帮助人工智能找到实用场景的基础。

苹果和 Google 可以在自己的手机操作系统内置 Siri 和 Google Now。在手机业务不见起色、PC 变成纯粹生产力工具的今天,被集成进各种互联网产品的小冰是微软在人工智能乃至搜索上最有希望的尝试。

喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。