“也许以后,艺术家都用AI协助自己创作” 人工智能小冰玩音乐

小冰创作出的作品,其中60%由上一代杂交而成,20%直接保留到下二代,剩下的20%可能发生“基因突变”。“说不定它可以带领一个流派或者潮流的出现”。

责任编辑:邢人俨

小冰是微软研发的一款人工智能,拥有上亿用户,对话数据达几百亿轮,目前已发展到第五代。图为第四届世界互联网大会上的微软小冰。(视觉中国/图)

(本文首发于2018年6月21日《南方周末》)

小冰创作出的作品,其中60%由上一代杂交而成,20%直接保留到下二代,剩下的20%可能发生“基因突变”。“说不定它可以带领一个流派或者潮流的出现”。

2018年5月,微软宣布公司旗下人工智能小冰掌握了歌词创作和谱曲能力,意味着它或能以全能音乐人身份出道。此前,小冰已经学会了唱歌。

“我们一天的状态,跟一般的‘码农’没有太大区别。”在微软(中国)办公室里,微软小冰团队科学家栾剑和袁晶如此自我评价。他们的日常工作,是教人工智能小冰唱歌、写歌。

栾剑负责“教唱歌”。他大学时的专业是机械工程,毕业后多年研究声纹识别和语音合成技术。“业内流传着一个冷笑话,做语音识别的人,常常耳朵不太好;做语音合成的人,常常嘴巴不太能说。”栾剑对南方周末记者说,“我们每天听大量的声音,去验证、比较,做各种研究,对耳朵有一定的伤害;语音合成用到这么多歌手的声音,发现他们的歌声跟普通人嗓音差距好大,可能就导致我有时候不太愿意说话。”

人类学唱歌,需要识谱、辨音、练声,人工智能学唱歌,则是一系列软件工程——曲谱分析、发音预测、声学特征提取、深度神经网络学习、声码器合成、音频后处理……

软件,只是人工智能唱歌的开始。栾剑向南方周末记者播放小冰最初唱歌的音频——邓丽君的《我只在乎你》。

“我们当时觉得跑调很严重,这个‘人’好像五音不全。”尽管听过很多遍,栾剑还是忍不住笑了,“拍子比较乱,有时候一个字应该唱半拍的,但是它唱了一拍,应该唱两拍的,它也唱了一拍;偶尔会有一些莫名其妙的噪音出现,就像嗓子不好,破音了。”

令栾剑感到欣慰的是,小冰的歌声比较自然,“像人在跑调,不是机器在跑调。”

栾剑在音调控制和节奏把握上做了一些修改。接下来,小冰开始了艰苦的训练,这个过程,是人工智能的深度学习。第二代小冰的唱歌技巧,在音调和节拍上都已达到基本准确,不过音质仍然比较生硬,“有点像说话的感觉”。

栾剑把录音模型的采样率从16千赫兹提高到48千赫兹,于是有了第三代小冰的歌声,唱的是张韶涵的《隐形的翅膀》。“音质很通透,”栾剑自豪地说,“最新的第四代又有了提高,更加顺畅、自然。”

点击图片可观看视

登录后获取更多权限

立即登录

网络编辑:小碧

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}