百度,作为占据了中国搜索引擎80%市场份额的互联网公司,如今正在大力发展人工智能技术。目前,有外媒报道,百度已经推出了Deep Voice 2,与前代相比,它只需要通过最短半小时的音频学习,就能“开口说话”,还能模仿上百种口音。
其实就在今年早些时候,百度就推出了Deep Voice一代,但当时它还需要数小时学习,而通过学习,Deep Voice可以将文字转化为音素,再依靠自己的语音合成网络将其变为你所听到的声音,以 Hello 这个单字为例,在最终发音前,Deep Voice 会将其拆分为(无声,HH)、(HH,EH)、(EH,L)、(L,OW)、(OW,无声)这样的音素组合。此外,开发人员还可以对其要传达的感情状态进行设定,这样合成出来的语音听起来就会非常真实、自然。
相较于上一代,Deep Voice 2的性能更加强劲,可以通过区分数百种口音来建立自己的人声语音库,从而达到模仿数百个人讲话的效果。在百度看来,这样的技术将为用户提供更加个性化的使用体验,比如用户听语音读物的时候,每个角色都将拥有自己的声音,再搭配上相应的情绪、语气,这样就能让语音读物听起来更加生动了。
【本文图片来自网络】