搜狗輸入法“變聲”功能上線 支持千人千聲一鍵轉(zhuǎn)換
導(dǎo)讀:5月21日搜狗輸入法就化身為了現(xiàn)實(shí)版的變聲“阿笠博士”,正式推出“變聲”功能。搜狗輸入聲鍵
該功能由搜狗知音團(tuán)隊(duì)支持,法功北京西城外圍預(yù)約(高端外圍)外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)可以將任意說話人的線支聲音實(shí)時(shí)變換到指定說話人的音色。
不再是持千動(dòng)畫,也不再是人千科幻想象,AI再次帶來夢想成真一刻。轉(zhuǎn)換
在動(dòng)畫片《名偵探柯南》中,變聲阿笠博士送給柯南的搜狗輸入聲鍵變聲領(lǐng)結(jié)是柯南破案的重要道具,得益于它,法功柯南可以將聲音偽裝成其他人,線支在不暴露身份的持千北京西城外圍預(yù)約(高端外圍)外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)情況下巧妙破案。
但或許你未曾想過,人千有一天,轉(zhuǎn)換這個(gè)變聲領(lǐng)結(jié)會(huì)真的變聲出現(xiàn)在現(xiàn)實(shí)世界中,并且只需要在手機(jī)上輕輕一點(diǎn)就可以實(shí)現(xiàn)完美變聲。
沒錯(cuò),現(xiàn)在通過搜狗輸入法就OK。
現(xiàn)實(shí)版“柯南變聲領(lǐng)結(jié)”
今天(5月21日),搜狗輸入法就化身為了現(xiàn)實(shí)版的“阿笠博士”,正式推出“變聲”功能。
該功能由搜狗知音團(tuán)隊(duì)支持,可以將任意說話人的聲音實(shí)時(shí)變換到指定說話人的音色。
簡而言之,只要用戶在語音輸入中輸入想說的話,再選擇一個(gè)喜愛的角色,就會(huì)瞬間把聲音轉(zhuǎn)化成該角色的聲音,效果直逼柯南的“變聲領(lǐng)結(jié)”。
雖然效果實(shí)現(xiàn)起來一步到位,但背后技術(shù)實(shí)現(xiàn)并不簡單。
搜狗知音的語音技術(shù)團(tuán)隊(duì),克服了諸多難以想象的現(xiàn)實(shí)困難。
其中最核心的問題是,每一個(gè)人的音調(diào)、音色和語言節(jié)奏都不盡相同,正如同世上沒有兩片相同的樹葉一樣,世上也沒有兩個(gè)完全相同的說話人。
如何將“千人千聲”通過技術(shù)處理,變?yōu)橥环N指定聲音,同時(shí)還不丟失原說話人的語言習(xí)慣?
這不僅搜狗面臨的挑戰(zhàn),也是國際上承認(rèn)的技術(shù)難題。
技術(shù)剖析
搜狗知音主要從語音表征學(xué)習(xí)、語音合成等領(lǐng)域的展開突破。
首先,搜狗知音團(tuán)隊(duì)使用表征學(xué)習(xí)技術(shù),先學(xué)習(xí)到源端說話人語音的音色、內(nèi)容和韻律三大特征。
其次,將學(xué)習(xí)到的源端說話人音色特征替換成目標(biāo)說話人。
最后,基于搜狗知音的端到端語音合成技術(shù),使用內(nèi)容(源端)、韻律(源端)、音色(目標(biāo)端)三類特征合成最終變聲音頻,達(dá)到各個(gè)方位的相似和自然。
在表征學(xué)習(xí)上,對目標(biāo)音色語料進(jìn)行聲紋特征編碼,提取說話人的音色embedding,再分別從輸入音頻中學(xué)習(xí)內(nèi)容和韻律embedding。
把“說話人歸一化”模塊對內(nèi)容embedding進(jìn)行統(tǒng)一規(guī)整,去除音色信息。
通過對音頻特征的壓縮編碼及特征抽取,學(xué)習(xí)表征韻律的風(fēng)格特征。
然后基于表征學(xué)習(xí)得到的特征,通過Attention和Decoder模塊進(jìn)行加權(quán)特征編碼,并利用WaveRNN神經(jīng)網(wǎng)絡(luò)聲碼器恢復(fù)成波形,最終得到帶有目標(biāo)音色的音頻。
這樣一來,由源端音色到指定音色的轉(zhuǎn)化就變得輕易而精密了。
在以上技術(shù)原理的支持下,搜狗知音的“變聲”功能擁有三大功能亮點(diǎn):
首先,還原度極高,變聲到指定角色的音色與該角色的原始音色十分相似,幾乎可以做到以假亂真。
其次,自由空間大,搜狗這一“變聲”功能對用戶本身的音色沒有任何限制,每個(gè)人均可變聲到預(yù)先指定的音色,真正具有“任意人變聲到同一人”的能力。
最后,搜狗知音打破了音色轉(zhuǎn)換的局限,將用戶輸入的語音內(nèi)容、語速、停頓、情感等均轉(zhuǎn)化為超高逼真度的指定角色聲音,因此可以達(dá)到更自然的變聲溝通。
目前,在搜狗知音“變聲”功能中可供選擇的角色橫跨互聯(lián)網(wǎng)、明星類、動(dòng)漫類等多個(gè)類別,有近20種聲音,包含周星馳、蠟筆小新、小豬佩奇等多個(gè)經(jīng)典的角色,甚至還收錄了搜狗CEO王小川的聲音。
在聊天過程中,用戶可以使用他們的聲音完成“變裝”,增添聊天過程中的趣味程度。
當(dāng)然,用戶一鍵使用最新技術(shù)的背后,也離不開工程師們的付出。
而且在類似的國際前沿的技術(shù)突破領(lǐng)域,中國AI公司正在用研究和論文打響名氣。
在搜狗知音團(tuán)隊(duì)此次最新技術(shù)發(fā)布前,搜狗還聯(lián)合清華天工研究院在5月17日的語音頂級峰會(huì)ICASSP 2019上,發(fā)布了關(guān)于“基于模態(tài)注意力的端到端音視覺語音識別”的學(xué)術(shù)論文。
全球AI華山論劍,中國創(chuàng)新正在 making different~
該功能由搜狗知音團(tuán)隊(duì)支持,法功北京西城外圍預(yù)約(高端外圍)外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)可以將任意說話人的線支聲音實(shí)時(shí)變換到指定說話人的音色。
不再是持千動(dòng)畫,也不再是人千科幻想象,AI再次帶來夢想成真一刻。轉(zhuǎn)換
在動(dòng)畫片《名偵探柯南》中,變聲阿笠博士送給柯南的搜狗輸入聲鍵變聲領(lǐng)結(jié)是柯南破案的重要道具,得益于它,法功柯南可以將聲音偽裝成其他人,線支在不暴露身份的持千北京西城外圍預(yù)約(高端外圍)外圍vx《189-4143》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)情況下巧妙破案。
但或許你未曾想過,人千有一天,轉(zhuǎn)換這個(gè)變聲領(lǐng)結(jié)會(huì)真的變聲出現(xiàn)在現(xiàn)實(shí)世界中,并且只需要在手機(jī)上輕輕一點(diǎn)就可以實(shí)現(xiàn)完美變聲。
沒錯(cuò),現(xiàn)在通過搜狗輸入法就OK。
現(xiàn)實(shí)版“柯南變聲領(lǐng)結(jié)”
今天(5月21日),搜狗輸入法就化身為了現(xiàn)實(shí)版的“阿笠博士”,正式推出“變聲”功能。
該功能由搜狗知音團(tuán)隊(duì)支持,可以將任意說話人的聲音實(shí)時(shí)變換到指定說話人的音色。
簡而言之,只要用戶在語音輸入中輸入想說的話,再選擇一個(gè)喜愛的角色,就會(huì)瞬間把聲音轉(zhuǎn)化成該角色的聲音,效果直逼柯南的“變聲領(lǐng)結(jié)”。
雖然效果實(shí)現(xiàn)起來一步到位,但背后技術(shù)實(shí)現(xiàn)并不簡單。
搜狗知音的語音技術(shù)團(tuán)隊(duì),克服了諸多難以想象的現(xiàn)實(shí)困難。
其中最核心的問題是,每一個(gè)人的音調(diào)、音色和語言節(jié)奏都不盡相同,正如同世上沒有兩片相同的樹葉一樣,世上也沒有兩個(gè)完全相同的說話人。
如何將“千人千聲”通過技術(shù)處理,變?yōu)橥环N指定聲音,同時(shí)還不丟失原說話人的語言習(xí)慣?
這不僅搜狗面臨的挑戰(zhàn),也是國際上承認(rèn)的技術(shù)難題。
技術(shù)剖析
搜狗知音主要從語音表征學(xué)習(xí)、語音合成等領(lǐng)域的展開突破。
首先,搜狗知音團(tuán)隊(duì)使用表征學(xué)習(xí)技術(shù),先學(xué)習(xí)到源端說話人語音的音色、內(nèi)容和韻律三大特征。
其次,將學(xué)習(xí)到的源端說話人音色特征替換成目標(biāo)說話人。
最后,基于搜狗知音的端到端語音合成技術(shù),使用內(nèi)容(源端)、韻律(源端)、音色(目標(biāo)端)三類特征合成最終變聲音頻,達(dá)到各個(gè)方位的相似和自然。
在表征學(xué)習(xí)上,對目標(biāo)音色語料進(jìn)行聲紋特征編碼,提取說話人的音色embedding,再分別從輸入音頻中學(xué)習(xí)內(nèi)容和韻律embedding。
把“說話人歸一化”模塊對內(nèi)容embedding進(jìn)行統(tǒng)一規(guī)整,去除音色信息。
通過對音頻特征的壓縮編碼及特征抽取,學(xué)習(xí)表征韻律的風(fēng)格特征。
然后基于表征學(xué)習(xí)得到的特征,通過Attention和Decoder模塊進(jìn)行加權(quán)特征編碼,并利用WaveRNN神經(jīng)網(wǎng)絡(luò)聲碼器恢復(fù)成波形,最終得到帶有目標(biāo)音色的音頻。
這樣一來,由源端音色到指定音色的轉(zhuǎn)化就變得輕易而精密了。
在以上技術(shù)原理的支持下,搜狗知音的“變聲”功能擁有三大功能亮點(diǎn):
首先,還原度極高,變聲到指定角色的音色與該角色的原始音色十分相似,幾乎可以做到以假亂真。
其次,自由空間大,搜狗這一“變聲”功能對用戶本身的音色沒有任何限制,每個(gè)人均可變聲到預(yù)先指定的音色,真正具有“任意人變聲到同一人”的能力。
最后,搜狗知音打破了音色轉(zhuǎn)換的局限,將用戶輸入的語音內(nèi)容、語速、停頓、情感等均轉(zhuǎn)化為超高逼真度的指定角色聲音,因此可以達(dá)到更自然的變聲溝通。
目前,在搜狗知音“變聲”功能中可供選擇的角色橫跨互聯(lián)網(wǎng)、明星類、動(dòng)漫類等多個(gè)類別,有近20種聲音,包含周星馳、蠟筆小新、小豬佩奇等多個(gè)經(jīng)典的角色,甚至還收錄了搜狗CEO王小川的聲音。
在聊天過程中,用戶可以使用他們的聲音完成“變裝”,增添聊天過程中的趣味程度。
當(dāng)然,用戶一鍵使用最新技術(shù)的背后,也離不開工程師們的付出。
而且在類似的國際前沿的技術(shù)突破領(lǐng)域,中國AI公司正在用研究和論文打響名氣。
在搜狗知音團(tuán)隊(duì)此次最新技術(shù)發(fā)布前,搜狗還聯(lián)合清華天工研究院在5月17日的語音頂級峰會(huì)ICASSP 2019上,發(fā)布了關(guān)于“基于模態(tài)注意力的端到端音視覺語音識別”的學(xué)術(shù)論文。
全球AI華山論劍,中國創(chuàng)新正在 making different~
本文地址:http://www.aiseesoft.com.cn/html/157f343896404.html
版權(quán)聲明
本文僅代表作者觀點(diǎn),不代表本站立場。
本文系作者授權(quán)發(fā)表,未經(jīng)許可,不得轉(zhuǎn)載。