国产无遮挡色视频免费视频-国产五月色婷婷综合-国产五月婷婷-国产午夜不卡-曰批免费视频播放在线看片二-曰韩一级毛片

更多精彩 >

微軟深度神經(jīng)網(wǎng)絡(luò)語音,定制個(gè)性化的自然人聲

2020-12-01 14:54:50   來源:投資家網(wǎng)專欄  作者:螳螂財(cái)經(jīng) 

摘要:以往,談及對合成語音的刻板印象,很多人會聯(lián)想到《星球大戰(zhàn)》中的C-3PO——那個(gè)有著近似人類外形金光閃閃的家伙,它是整個(gè)系列影片中毫無爭議的搞笑擔(dān)當(dāng),其動作僵硬而滑稽,說起話來喋喋不休,聲音中混雜著輕微的交流聲和金屬質(zhì)感的回聲。直到今天,它那獨(dú)特的嗓音,仍然是很多科幻片中人工智能發(fā)聲的模板。

以往,談及對合成語音的刻板印象,很多人會聯(lián)想到《星球大戰(zhàn)》中的C-3PO——那個(gè)有著近似人類外形金光閃閃的家伙,它是整個(gè)系列影片中毫無爭議的搞笑擔(dān)當(dāng),其動作僵硬而滑稽,說起話來喋喋不休,聲音中混雜著輕微的交流聲和金屬質(zhì)感的回聲。直到今天,它那獨(dú)特的嗓音,仍然是很多科幻片中人工智能發(fā)聲的模板。

第一部《星球大戰(zhàn)》公映于1977年,彼時(shí),個(gè)人電腦才剛剛走出實(shí)驗(yàn)室,人們對于人工智能的想象力仍受限于時(shí)代。去年,該系列推出了最后一部作品《星球大戰(zhàn):天行者崛起》,C-3PO的聲音還是人們熟悉的老樣子。而現(xiàn)實(shí)中,智能語音技術(shù)飛速發(fā)展,取而代之的是聽感越來越趨于自然、逼真的“合成人聲”,讓越來越多的企業(yè)于實(shí)現(xiàn)了與客戶的多模態(tài)互動。

合成人聲的用途相當(dāng)廣泛,我們熟知的便是手機(jī)中的語音助手,用戶可通過簡單的人機(jī)對話,獲知天氣、路況等實(shí)時(shí)信息,也可命令手機(jī)完成撥號、查詢等任務(wù)。這一類應(yīng)用被稱作實(shí)時(shí)語音合成,它對基于云的計(jì)算力提出了很高的要求,除了需要對聲音的自然度不斷地進(jìn)行優(yōu)化外,實(shí)時(shí)合成對于語音合成引擎和平臺架構(gòu)也都有著極高的要求,必須保障在極低的延遲下,提供準(zhǔn)確、穩(wěn)定、自然的聲音內(nèi)容。另一類常見的應(yīng)用是利用人工智能語音合成有聲內(nèi)容,這類應(yīng)用通常會在語音服務(wù)端進(jìn)行非實(shí)時(shí)的批量合成,然后再將有聲內(nèi)容文件提供給用戶。有聲內(nèi)容合成的主要挑戰(zhàn)在于如何通過多種角色扮演和豐富情感表達(dá),降低聽眾單向接收有聲內(nèi)容的聽覺疲勞。

以往,有聲書需要由專業(yè)朗誦者來錄制,制作周期長達(dá)數(shù)月且成本高昂。如今,通過智能合成語音錄制有聲書,制作周期可縮短至幾小時(shí),甚至是幾分鐘。即便在需要人工干預(yù)校對和聲音編輯的情況下,制作周期也可縮短至數(shù)周,節(jié)省了大量的人力、物力及時(shí)間成本,且得到的效果幾乎與真人朗誦別無二致。今年的“世界讀書日”,由周迅與公益組織紅丹丹聯(lián)合發(fā)起的為視障人士讀書活動,向我們展示了語音合成技術(shù)的新高度。在此之前,創(chuàng)建一個(gè)高質(zhì)量的語音合成模型需要以大量真人原聲為樣本進(jìn)行機(jī)器學(xué)習(xí),樣本量通常會超過10小時(shí)或10000句。而這次公益活動的主辦方采用了由微軟最新開發(fā)的深度神經(jīng)網(wǎng)絡(luò)語音合成定制系統(tǒng),只采集了半小時(shí)大約500句的周迅原聲錄音,便通過深度定制的語音模型,惟妙惟肖地復(fù)原了周迅的聲音。

這里所說的“復(fù)原”不只是周迅頗具特色的聲線,也包括周迅在朗讀時(shí)的語氣、情緒、語調(diào)、抑揚(yáng)頓挫等。可以想象,隨著這一技術(shù)的普及,有聲書行業(yè)也將隨之發(fā)生巨大的改變。微軟將在國際殘疾人日捐贈的100小時(shí)有聲書籍正昭示著這種改變的開始。

微軟深度神經(jīng)網(wǎng)絡(luò)是基于Azure云的端到端語音合成系統(tǒng),由前端、聲學(xué)模型和聲碼器三部分組成。前端主要解決基于語義理解的文本發(fā)音問題,比如“2020”在表示年份和數(shù)字時(shí)的讀法不一樣,這是上下文關(guān)聯(lián)問題;再比如“堡”字,用于地名時(shí)應(yīng)讀作“鋪”,“解”用在姓氏上應(yīng)讀作“謝”,這都是多音字問題;還有“一會兒”這類詞,不能讀成三個(gè)字,后兩個(gè)字應(yīng)合并為兒化音,這是語言習(xí)慣問題。聲學(xué)模型負(fù)責(zé)為語音賦予韻律,比如語速、語調(diào)、停頓、重音和情緒變化等。最后一部分聲碼器負(fù)責(zé)還原語音的聲學(xué)特征,也就是一般所說的嗓音或聲線,如振幅、頻率、波長等。

深度神經(jīng)網(wǎng)絡(luò)模型是當(dāng)前最先進(jìn)的語音合成技術(shù),但相應(yīng)的主流產(chǎn)品在合成效率、效果,以及所需聲音樣本量上,卻存在很大差異。以樣本量為例,微軟的語音合成定制技術(shù)處于行業(yè)領(lǐng)先地位,一般情況下,只需要不超過2000句的內(nèi)容,就可以做到非常逼真的還原。那么,在周迅的案例中,是如何做到只需500句甚至更少的聲音素材就達(dá)到類似效果呢?微軟還有一個(gè)“殺器”——通用模型。通用模型是在對海量語料庫進(jìn)行大數(shù)據(jù)分析的基礎(chǔ)上,不斷訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)人類語言與發(fā)聲特征后得到的。目前微軟通用語料庫的容量已經(jīng)超過3000小時(shí),覆蓋了50多個(gè)語種,通過它提煉出來的通用模型已經(jīng)熟練掌握了這50多種語言的幾乎全部發(fā)聲規(guī)律,甚至包括真人說話時(shí)換氣和咽口水的細(xì)節(jié)都可以模仿出來。當(dāng)微軟需要基于像周迅這樣只有500句話甚至更少內(nèi)容的語料庫做語音定制時(shí),便可以在通用模型基礎(chǔ)上,通過遷移學(xué)習(xí)法來建立周迅聲音的擴(kuò)展模型。

目前,微軟的語音合成定制系統(tǒng)只需要半小時(shí)左右的聲音樣本便可建立定制語音模型,與傳統(tǒng)TTS建模所需的至少10小時(shí)或10000句的聲音樣本量相比,是一個(gè)從量到質(zhì)的飛躍。這一飛躍使得面向更多的企業(yè)甚至于普通消費(fèi)者的個(gè)人聲音定制成為可能。

微軟之所以能在語音合成領(lǐng)域保持領(lǐng)先地位,主要得益于其20多年來在算法和定制模型上所積累的深厚功力。自從1991年微軟研究院成立以來,微軟一直將語音作為主要的研究領(lǐng)域,儲備、積累了大量的人工智能相關(guān)技術(shù)。2018年9月,微軟率先開始測試基于深度神經(jīng)網(wǎng)絡(luò)的端到端語音合成系統(tǒng),為人工智能語音技術(shù)的發(fā)展揭開了新的一頁。

前不久,微軟將其定制的通用中文發(fā)聲與市場上的主流產(chǎn)品進(jìn)行了盲測對比,微軟的MOS得分(5分制)為4.35,居于領(lǐng)先地位,表明合成語音與真人聲音已經(jīng)非常接近(真人的MOS得分為4.41)。

除了語音助手和有聲書籍錄制外,語音合成技術(shù)還廣泛應(yīng)用于智能語音客服領(lǐng)域,這也是微軟目前在to B領(lǐng)域的主要發(fā)力點(diǎn),比如很多航空公司、電商平臺、電信運(yùn)營商等都在嘗試使用微軟的智能語音客服來緩解人工壓力。智能語音客服可以解決很多常見的標(biāo)準(zhǔn)化問題,減少客戶的等待時(shí)間,為客戶帶來更好的服務(wù)體驗(yàn)。在應(yīng)對突發(fā)事件方面,智能語音客服更有得天獨(dú)厚的優(yōu)勢,很多突發(fā)事件都會造成客戶咨詢量在短時(shí)間內(nèi)爆發(fā)式增長,在這種情況下,企業(yè)如果增設(shè)人工客服,一方面可能在時(shí)間上來不及,另一方面?zhèn)}促上崗也可能導(dǎo)致服務(wù)質(zhì)量的難以保證。

目前,微軟為企業(yè)定制智能語音客服大致需要300至2000句語料訓(xùn)練,以滿足特定應(yīng)用場景的需求;對于需要定制適用于多場景、富有多種情緒甚至涵蓋多語種的品牌聲音的企業(yè)而言,語料訓(xùn)練則有更高要求。

上述兩種定制目前都會有人工參與測試和適當(dāng)調(diào)校并向客戶提供靈活的接入方式,即通過API或SDK接入微軟的Azure公有云,實(shí)現(xiàn)端到端的實(shí)時(shí)合成。如果客戶有特殊需求,產(chǎn)品也可部署在私有云甚至離線設(shè)備中。未來,這兩種系統(tǒng)都將實(shí)現(xiàn)自動化定制。實(shí)際上,微軟已經(jīng)邀請合作伙伴開始小范圍的自動化系統(tǒng)測試,可能在不久的將來正式發(fā)布此系列產(chǎn)品。

可以預(yù)期,伴隨著相關(guān)技術(shù)的發(fā)展,智能語音在個(gè)人及商業(yè)領(lǐng)域中的應(yīng)用場景將更加豐富,不斷細(xì)分的合成語音服務(wù)也會給我們帶來更多的體驗(yàn)和驚喜。同時(shí),微軟提出了人工智能六項(xiàng)倫理道德準(zhǔn)則:公平、可靠和安全、隱私和保證、包容、透明和責(zé)任。倡導(dǎo)負(fù)責(zé)任的人工智能。這些原則將為人工智能的發(fā)展保駕護(hù)航,予力全球每一人、每一組織,成就不凡!

直播鏈接:https://live.bilibili.com/h5/4306336

*本文圖片均來源于網(wǎng)絡(luò)


猜你喜歡

微軟發(fā)布首款A(yù)I PC ,產(chǎn)業(yè)鏈有望迎來新一輪量價(jià)齊升

微軟

3月21日晚,微軟舉辦主題為“辦公新時(shí)代”的線上新品發(fā)布會

2024-03-22

李星

假如比爾·蓋茨和微軟也不可信

微軟比爾·蓋茨

距離TikTok被強(qiáng)制收購或者強(qiáng)制關(guān)閉還有不到一個(gè)月。

2020-08-28

寧德時(shí)代vs中創(chuàng)新航風(fēng)云再起,涉訴專利竟被欣旺達(dá)的專利公開diss

上市公司寧德時(shí)代

1月17日晚間的消息,寧德時(shí)代又雙叒叕訴中創(chuàng)新航了,索賠6000萬。訴訟地依然沒有出福建,選在了泉州...

2025-01-20

共筑校園餐飲營養(yǎng)健康新標(biāo)準(zhǔn),中糧餐飲攜手學(xué)校、家長“三方共進(jìn)”

中糧餐飲

近期,教育部與衛(wèi)健委分別發(fā)布相關(guān)政策,強(qiáng)調(diào)校園餐飲安全與營養(yǎng)的重要性。

2025-01-20

原創(chuàng)

突破數(shù)據(jù)技術(shù)高門檻,云器開放"零成本"企業(yè)級數(shù)據(jù)平臺

數(shù)據(jù)

2025年1月15日,云器科技舉行了云器Lakehouse產(chǎn)品開放注冊發(fā)布會。

2025-01-20

來京東用國補(bǔ)購華為、榮耀、小米等大牌手機(jī) 至高立減500元

京東大消費(fèi)

年前想換手機(jī)的消費(fèi)者有福了!1月20日,手機(jī)等數(shù)碼產(chǎn)品購新補(bǔ)貼正式落地京東!

2025-01-20

全球首例!跨3000km三地輪轉(zhuǎn)式遠(yuǎn)程手術(shù)在鄭大一附院成功實(shí)施

醫(yī)療健康鄭州大學(xué)第一附屬醫(yī)院

借助遠(yuǎn)程操控和機(jī)器人技術(shù),基層患者不必長途奔波即可享受頂級專家的精準(zhǔn)手術(shù)治療,同時(shí)基層醫(yī)師通過全程觀...

2025-01-20

孚能科技新年強(qiáng)勢開局:SPS技術(shù)再獲認(rèn)可,全固態(tài)電池驚艷亮相

上市公司孚能科技

2025年新年伊始,國內(nèi)軟包龍頭孚能科技(688567)繼披露實(shí)控人變更進(jìn)展暨復(fù)牌公告后,又迎來了新...

2025-01-20

望華資本董事長戚克栴:投資方法、經(jīng)濟(jì)轉(zhuǎn)型與未來機(jī)遇

金融科技望華資本

1月12日,高觀投資創(chuàng)始人羅蘭士先生《鑄就:亞洲股權(quán)投資40年》新書發(fā)布會在北京成功舉辦

2025-01-20

Tik Tok 用戶涌入小紅書,連鎖反應(yīng)或?yàn)辄S金多頭增加砝碼?

金融科技巨象金業(yè)

這群自稱為 "Tik Tok refugee" 的國外網(wǎng)友進(jìn)入小紅書幾天后,畫風(fēng)逐漸偏離。

2025-01-20

晨豐科技迎政策東風(fēng) 塑造行業(yè)新未來

上市公司晨豐科技

在全球能源轉(zhuǎn)型的大背景下,我國政府出臺了一系列政策,旨在推動能源行業(yè)向綠色、低碳、高效的方向發(fā)展。在...

2025-01-20

原創(chuàng)

中國時(shí)尚引領(lǐng)消費(fèi)升級!蛇年首款天價(jià)手機(jī)殼,率先賣爆了!

上市公司決色

無論是贊譽(yù)還是質(zhì)疑,都反映了市場對近幾年不斷漲價(jià)的手機(jī)殼行業(yè)的關(guān)注。

2025-01-20

投資家網(wǎng)(m.51baobao.cn)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。

沙特天空塔投資設(shè)立專項(xiàng)基金帶領(lǐng)中國氫能獨(dú)角獸扎根沙特

2016年注冊于北京的中氫新能技術(shù)有限公司,下設(shè)位于大興的裝備制造公司、位于海淀區(qū)的技術(shù)研究院、材料...

挑戰(zhàn)奔馳的明星車企,突然“翻車”了

一度無比高光的理想汽車,猝不及防遭遇重挫。

深圳天使母基金姚小雄:將來股權(quán)投資行業(yè)競爭是服務(wù)能力的競爭

2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時(shí)間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

避免卡脖子,硬科技如何“逆境”突圍?

2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時(shí)間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

VC/PE眼中的“專精特新”

2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時(shí)間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

第二屆中匈可再生能源、新材料商業(yè)投資峰會將盛大啟幕

第二屆中匈可再生能源、新材料商業(yè)投資峰會將盛大啟幕

第二屆中匈可再生能源、新材料商業(yè)投資峰會于2025年4月9日在匈牙利布達(dá)佩斯盛大啟幕。

雕刻耐心|第18屆中國投資年會·有限合伙人峰會在滬召開

雕刻耐心|第18屆中國投資年會·有限合伙人峰會在滬召開

“中國投資年會”作為私募股權(quán)行業(yè)的年度盛會,已成功舉辦了18屆,吸引了全國VC/PE領(lǐng)域從業(yè)者的廣泛...

雕刻耐心|第18屆中國投資年會·有限合伙人峰會即將啟幕

雕刻耐心|第18屆中國投資年會·有限合伙人峰會即將啟幕

2024年的一級市場,“耐心”是最高命題,也引發(fā)了持續(xù)全年的討論。

不響不輟|第18屆中國投資年會·年度峰會在滬召開

不響不輟|第18屆中國投資年會·年度峰會在滬召開

5月8-10日,由投中信息、投中網(wǎng)主辦的“第18屆中國投資年會·年度峰會”在上海外灘W酒店盛大召開。

主站蜘蛛池模板: 国产三级在线观看免费 | 国产成人永久免费视频 | 亚洲成a人片在线观看精品 亚洲成a人片在线观看中 | 久久18| 在线播放性xxx欧美 在线播放亚洲视频 | 中文一区二区在线观看 | 秀人网私拍福利视频在线 | 精品国产精品久久一区免费式 | 国产免费人视频在线观看免费 | 中文字幕在线日韩 | 女子张开腿让男人桶视频 | 美女视频一区二区三区在线 | 男女同床爽爽视频免费 | 欧美成人私人视频88在线观看 | 中国美女黄色一级片 | 国产亚洲男人的天堂在线观看 | 国产午夜精品理论片影院 | 精品一区二区三区五区六区 | 精品亚洲欧美高清不卡高清 | 亚洲综合国产一区在线 | 成人在线精品 | 国产亚洲午夜精品a一区二区 | 国产亚洲精品看片在线观看 | 欧美aaa级| 国产大学生自拍 | 深爱五月开心网亚洲综合 | 亚洲伊人色一综合网 | 亚洲国产欧美日韩第一香蕉 | 女教师的一级毛片 | 精品一区二区三区波多野结衣 | a级毛片在线免费看 | 成人午夜影视 | 国产高颜值露脸在线观看 | 国产精品成人在线 | 亚洲精彩| 国产网站在线看 | 国产色在线观看 | 中文字幕 亚洲 一区二区三区 | 黄色三级网站在线观看 | 99精品在线视频观看 | 又黄又免费的网站 |