近日,喜馬拉雅用單田芳AI合成音所制作的TTS(語音合成)專輯總播放量破億,這標志著喜馬拉雅在現(xiàn)有的“UGC + PGC + PUGC”內(nèi)容生態(tài)之外,已經(jīng)通過AIGC探索出內(nèi)容生產(chǎn)的更多可能性。
據(jù)悉,喜馬拉雅“單田芳聲音重現(xiàn)”等賬號下上線的運用單田芳AI合成音所制作的專輯數(shù)量已經(jīng)有100多張,總播放量超過1億。其中,有15張專輯播放量破百萬,例如,《民國四大家族》播放量近730萬,《十二金錢鏢》播放量近700萬,《臥虎藏龍全集》播放量超390萬。
通過行業(yè)領(lǐng)先的TTS技術(shù),喜馬拉雅用AIGC引領(lǐng)長音頻行業(yè)的內(nèi)容生產(chǎn)變革,讓內(nèi)容生產(chǎn)提效。與此同時,喜馬拉雅還通過多項語音技術(shù)的加持,進一步提升用戶的內(nèi)容消費體驗。

T TS 技術(shù)完美復現(xiàn)單式評書
去年9月,在北京單田芳藝術(shù)傳播有限責任公司授權(quán)下,喜馬拉雅用TTS技術(shù)完美還原已逝的單田芳先生的聲音,并首次將單田芳先生的AI合成音全新演繹聽眾耳熟能詳?shù)慕?jīng)典之作。
為了能最大程度保留單老那蒼勁、沙啞的獨特嗓音以及情感充沛的評書腔調(diào),喜馬拉雅智能語音實驗室對單田芳先生聲音進行潛心探索和研發(fā),通過自主設(shè)計單獨的韻律提取模塊,并將其融入到 HiTTS 技術(shù)框架中,不僅完美復現(xiàn)了單老蒼勁、沙啞的“云遮月”式獨特嗓音,就連他那情感充沛、起伏跌宕的腔調(diào)也一并保留了下來,讓單老的AI合成音仿佛本尊再現(xiàn)。單田芳先生之子單瑞林也評價表示,“聽到TTS聲音,心魂間猛然一陣,仿佛父親又回到這個世界。”

喜馬拉雅已在TTS領(lǐng)域潛心鉆研多年,并專門成立喜馬拉雅智能語音實驗室,長期專注于語音合成、識別、語音信號處理、編解碼以及智能音效的研究和開發(fā)。喜馬拉雅智能語音實驗室的盧恒博士表示,針對小說的TTS系統(tǒng)和音色選取是喜馬拉雅TTS的亮點與特色。用真實自然的TTS音色演繹有聲小說是非常難的,不同于普通的文字轉(zhuǎn)語音,用TTS音色演繹小說需要學習小說中的抑揚頓挫、情感表達、上下文關(guān)系,區(qū)分旁白和對白,并最終將作品完美演繹出來。“喜馬拉雅在這方面有著天然的優(yōu)勢。在音頻賽道耕耘多年后,喜馬拉雅已經(jīng)聚集了海量有聲書內(nèi)容和眾多優(yōu)秀主播。喜馬拉雅智能語音實驗室嘗試用各式的聲音來表達不同的情感、題材和頻道,因而就有了更大的試驗和發(fā)揮空間。”
盧恒博士介紹,喜馬拉雅自研的TTS前端文本處理分析模塊已經(jīng)能夠高精度、全自動地對文本進行多音字識別、韻律預測和風格分類,并已開發(fā)出可以實現(xiàn)多情感、多風格、多語種聲音的TTS技術(shù)模型,不僅可以演繹不同情緒的文字,還可以自動區(qū)分旁白、對白,并支持英文,極大地豐富了TTS能表達的情感和韻律。
目前,喜馬拉雅已申請了20多項語音技術(shù)相關(guān)專利,其中有10多項TTS語音合成相關(guān)專利。 今年,還有兩項語音技術(shù)成果先后被世界頂尖學術(shù)會議“2022年IEEE國際音頻、語音與信號處理會議”收錄,展現(xiàn)了喜馬拉雅強大的語音技術(shù)實力。
A IGC 助力內(nèi)容生產(chǎn)提效
通過行業(yè)領(lǐng)先的TTS技術(shù),喜馬拉雅成為音頻領(lǐng)域AIGC的先行者。除了評書,喜馬拉雅多情感、多風格、多語種聲音的TTS技術(shù)模型已經(jīng)廣泛被運用于新聞、小說、財經(jīng)專輯等多種內(nèi)容的制作中。喜馬拉雅簽約和制作了不同的TTS音色,來適配不同的內(nèi)容、滿足用戶多樣的需求。
例如,喜馬拉雅原創(chuàng)TTS音色“喜曉峰”和“槍槍”已被應用于《聽秦說》《36氪·氪金大事件》《海清評財經(jīng) | 股票、債券及基金投資的一線參謀》等財經(jīng)專輯內(nèi)容中。其中,“秦朔朋友圈”賬號下《聽秦說》專輯過去更新頻率為每周一次,但在采用喜馬拉雅TTS技術(shù)后,開始每日更新。

“秦朔朋友圈”發(fā)起人、中國商業(yè)文明研究中心聯(lián)席主任、及《聽秦說》主播秦朔表示,過去沒有使用喜馬拉雅TTS技術(shù)時,需要真人錄制專輯內(nèi)容,耗時長,更新頻率低,而使用TTS技術(shù)后,內(nèi)容生產(chǎn)效率大幅提升,可以讓“秦朔朋友圈”的文章即時音頻更新,輕輕松松便實現(xiàn)了日更,專輯的播放量和互動數(shù)據(jù)都顯著提升。
除此之外,新京報、環(huán)球時報、瀟湘晨報、時代周報、海外網(wǎng)、刺猬公社等數(shù)十家媒體也通過喜馬拉雅多種標準普通話男聲和女聲的TTS音色上線了超過40張TTS專輯。
今年,喜馬拉雅基于自研的TTS框架,采集頭部主播“喜道公子”的真聲打造的AI主播“喜小道”,與AI續(xù)寫應用“彩云小夢”合作,打造了首個從故事創(chuàng)作到演播均由AI完成的AI電臺。
AIGC不僅助力喜馬拉雅和內(nèi)容創(chuàng)作者實現(xiàn)內(nèi)容生產(chǎn)提效,推動創(chuàng)作者布局音頻,實現(xiàn)轉(zhuǎn)型升級,也給用戶帶來更豐富的內(nèi)容。
A I 技術(shù)助力 內(nèi)容 體驗增值
與此同時,喜馬拉雅也通過TTS、ASR、語音信號處理算等多種AI技術(shù)進一步提升用戶的內(nèi)容消費體驗。
目前,喜馬拉雅已經(jīng)與近百家網(wǎng)絡(luò)平臺和出版機構(gòu)合作上線近6萬本電子書,而TTS技術(shù)能為這些電子書實時生成TTS聲音,讓用戶可以邊聽邊看,從而為用戶帶來“聽看一體”的內(nèi)容服務(wù)。
近期,喜馬拉雅又利用行業(yè)領(lǐng)先的自動語音識別技術(shù)(ASR)以及對齊算法,上線了全新版本的AI文稿功能,用戶在收聽喜馬拉雅音頻內(nèi)容的時候,也可以在收聽頁面同步閱讀相應的文字內(nèi)容,享受“邊聽邊看”、“聽看一體“的內(nèi)容消費體驗。
全新上線的AI文稿功能,能有效識別無文稿聲音內(nèi)容,為其自動生成文稿;對于已經(jīng)有原始文稿的聲音內(nèi)容,則采用超長音頻與文本的對齊技術(shù),將聲音與文稿進行時間戳對軌,從而在聲音播放的同時,對相應文字進行同步高亮,實現(xiàn)聲字同步,讓用戶能更便捷地享受邊聽邊看的內(nèi)容消費體驗。這不僅進一步提升用戶體驗,有利于增強用戶粘性,也使用戶能夠在不同場景中,自由切換聽和看兩種形式,暢享喜馬拉雅平臺上的豐富內(nèi)容,進一步拓展了喜馬拉雅的多元化使用場景。


喜馬拉雅還通過語音信號處理算法(SSP)率先在長音頻領(lǐng)域帶來智能音效,推出超重低音、劇院混響、清澈人聲三種喜馬拉雅專屬音效,讓用戶可以為不同內(nèi)容匹配不同音效,享受更加優(yōu)質(zhì)的收聽體驗。接下來,喜馬拉雅將上線更多的專屬音效,為用戶提供更加多樣的收聽選擇。
喜馬拉雅作為深受用戶喜愛的在線音頻平臺,始終堅持以科技賦能文化。未來,喜馬拉雅將繼續(xù)讓技術(shù)賦能創(chuàng)作者、服務(wù)用戶,讓內(nèi)容生產(chǎn)提效,讓內(nèi)容體驗增值,用技術(shù)加持聲音、用聲音服務(wù)生活。
(新媒體責編:pl2022)
聲明:
1、凡本網(wǎng)注明“人民交通雜志”/人民交通網(wǎng),所有自采新聞(含圖片),如需授權(quán)轉(zhuǎn)載應在授權(quán)范圍內(nèi)使用,并注明來源。
2、部分內(nèi)容轉(zhuǎn)自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3、如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進行。電話:010-67683008
人民交通24小時值班手機:17801261553 商務(wù)合作:010-67683008轉(zhuǎn)602 E-mail:zzs@rmjtzz.com
Copyright 人民交通雜志 All Rights Reserved 版權(quán)所有 復制必究 百度統(tǒng)計 地址:北京市豐臺區(qū)南三環(huán)東路6號A座四層
增值電信業(yè)務(wù)經(jīng)營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務(wù)所 李大偉
京公網(wǎng)安備 11010602130064號 京ICP備18014261號-2 廣播電視節(jié)目制作經(jīng)營許可證:(京)字第16597號