Voice Engine模擬人類聲線,隱私問題或成重要路卡?

視頻創(chuàng)作模型Sora后,OpenAI又放大招……

日前,OpenAI宣布推出全新人工智能模型。根據(jù)官方介紹,此次新聞的“主角”名為Voice Engine,是一款語音創(chuàng)作模型,利用文本輸入和單個15秒音頻樣本,能夠生成與原說話者非常相似且情感豐富的自然語音。

圖源:網(wǎng)絡

談及Voice Engine,OpenAI官方推特的措辭顯得異常小心而謹慎“我們正在分享從 Voice Engine模型的小規(guī)模預覽中獲得的經(jīng)驗體會”。

目前,OpenAI僅針對少部分內測用戶開放了Voice Engine。

Voice Engine:是顛覆,也做好了風險預設?

事實上,早在2022年底Voice Engine便已經(jīng)開發(fā)完成。彼時,Voice Engine被用來為文本到語音API以及ChatGPT語音和朗讀功能提供支持。不過,出于合成語音被濫用的考慮,OpenAI才選擇了謹慎有序地推進和發(fā)布。

Voice Engine模擬人類聲線,隱私問題或成重要路卡?

圖源:大模型之家

如今,Voice Engine正式上市,不僅解鎖了語音模型更多可能性,還為AI在語音創(chuàng)作領域的巨大優(yōu)勢作出了十分具象化的表達。

根據(jù)公告顯示,OpenAI主要介紹了Voice Engine 5 個合作案例,分別為教育、多語言翻譯、社區(qū)衛(wèi)生、輔助通訊、神經(jīng)科學等領域。于此,我們不禁發(fā)問:Voice Engine,到底有何不同呢?

首先,Voice Engine極大地縮短了語音制作周期。以目前最為火熱的短視頻制作為例,傳統(tǒng)的配音制作通常需要經(jīng)歷配音演員錄音→編劇/導演調整→后期剪輯制作→導演復審→成片這一流程。而Voice Engine模型則僅需提取相關配音演員的15秒樣本,就能創(chuàng)造出富有感情和逼真的聲音。從模式上來說,Voice Engine簡化了原有的復雜流程,提高了工作效率;從配音演員的角度上看,Voice Engine大大提高了其自身的工作效率,讓“批量接活”、“批量成片”成為了現(xiàn)實。

其次,Voice Engine為語音創(chuàng)作提供了更高的創(chuàng)作自由度。相較于傳統(tǒng)語音創(chuàng)作,用戶只需通過簡單15秒的語言情緒表達,便可在Voice Engin的加持下為“成品”賦予多種“地若懸河”的語音表達色彩。眾所周知,由于目前市面上的內容分享平臺風格特性具有較大的差異化,因此不同平臺的“成品”評價標準并不相同,而Voice Engine創(chuàng)作自由度等特點,也在一定程度上為作品與不同平臺的適配度奠定了基礎。

同時,Voice Engine的語音生成質量也頗為出色。據(jù)悉,該技術在語音生成過程中并不使用用戶數(shù)據(jù)進行訓練或微調,而是通過結合Diffusion過程與Transformer技術直接生成語音,且在生成后會立即刪除使用的音頻數(shù)據(jù)。這使得生成的語音具有高度的還原感的同時,保障了用戶隱私。

值得注意的是,Voice Engine使用過程中所涉及到的“合成語音引發(fā)的電信詐騙”、“版權侵害”等社會風險問題也引發(fā)了大量討論及擔憂。

為此,OpenAI表示采取了一系列措施來確保安全,包括添加水印以追蹤使用方式、淘汰基于語音的身份驗證、教育公眾了解AI技術的能力和局限性等。通過這些舉措,OpenAI希望在保證技術潛力的同時,增強對潛在問題的抵御能力。

語音創(chuàng)作行業(yè)的雙刃劍

誠然,雖然自其問世以來,關于“Voice Engine是否會取代相關工作人員”的爭論不絕于耳,但在大模型之家與一眾視頻、紀錄片從業(yè)者交流后發(fā)現(xiàn),持“看好態(tài)度”的從業(yè)者占據(jù)比例超過半數(shù)。同時,他們強調:Voice Engine不僅會成為語音制作過程中有力的助手,也將一定程度上實現(xiàn)效率、質量雙方面的提升。從長遠來看,Voice Engine可能會對相關行業(yè)產(chǎn)生一定程度的沖擊,推動聲音工作的標準化、流程化。

同時,Voice Engine模型作為一種強大語音創(chuàng)作的工具,為配音演員提供了一種全新的創(chuàng)作方式。目前,Voice Engine的定價為每百萬字符15美元,雖然存在“高清”選項,且其價格是標準價格的兩倍,但OpenAI表示兩者在聲音質量上并無區(qū)別。這不僅意味著語音創(chuàng)作門檻的降低,也在一定程度上使配音演員賽道向智能化、統(tǒng)一化過渡。

Voice Engine生成的語音可能會缺乏某種真實感和細膩度。眾所周知,目前社交平臺上的廣告已經(jīng)完全摒棄傳統(tǒng)廣告行業(yè)的‘開門見山’,更多的是以劇情化、情感化故事為線索。而人工智能生成的語音或許能通過提取聲音素材找到配音演員的‘氣息發(fā)聲特點’,但仍會缺乏某種情感上的共鳴。”國內某綜藝后期剪輯師告訴大模型之家。

當然,也有一位視頻后期從業(yè)者向大模型之家表示了擔憂,指出雖然從技術層面不會對語音從業(yè)者造成實質性影響,但卻可能影響整個視頻的良性格局。“這種配音我們在無需真人拍攝,只需從網(wǎng)上尋找素材進行拼湊剪輯的時候會大量使用,但這種情況下生成的成品質量十分‘穩(wěn)妥’,可以說是千篇一律了”,這種變化可能會影響到整個行業(yè)的創(chuàng)新性和市場地位,因此仍然存在一定程度的擔憂和不確定性。

因此,大模型之家認為,盡管大眾都在討論Voice Engine問世帶來的一些“負面”影響,但其所催化的新機會與新的行業(yè)模型才更應被重點關注。Voice Engine的出現(xiàn)不僅簡化了語音制作流程,提高了效率,還為配音演員與這項技術的經(jīng)濟互動帶來了更多的可能。我們相信,隨著Voice Engin技術的普及和應用,擬人化創(chuàng)作的空間將愈加擴大,未來也會有更多出彩的語音創(chuàng)作作品涌現(xiàn)。

當然,從本質上看,Voice Engine是AI語音技術的延伸和發(fā)展。它的出現(xiàn)將進一步推動大模型的場景落地及想象邊界,促進相關技術的不斷迭代和進步。對于整個OpenAI 來說,Voice Engine的問世補全了其多模態(tài) AIGC 工具的又一塊拼圖,讓其成功蛻變?yōu)椋何纳摹狦PT、文生圖—DALLE、音頻轉文字(STT)——Whisper、文字轉音頻(TTS)——Voice Engine、文生視頻——Sora、多模態(tài)理解——GPT-4v的全能格局。縱使現(xiàn)在格局顯得有些零星分散,但卻是OpenAI通往 AGI 的道路上,領先且強大的全模態(tài)工具箱。

(0)
上一篇 2024年4月7日 15:56
下一篇 2024年4月7日 16:46