国产精品亚洲一区二区无码,亚洲日本成人免费在线观看

繼視頻創(chuàng)作模型Sora后，OpenAI又放大招……

日前，OpenAI宣布推出全新人工智能模型。根據(jù)官方介紹，此次新聞的“主角”名為Voice Engine，是一款語音創(chuàng)作模型，利用文本輸入和單個15秒音頻樣本，能夠生成與原說話者非常相似且情感豐富的自然語音。

圖源：網(wǎng)絡

談及Voice Engine，OpenAI官方推特的措辭顯得異常小心而謹慎“我們正在分享從 Voice Engine模型的小規(guī)模預覽中獲得的經(jīng)驗體會”。

目前，OpenAI僅針對少部分內測用戶開放了Voice Engine。

Voice Engine：是顛覆，也做好了風險預設？

事實上，早在2022年底Voice Engine便已經(jīng)開發(fā)完成。彼時，Voice Engine被用來為文本到語音API以及ChatGPT語音和朗讀功能提供支持。不過，出于合成語音被濫用的考慮，OpenAI才選擇了謹慎有序地推進和發(fā)布。

圖源：大模型之家

如今，Voice Engine正式上市，不僅解鎖了語音模型更多可能性，還為AI在語音創(chuàng)作領域的巨大優(yōu)勢作出了十分具象化的表達。

根據(jù)公告顯示，OpenAI主要介紹了Voice Engine 5 個合作案例，分別為教育、多語言翻譯、社區(qū)衛(wèi)生、輔助通訊、神經(jīng)科學等領域。于此，我們不禁發(fā)問：Voice Engine，到底有何不同呢？

首先，Voice Engine極大地縮短了語音制作周期。以目前最為火熱的短視頻制作為例，傳統(tǒng)的配音制作通常需要經(jīng)歷配音演員錄音→編劇/導演調整→后期剪輯制作→導演復審→成片這一流程。而Voice Engine模型則僅需提取相關配音演員的15秒樣本，就能創(chuàng)造出富有感情和逼真的聲音。從模式上來說，Voice Engine簡化了原有的復雜流程，提高了工作效率；從配音演員的角度上看，Voice Engine大大提高了其自身的工作效率，讓“批量接活”、“批量成片”成為了現(xiàn)實。

其次，Voice Engine為語音創(chuàng)作提供了更高的創(chuàng)作自由度。相較于傳統(tǒng)語音創(chuàng)作，用戶只需通過簡單15秒的語言情緒表達，便可在Voice Engin的加持下為“成品”賦予多種“地若懸河”的語音表達色彩。眾所周知，由于目前市面上的內容分享平臺風格特性具有較大的差異化，因此不同平臺的“成品”評價標準并不相同，而Voice Engine創(chuàng)作自由度等特點，也在一定程度上為作品與不同平臺的適配度奠定了基礎。

同時，Voice Engine的語音生成質量也頗為出色。據(jù)悉，該技術在語音生成過程中并不使用用戶數(shù)據(jù)進行訓練或微調，而是通過結合Diffusion過程與Transformer技術直接生成語音，且在生成后會立即刪除使用的音頻數(shù)據(jù)。這使得生成的語音具有高度的還原感的同時，保障了用戶隱私。

值得注意的是，Voice Engine使用過程中所涉及到的“合成語音引發(fā)的電信詐騙”、“版權侵害”等社會風險問題也引發(fā)了大量討論及擔憂。

為此，OpenAI表示采取了一系列措施來確保安全，包括添加水印以追蹤使用方式、淘汰基于語音的身份驗證、教育公眾了解AI技術的能力和局限性等。通過這些舉措，OpenAI希望在保證技術潛力的同時，增強對潛在問題的抵御能力。

語音創(chuàng)作行業(yè)的雙刃劍

誠然，雖然自其問世以來，關于“Voice Engine是否會取代相關工作人員”的爭論不絕于耳，但在大模型之家與一眾視頻、紀錄片從業(yè)者交流后發(fā)現(xiàn)，持“看好態(tài)度”的從業(yè)者占據(jù)比例超過半數(shù)。同時，他們強調：Voice Engine不僅會成為語音制作過程中有力的助手，也將一定程度上實現(xiàn)效率、質量雙方面的提升。從長遠來看，Voice Engine可能會對相關行業(yè)產(chǎn)生一定程度的沖擊，推動聲音工作的標準化、流程化。

同時，Voice Engine模型作為一種強大語音創(chuàng)作的工具，為配音演員提供了一種全新的創(chuàng)作方式。目前，Voice Engine的定價為每百萬字符15美元，雖然存在“高清”選項，且其價格是標準價格的兩倍，但OpenAI表示兩者在聲音質量上并無區(qū)別。這不僅意味著語音創(chuàng)作門檻的降低，也在一定程度上使配音演員賽道向智能化、統(tǒng)一化過渡。

“Voice Engine生成的語音可能會缺乏某種真實感和細膩度。眾所周知，目前社交平臺上的廣告已經(jīng)完全摒棄傳統(tǒng)廣告行業(yè)的‘開門見山’，更多的是以劇情化、情感化故事為線索。而人工智能生成的語音或許能通過提取聲音素材找到配音演員的‘氣息發(fā)聲特點’，但仍會缺乏某種情感上的共鳴。”國內某綜藝后期剪輯師告訴大模型之家。

當然，也有一位視頻后期從業(yè)者向大模型之家表示了擔憂，指出雖然從技術層面不會對語音從業(yè)者造成實質性影響，但卻可能影響整個視頻的良性格局。“這種配音我們在無需真人拍攝，只需從網(wǎng)上尋找素材進行拼湊剪輯的時候會大量使用，但這種情況下生成的成品質量十分‘穩(wěn)妥’，可以說是千篇一律了”，這種變化可能會影響到整個行業(yè)的創(chuàng)新性和市場地位，因此仍然存在一定程度的擔憂和不確定性。

因此，大模型之家認為，盡管大眾都在討論Voice Engine問世帶來的一些“負面”影響，但其所催化的新機會與新的行業(yè)模型才更應被重點關注。Voice Engine的出現(xiàn)不僅簡化了語音制作流程，提高了效率，還為配音演員與這項技術的經(jīng)濟互動帶來了更多的可能。我們相信，隨著Voice Engin技術的普及和應用，擬人化創(chuàng)作的空間將愈加擴大，未來也會有更多出彩的語音創(chuàng)作作品涌現(xiàn)。

當然，從本質上看，Voice Engine是AI語音技術的延伸和發(fā)展。它的出現(xiàn)將進一步推動大模型的場景落地及想象邊界，促進相關技術的不斷迭代和進步。對于整個OpenAI 來說，Voice Engine的問世補全了其多模態(tài) AIGC 工具的又一塊拼圖，讓其成功蛻變?yōu)椋何纳摹狦PT、文生圖—DALLE、音頻轉文字（STT）——Whisper、文字轉音頻（TTS）——Voice Engine、文生視頻——Sora、多模態(tài)理解——GPT-4v的全能格局。縱使現(xiàn)在格局顯得有些零星分散，但卻是OpenAI通往 AGI 的道路上，領先且強大的全模態(tài)工具箱。

Voice Engine模擬人類聲線，隱私問題或成重要路卡？

Voice Engine模擬人類聲線，隱私問題或成重要路卡？