7月30日,OpenAI推出了ChatGPT的高級語音模式,為用戶帶來了前所未有的GPT-4o超逼真語音交互體驗。
7 月 30 日,OpenAI 推出了 ChatGPT 高級語音模式,用戶首次能夠體驗 GPT-4o 超逼真語音交互。目前,Alpha 版本面向于小部分 ChatGPT Plus 用戶,秋季之后將逐步推廣至所有 Plus 用戶。
OpenAI 表示,春季更新期間演示的視頻和屏幕共享功能并不包括在 Alpha 版本在內(nèi),而是在后面推出。
ChatGPT 高級語音模式不同于此前的語音模式,原有的音頻解決方案使用了三個獨立的模型:一個用于將用戶的語音轉(zhuǎn)換為文本,然后由 GPT-4 處理 Prompt,然后由第三個模型將 ChatGPT 生成的文本轉(zhuǎn)化為語音。
GPT-4o 是一個多模態(tài)模型,能夠在沒有其他模型輔助的情況下處理這些任務(wù),因為在體驗上將顯著降低對話的延遲。
OpenAI 還透露,GPT-4o 可以感知用戶聲音中的情緒語調(diào),包括悲傷、興奮或者唱歌;目前,Alpha 組的用戶將在 ChatGPT 中收到提醒,并將收到一封郵件介紹如何使用。
據(jù)悉,高級語音模式種的預(yù)設(shè)聲音將僅限 Juniper、Breeze、Cove 以及 Ember,這些都是與付費配音演員合作制作的,而 5 月份演示的 Sky 聲音將不再可用。
OpenAI 發(fā)言人 Lindsay McCallum 表示,ChatGPT 目前還無法模仿其他人的聲音,無論是個人還是公眾人物,并且會屏蔽與這四種預(yù)設(shè)聲音不同的輸出。
此外,OpenAI 引入了新的過濾方式來避免模型生成受版權(quán)保護的音頻,從而造成法律糾紛。
自發(fā)布 Demo 以來,OpenAI 已經(jīng)與 100 多名使用 45 種不同語言的外部紅隊成員一起測試了 GPT-4o 語音功能,相關(guān)的安全措施報告將在 8 月初發(fā)布。
轉(zhuǎn)載請注明來自浙江中液機械設(shè)備有限公司 ,本文標(biāo)題:《速遞|OpenAI 推出 ChatGPT 高級語音模式,Plus 用戶率先體驗 GPT-4o 超逼真語音交互》
還沒有評論,來說兩句吧...