IT之家 3 月 5 日消息,今天晚間,據(jù) The Information 報(bào)道,OpenAI 正在開(kāi)發(fā)一種新的語(yǔ)音模型,希望讓用戶與 ChatGPT 的對(duì)話更加自然。當(dāng)用戶在 AI 說(shuō)話過(guò)程中打斷系統(tǒng)時(shí),AI 可以實(shí)時(shí)調(diào)整回應(yīng),而不是像現(xiàn)在一樣突然停止。
目前 ChatGPT 的高級(jí)語(yǔ)音模式采用回合式對(duì)話機(jī)制。用戶必須先說(shuō)完話,AI 才會(huì)處理語(yǔ)音并生成回答。如果用戶在 AI 發(fā)言時(shí)插入“okay”或“mm-hm”等回應(yīng),系統(tǒng)通常會(huì)直接停止,而不會(huì)繼續(xù)像正常對(duì)話那樣進(jìn)行。
OpenAI 正在開(kāi)發(fā)的新模型名為 BiDi(IT之家注:雙向語(yǔ)音模型)。該模型能夠持續(xù)處理說(shuō)話者的語(yǔ)音輸入,因此在被打斷時(shí)可以立即調(diào)整回應(yīng)。相比之下,現(xiàn)有語(yǔ)音模型一旦開(kāi)始生成回答,輸出內(nèi)容就基本固定,無(wú)法再根據(jù)新的輸入進(jìn)行變化。
這項(xiàng)技術(shù)仍處于開(kāi)發(fā)階段。一名了解項(xiàng)目情況的人士表示,原型模型在持續(xù)對(duì)話幾分鐘后容易出現(xiàn)故障,有時(shí)甚至?xí)l(fā)出不自然的聲音。OpenAI 研究人員原本希望今年第一季度發(fā)布 BiDi,而目前最新的發(fā)布時(shí)間可能推遲到第二季度或更晚。
OpenAI 認(rèn)為,如果語(yǔ)音模型能夠在性能上接近文本模型,AI 的使用范圍將進(jìn)一步擴(kuò)大,因?yàn)榇蠖鄶?shù)人更習(xí)慣與 AI 進(jìn)行語(yǔ)音交流,而不是輸入文字。
BiDi 模型在客服場(chǎng)景中可能尤其有價(jià)值。例如,當(dāng)顧客與零售商的 AI 客服通話時(shí),如果顧客在對(duì)話過(guò)程中臨時(shí)決定選擇換貨而非退貨,BiDi 模型理論上可以讓 AI 客服順暢調(diào)整對(duì)話,而不會(huì)突然停止或出現(xiàn)混亂。
這名知情人士還表示,BiDi 模型在調(diào)用外部工具和應(yīng)用方面也更靈活。據(jù)IT之家了解,OpenAI 此前表示,公司計(jì)劃為未來(lái)一款主要通過(guò)語(yǔ)音交互的 AI 設(shè)備改進(jìn)語(yǔ)音模型,并考慮開(kāi)發(fā)一款智能音箱,通過(guò)語(yǔ)音指令即可查看郵件或預(yù)訂服務(wù)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。