近日拿起手機,經(jīng)常被霸屏的當(dāng)屬某紅色軟件,不是淘某、不是拼某某、更不是阿里某某,而是小某書。只要打開軟件首頁,不多會就能刷到一大批外國 IP 的動態(tài),不是英語老外的個人自拍,就是舉著貓貓和狗狗說來交貓稅狗稅的,再就是用蹩腳的機翻中文來對賬、求助甚至幫忙做英語和中文作業(yè)的社交帖。


要不是自己一直有小某書的賬號,并且反復(fù)確認(rèn) IP,還真的懷疑這里變成了國外友人的大型認(rèn)親現(xiàn)場。這給我干哪來了,還是國內(nèi)嘛?一眨眼,自己這 App 突然變得這么 international 了,一時之間還真有點 unbelievable 捏~。
為了融入原住民社區(qū),老外們小心謹(jǐn)慎,操著一口生硬的中文,伴隨英文雙語介紹,用詞之嚴(yán)謹(jǐn)、語氣之誠懇,估計把小時候剛學(xué)寫作文的態(tài)度都給拿出來了,生怕因為用詞不當(dāng)引發(fā)誤會,惹到原住民的討厭。為了防止機翻引起誤會,還貼心的加上英文原文,來表現(xiàn)自己的誠懇。



后來大家發(fā)現(xiàn),表情包才是精準(zhǔn)表達情緒的神奇。于是位于東西兩個半球的兩方人馬,展開了表情包分享大會,蹩腳的機翻中文,和機翻英語配合著搞笑的表情包,充斥著每一個外國交友貼的下方評論區(qū)。


在看樂子和找樂子的同時,我也發(fā)現(xiàn)了一個問題。雖然評論區(qū)絞盡腦汁用英文回復(fù)和用翻譯器自動翻譯中文的語句很搞笑,但是也會讓人摸不著頭腦。像我為了能更清楚的了解問題都是直接看英文原文,但是只要點開右上角自動翻譯,看到的中文和原意總是有些出入。那么為什么機翻總是詞不達意呢?有沒有人會好奇機翻的原理是什么?為什么基礎(chǔ)的翻譯和語氣詞 AI 都可以做到,但是稍難一些的詞匯,就容易語序錯亂,讓人二丈摸不到頭腦呢?
那么就由我來給大家好好說道說道叭~
目前現(xiàn)有的兩種機器翻譯方式有:規(guī)則法和統(tǒng)計法。
01、規(guī) / 則 / 法 (RBMT)
依據(jù)語言規(guī)則對文本進行分析,再借助計算機程序進行翻譯。它的運作需要三個連續(xù)的階段來實現(xiàn):分析,轉(zhuǎn)換和生成,根據(jù)這三個階段的復(fù)雜性分為三級。第一級,直接翻譯:簡單詞語的直給;

第二級,轉(zhuǎn)換翻譯:翻譯過程需要參考原文的詞匯、語法和語義的信息,因為信息來源過于寬泛,像有的詞匯有多種意思,比如 cell,有細(xì)胞、單元和監(jiān)獄的意思,筆者在讀文獻的時候,經(jīng)常能看到翻譯器把單元翻譯成細(xì)胞的。而且語法規(guī)則很多并且之間存在矛盾和沖突,所以轉(zhuǎn)換翻譯非常復(fù)雜且容易出錯 (別說機器了,有的語法人都讀不懂,計算機真的會崩潰好嘛?。?!)。

第三級,目前還只是個設(shè)想,國際語翻譯,大概就是憑借通用的完全不依賴語言的形式,實現(xiàn)對語言的解碼,難度相當(dāng)于讓計算機讀懂表情包(>_<),這樣是不是理解到底有多不切實際了嗎?
02、統(tǒng) / 計 / 法 (SMT)
通過對大量的平行語料進行統(tǒng)計分析,構(gòu)建統(tǒng)計翻譯模型(詞匯、比對或者是語言模式),然后使用這種模型進行翻譯,選取統(tǒng)計中出現(xiàn)概率最高的詞條作為翻譯,概率算法依據(jù)貝葉斯定理。
要想實現(xiàn)這種方法,我們需要擁有大量的訓(xùn)練數(shù)據(jù),其中完全相同的文本要被翻譯成至少兩種語言,這總雙重翻譯的文本被稱為平行語料庫。18 世紀(jì)的時候,科學(xué)家在羅塞塔石碑上發(fā)現(xiàn)了用希臘語、象形文字、古埃及文字和當(dāng)時通俗體文字寫的古埃及國王托勒密五世登基的詔書,根據(jù)不同語言版本內(nèi)容的對照,科學(xué)家得以解讀失傳已久的埃及象形文字的意義和結(jié)構(gòu),這就是計算機統(tǒng)計法翻譯的前身。
我試著解釋一下,如果讀者有更好的看法,也可以直接在下面寫出來,統(tǒng)計翻譯系統(tǒng)的原理是用概率的思維進行思考,他不是試圖生成一個精確的翻譯,而是生成成千上萬中可能的翻譯,然后按照最可能正確的來給這些翻譯排名,通過與訓(xùn)練數(shù)據(jù)的相似性,來判斷到底有多正確。
工作原理
NO.1 將原始句子分成塊
首先,先把我們的句子分子簡單的幾塊,讓每一塊都能夠輕松的翻譯,那么根據(jù)是以詞為依據(jù),還是短語為依據(jù),SMT 被分為了基于詞的 SMT 和基于短語的 SMT 兩種,大多數(shù)的翻譯引擎都是基于短語,翻譯文本會自動分為固定長度的短語。

NO.2 找到每一塊的所有可能的翻譯
我們尋找數(shù)據(jù)庫中所有人類翻譯過的相同的詞塊,并根據(jù)它們不同的出現(xiàn)概率 (A) 來進行羅列。在這個過程我們找到的不是字典里的直給翻譯,而是真實的人在真實的句子中如何翻譯這些相同的詞,這有助于我們捕獲到在不同語境中的所有不同表達方式。

可以看到即使是短語也有很多可能的翻譯。而在這些多種翻譯中,一些翻譯的使用頻率遠(yuǎn)比其他的高,我們用使用頻率來給它們賦予數(shù)值,記為概率 A。比如 I’m dying 在中文中大多數(shù)被翻譯成“我想要”而不是“我傾向于”,那么在使用的訓(xùn)練庫中,它被翻譯成“我想要”的概率就比“我傾向于”大,就會獲得更高的權(quán)重。
NO.3 生成所有可能的句子,找到最合適的一個
我們將第二步中給出的所有翻譯來進行排列組合,生成了將近 2500 個句子,比如:
I love | to leave | at | the seaside | more tidy.
I mean | to be on | to | the open space | most lovely.
因為在真實世界中,不同語序和詞塊分解方式還有很多種,所以實際上的可能翻譯句子會更多。接下來的一步,就是掃描這些句子,找到看起來“最像人說”的那一個。通過與新聞故事和英文書籍的各種真實句子來對比,我們給這些句子打分,記為概率 B。得分最高的就是我們認(rèn)為最準(zhǔn)確的句子翻譯:I try | to leave | per | the most lovely | open space.
當(dāng)然也有可能沒有人寫過這樣的句子,那么它就不會和數(shù)據(jù)庫中的任何句子相近,我們給這個可能的翻譯設(shè)定一個低概率的得分。經(jīng)過第二步和第三步的循環(huán)檢索,我們會選擇那個 A 和 B 概率都高的翻譯,這樣它既是最可能的詞塊翻譯,又與真實的句子最相似。最終我們得到的翻譯結(jié)果就是“I want | to go | to | the prettiest | beach.”我想去最漂亮的海灘。
統(tǒng)計法是絕大多數(shù)在線搜索引擎所使用的翻譯方法,比如百度、必應(yīng)和谷歌,它們都是以自己龐大的數(shù)據(jù)庫和超強的搜索能力,來進行翻譯。一些其他的非開源的機器翻譯也多是使用統(tǒng)計法模式進行的。(希望到這里大家應(yīng)該還沒有暈吧~)
根據(jù)兩種方法的對比,我們可以發(fā)現(xiàn),規(guī)則法其實就是人們翻譯外語的方式,但是機器顯然沒有人類的靈活性,所以面對復(fù)雜的語法和冗雜的規(guī)則矛盾,機器翻譯的結(jié)果往往差強人意。統(tǒng)計法則更偏向于概率法,這種運算方式則更適用于機器運算,因為相比較直給翻譯,機器更擅長做的是數(shù)據(jù)分析和統(tǒng)計,這也是各大搜索引擎采用統(tǒng)計法的原因。
不過雖然統(tǒng)計機器翻譯系統(tǒng)效果還不錯,但是它們難于構(gòu)建和維護。每一對需要翻譯的新語言,都需要專業(yè)人士對一個全新的多步驟“翻譯流水線”進行調(diào)試和修正。因為構(gòu)建這些不同的流水線需要非常大的工作量,所以幕后的程序員必須權(quán)衡。如果你用 Google 翻譯想把印度泰盧固語翻譯成中文,那么作為一個中間步驟,它就可以先翻譯成英語,然后再翻譯成中文。因為可能人們對于印度泰盧固語對于中文的直接翻譯需求沒有這么高,在這一對語言上投入太多精力和財力沒有太大意義。相比于英語和中文這一對,印度泰盧固這種存在于印度一個小地區(qū)的語言,可以采用一個更低級的“翻譯流水線”。
基于以上的解讀,我們翻譯引擎基本的工作原理已經(jīng)清晰的向大家闡述清楚了,這么一想,雖然有時候翻譯軟件翻譯句子可能讓兩國人都看不太懂,但是人類最大的優(yōu)勢是什么?當(dāng)時是蒙?。╞ushi), 當(dāng)然是對于語句的聯(lián)想和猜測。依靠計算機給出的大致方向,結(jié)合人類大腦的聯(lián)想功能,我們就可以自己破解對方想要表達的大致意思。
就比如綠泡泡,不用我說大家也知道我說的是啥吧,還有紅薯、某桃、PDD 這些就是相當(dāng)于先給出一個大致的方向,然后讓人去聯(lián)想猜測可能的結(jié)果,然后得出正確答案的過程。所以不用擔(dān)心交流的問題啦,即便翻譯的不準(zhǔn)確,但其實對于交流的影響也沒有辣么大啦,實在不行不是還有表情包咩~
無論形勢怎么變化,中外網(wǎng)友對對方的好奇心都在證明,友善真誠永遠(yuǎn)是必殺技。中英混雜,東西交融,交流友好而又真誠,這或許才是地球村最原本的樣子。雖說這場數(shù)字文化的“東游記”能持續(xù)多久,我們不得而知。不過有先見之明的人,已經(jīng)開始找老外注冊 PDD 新用戶幫忙砍一刀了。

- END -
馬上就要新年了,不如讓這些外國友人見證一下中國這場盛大熱鬧的傳統(tǒng)節(jié)日?。?strong>我也在這里預(yù)祝各位春節(jié)快樂,多發(fā) paper。
本文來自微信公眾號:中科院物理所(ID:cas-iop),作者:藍多多
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。