亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁 > 科技新聞 >

傳播信息而不是病毒!程序員借助AI,用500多種語

時間:2020-04-11 16:17來源:網(wǎng)絡(luò)整理 瀏覽:
大數(shù)據(jù)文摘出品作者:Daniel Whitenack編譯:lin、曹培信這個世界上有多少種語言?7117種。沒錯,不是方言,而是正在被使用的
傳播信息而不是病毒!程序員借助AI,用500多種語言翻譯“洗手”

大數(shù)據(jù)文摘出品

作者:Daniel Whitenack

編譯:lin、曹培信


這個世界上有多少種語言?


7117種。沒錯,不是方言,而是正在被使用的語言。


人類傳遞信息的載體是語言,不同語言之間的交流靠的是翻譯,比如世衛(wèi)組織在疫情防控中,在官網(wǎng)上發(fā)布了一個公告,號召大家勤洗手以預(yù)防感染。


傳播信息而不是病毒!程序員借助AI,用500多種語言翻譯“洗手”


作為一個國際組織,這里使用的默認語言是英語,但是在網(wǎng)站的右上角也有一個切換語言的地方,提供包括中文在內(nèi)的6種語言可以選擇。


傳播信息而不是病毒!程序員借助AI,用500多種語言翻譯“洗手”


盡管這6種語言覆蓋了世界超過35億的人口,但是顯然是遠遠不夠的。


求助于翻譯軟件?以目前世界上適用范圍最廣的谷歌翻譯來說,現(xiàn)在只能支持100多種語言,也是現(xiàn)存語言的零頭。


傳播信息而不是病毒!程序員借助AI,用500多種語言翻譯“洗手”


像WHO發(fā)布的這種關(guān)于全球疫情的消息,肯定是希望能夠覆蓋到更多的人,但是目前很多地區(qū)面臨語言障礙而導(dǎo)致信息的傳播受阻,哪怕只是想告訴人們要勤洗手。


為了讓更多的人能夠了解洗手的重要性,一位名叫Daniel Whitenack的AI大佬用使用了多語言無監(jiān)督方法來訓(xùn)練500多種語言的跨語言詞向量,然后從現(xiàn)有目標(biāo)語言文檔中提取“洗”、“手”的部分,然后將這些部分組合起來,生成了510種語言中“洗手”的短語翻譯。


Daniel用的是Facebook開發(fā)的MUSE(Multilingual Unsupervised and Supervised Embeddings)庫,訓(xùn)練了544種語言和英語之間的跨語言詞向量,而這些向量允許從現(xiàn)有文檔中提取與目標(biāo)短語“洗手”相似的短語。


Daniel與語言社區(qū)SIL International的同事合作完成了這項工作,他們的成果可以在Ethnologue指南頁面上看到——一份有著454種譯文的新冠病毒指南。


傳播信息而不是病毒!程序員借助AI,用500多種語言翻譯“洗手”

鏈接:

https://www.ethnologue.com/guides/health


下面就跟著文摘菌一起來看看他是怎么做的吧!


拆解“洗腳”和“你的手”,變成“洗手”


首先,SIL International已經(jīng)完成了2000多種語言的語義工作,目前管理著1600多種語言項目文檔。所以我想他們可能已經(jīng)將“洗手”或類似的短語多次翻譯成數(shù)百種語言,這個猜想得到了證實!


因此我能夠從我們的900多種語言檔案庫中快速收集文檔,主要是完整的教學(xué)材料和圣經(jīng)等。這些文檔中的每一個都有英文對照,其中必然包含短語“洗手”或類似的短語,例如“洗臉”。此外,這些文檔的質(zhì)量都很高,并與當(dāng)?shù)卣Z言社區(qū)合作進行了翻譯和核查。


語言數(shù)據(jù)集有了!


但是,這里有兩個問題需要克服。首先,此數(shù)據(jù)只有大多數(shù)語言的數(shù)千個樣本,這與用于訓(xùn)練機器翻譯模型的數(shù)百萬個樣本相比還是太少;其次,即使文檔中包含目標(biāo)語言中的“洗手”一詞,我們也不知道該詞在周圍文本中的確切位置


對于低資源語言數(shù)據(jù)集,我們當(dāng)然可以利用機器翻譯中的一些最新技術(shù),但是需要花費一些時間來調(diào)整自動化的方法,以快速適應(yīng)每種語言配對中的翻譯模型。此外,我們定位的許多語言都沒有現(xiàn)有的基準(zhǔn),可以與之比較評估指標(biāo),例如BLEU得分。


于是我選擇嘗試通過在現(xiàn)有文檔中找到短語本身或短語的組成部分(例如“洗手”或“你的手”)來構(gòu)建“洗手”一詞。


為了找到這些,我使用Facebook Research的Multilingual Unsupervised and Supervised Embedding(MUSE)庫訓(xùn)練了每個跨語言詞向量。MUSE將單語言詞向量作為輸入(我使用fasttext生成了這些向量),并使用對抗性方法學(xué)習(xí)了從英語到目標(biāo)向量空間的映射,該過程的輸出是跨語言詞向量。


傳播信息而不是病毒!程序員借助AI,用500多種語言翻譯“洗手”


一旦生成跨語言詞向量后,我們便可以在目標(biāo)語言文檔中找到短語。事實證明,整個文檔中非常清楚地使用了“洗臉”一詞以及“手”,“洗你的”等分離的實例。


對于每種語言,我都會在期望該短語出現(xiàn)的區(qū)域中搜索N-gram(基于英語并行匹配中的用法)。使用跨語言詞向量對N-gram進行矢量化處理,并使用各種距離度量將其與英語短語的矢量化版本進行比較,向量空間中最接近英語短語的N-gram被確定為目標(biāo)語言匹配。


最后,將與他們的英語對應(yīng)詞相匹配的組成短語組合在一起,以生成目標(biāo)語言中的“洗手”短語。這種組合再次利用了跨語言向量,以確保以適當(dāng)?shù)姆绞浇M合。


例如,如果我們在目標(biāo)語言中匹配了短語“洗腳”,則必須將與“腳”相對應(yīng)的N-gram替換成與“手”相對應(yīng)的N-gram,下面是伯利茲·克里奧爾(Belize Kriol)英語的示例:


傳播信息而不是病毒!程序員借助AI,用500多種語言翻譯“洗手”


當(dāng)然,在此匹配過程中我們做了些假設(shè),所以這個過程很可能不會產(chǎn)生語法上正確的預(yù)測。例如,我假設(shè)在大多數(shù)語言中,“手””一詞和“腳”一詞都是一個詞長(詞之間用空格和標(biāo)點符號隔開)。這個假設(shè)肯定跟實際是有出入的,以后我們可以克服其中的一些局限性并擴展該系統(tǒng),但是就目前而言,該方法可以在沒有任何翻譯系統(tǒng)支持的情況下提供相對可靠的多語言翻譯結(jié)果。


探索一條低數(shù)據(jù)條件下的短語翻譯方法


到目前為止,我已經(jīng)能夠訓(xùn)練544種語言的跨語言詞向量,我使用上面的方法嘗試為找出這些語言 如何表示“洗手”。


因為缺乏許多語言對的一致數(shù)據(jù),所以我使用了單獨的保留文檔,其中也包含“洗手”的成分,以幫助驗證所構(gòu)造短語中的標(biāo)記。


以下是來自Ethnologue語言統(tǒng)計數(shù)據(jù)的翻譯樣本:


傳播信息而不是病毒!程序員借助AI,用500多種語言翻譯“洗手”


構(gòu)造的短語類似于參考譯文,或者是“洗手”的替代表達方式。例如,在保加利亞語中,我預(yù)測為“умийръцете”,而在Google翻譯中,預(yù)測為“Измийсиръцете”。但是,如果我使用Google翻譯對我的預(yù)測進行回譯,我仍然會得到“洗手”。


在某些不確定性因素下,我無法與參考譯文(例如,所羅門群島的Pijin [pis]或帶有人工注釋范疇進行比較,但我仍然可以驗證“洗手”(wasim)和“手”(han) )分別用于其他必然談及洗或手的參考文件中。使用此方法可以驗證大約15%的翻譯,我希望在收集參考詞典時能進行更多的驗證。


請注意,即使對于像意大利語這樣的高資源語言,我最多都使用每種語言的大約7000個句子來獲得以上翻譯,也不依賴于語言對之間對齊的句子。盡管存在數(shù)據(jù)非常匱乏,無監(jiān)督情景,但對于兩個系統(tǒng)都支持的語言,我仍然能夠獲得質(zhì)量與Google Translate相似的短語。


從某種程度上來說,這證明了我使用的這種“混合”方法(詞向量的無監(jiān)督對齊+基于規(guī)則的匹配)在將短語翻譯成數(shù)據(jù)化很少的語言中,是行之有效的。


相關(guān)報道:

https://datadan.io/blog/wash-your-hands

推薦內(nèi)容