這些年來,Google Translate(谷歌翻譯服務(wù))一直被人詬病存在性別偏見現(xiàn)象,例如Google Translate會默認(rèn)將某些“中性”職業(yè)和特定的性別聯(lián)系起來,“醫(yī)生”一定是男性,而“護(hù)士”則往往是女性。
從2018年開始,Google就嘗試解決土耳其語和英語互相翻譯時的性別偏見問題,為與性別有關(guān)的詞條提供兩種版本的翻譯(和漢語不同,土耳其語是“中性”語言。漢語中有“他”和“她”兩種人稱代詞來區(qū)分性別,而土耳其語種僅存在“o”一種人稱代詞,不區(qū)分性別),分別展示指代男性和女性對應(yīng)的語境。但此種解決方案可擴(kuò)展性和準(zhǔn)確度都較低,在推廣到其它語言的翻譯時困難重重。
今年4月22日,Google AI Blog(Google AI業(yè)務(wù)新聞博客)發(fā)表了最新的文章,宣布Google Translate使用了優(yōu)化升級的AI技術(shù),進(jìn)一步減少了翻譯中出現(xiàn)的性別偏見現(xiàn)象,且拓展性較原方案更強(qiáng),目前已經(jīng)可以支持英語與西班牙語、芬蘭語、匈牙利語以及波斯語的翻譯場景。
為何“沒有感情”的機(jī)器翻譯模型也會自帶性別偏見屬性?Google Translate究竟使用了何種AI技術(shù)來改善文本中的性別偏見現(xiàn)象?本期全媒派編譯VentureBeat文章,帶你通過Google Translate在解決性別偏見方面的努力,了解AI行業(yè)探索“性別平等”之路。
1
不只是一個沒有感情的機(jī)器
AI或機(jī)器學(xué)習(xí)技術(shù)自然沒有性別可談,可性別偏見和其它社會偏見(如對年齡、職業(yè)、宗教、種族、甚至是地域的偏見和歧視)卻常出現(xiàn)在AI產(chǎn)品之中,這也是目前AI行業(yè)極為關(guān)注的問題之一。
Google Translate的負(fù)責(zé)人Macduff Hughes在接受采訪時解釋了AI技術(shù)“自帶”偏見的原因,AI和機(jī)器學(xué)習(xí)技術(shù)是通過訓(xùn)練數(shù)據(jù)來實(shí)現(xiàn)對產(chǎn)品和服務(wù)的支持的,而這些訓(xùn)練數(shù)據(jù)都是來自真實(shí)的社會場景,也就難免帶有社會中既有的各種偏見或歧視,接受了這些數(shù)據(jù)的AI模型則會“繼承”這些觀念。
用戶在使用產(chǎn)品時又會受到這些偏見的影響,長此以往形成惡性循環(huán),導(dǎo)致以性別偏見為代表的種種社會歧視越來越根深蒂固,而此種“偏見”的文本數(shù)據(jù)越多,AI模型會變得越來越“社會化”,和人一樣對事物產(chǎn)生固有的認(rèn)知偏見。
除去產(chǎn)生“性別偏見”的翻譯文本外,Google Translate還曾因?qū)⒑鷣y輸入的原文本翻譯成恐怖的宗教預(yù)言而備受關(guān)注,這與Macduff Hughes解釋的AI及機(jī)器學(xué)習(xí)的底層運(yùn)作機(jī)制有直接的關(guān)系,因?yàn)镚oogle Translate用來打造AI產(chǎn)品時使用的訓(xùn)練數(shù)據(jù)往往都是宗教文本。
在2018年,很多使用Google Translate的用戶發(fā)現(xiàn)了一個可怖的現(xiàn)象。Google Translate會將本來毫無意義胡亂輸入的原語言,翻譯成末日預(yù)言,種種陰謀論也一時間甚囂塵上。
對于當(dāng)時熱議的“陰謀論”事件,Macduff Hughes也做了相應(yīng)的解釋,這還是同Google的訓(xùn)練數(shù)據(jù)有關(guān)的。雖然有很多人把這件事歸咎于神秘的宗教主義或者外星人攻擊等原因上,但其實(shí)這是機(jī)器學(xué)習(xí)模型十分常見的問題。當(dāng)用戶的輸入超出了機(jī)器學(xué)習(xí)模型的預(yù)期后,返回的數(shù)據(jù)也將是不合常規(guī)的。
BBN科技公司研究機(jī)器翻譯的專家Sean Colbath,在當(dāng)時曾對此事件發(fā)表同樣的看法,“如果他們(Google Translate)使用宗教文本作為訓(xùn)練數(shù)據(jù)來構(gòu)建機(jī)器學(xué)習(xí)模型,那最后產(chǎn)出的文本就很有可能是帶有宗教意味的”。
在此次事件后,Google Translate也加大了對于AI去偏見化的力度,首先就是在男女性別平等方面的努力。正如Macduff Hughes所說的,“Google作為業(yè)內(nèi)的先行者,會帶領(lǐng)整個行業(yè)解決這些問題,首先就要解決在文本翻譯服務(wù)中出現(xiàn)的性別歧視的問題”。
如果現(xiàn)實(shí)的語言文本中就存在性別偏見,那么翻譯模型就會學(xué)習(xí)到這些偏見,甚至強(qiáng)化它們。例如,當(dāng)一種職業(yè)在60%-70%的情況下都是由男性承擔(dān)的,那么翻譯系統(tǒng)就會學(xué)習(xí)到這一特征,而在產(chǎn)出翻譯時,把這種職業(yè)100%地歸屬于男性,這一點(diǎn)就是Google Translate需要解決的問題。
有關(guān)這一問題最典型的例子就是“醫(yī)生”和“護(hù)士”,在最早的Google Translate中,機(jī)器翻譯都會將原本應(yīng)是性別中性的詞語轉(zhuǎn)換成男性屬性的詞語,重現(xiàn)現(xiàn)實(shí)社會中已有的偏見,時任Google Translate產(chǎn)品經(jīng)理的James Kuczmarski在博客中寫到,“像‘強(qiáng)壯’‘醫(yī)生’等詞語都會和男性掛鉤,而‘護(hù)士’‘美麗’等詞語則會和女性掛鉤”。
而使用Google Translate的很多用戶常常都抱有學(xué)習(xí)語言的目的,這些用戶需要知道不同場景中語言文本的細(xì)微差別。這也是Google Translate決定啟動“性別項(xiàng)目”的初衷。
2
性別特定的翻譯功能
Google Translate解決偏見初嘗試
其實(shí)早在2016年,Google Translate作為機(jī)器翻譯行業(yè)技術(shù)探索的先行者就一直在應(yīng)用最新的技術(shù)。2016年,Google Translate首次使用了“神經(jīng)機(jī)器翻譯”(Neural Machine Translation),而摒棄了經(jīng)典的“統(tǒng)計機(jī)器翻譯”(Statistical Machine Translation)?!敖y(tǒng)計機(jī)器翻譯”其實(shí)是對文本進(jìn)行逐字翻譯,但是無法考慮到詞性、時態(tài)、語序等語法因素,常導(dǎo)致最后的譯文錯誤百出。而“神經(jīng)機(jī)器翻譯”則是逐句翻譯,會將上述因素進(jìn)行更好的處理。
使用了“神經(jīng)機(jī)器翻譯”技術(shù)的Google Translate可以產(chǎn)出更加自然、順暢的譯文,也具備了產(chǎn)出不同風(fēng)格文本的潛力(如正式場合使用的語言風(fēng)格或者生活中使用的俗語俚語風(fēng)格)。
到了2018年12月,Google Translate為了解決性別偏見問題,又推出了“性別特定的翻譯功能”(Gender-specific Translation)。土耳其語作為一種中性語言(即沒有區(qū)分性別的人稱代詞)首先開始支持該功能。
在此新功能的支持下,用戶輸入一條無明顯性別信息的原文,會被轉(zhuǎn)換為“男性”和“女性”兩種場景的翻譯。兩種翻譯都會展示在翻譯結(jié)果中,由用戶自行選擇。
Google Translate研發(fā)團(tuán)隊(duì)采用了特殊的處理模型,通過三個步驟將原文本轉(zhuǎn)換為兩種性別格式的翻譯文本。首先,機(jī)器模型需要判斷原文是否為“中性”語言文本,即未明確指出人稱性別的文本;然后,Google Translate將產(chǎn)出男女兩種人稱的獨(dú)立譯文;最后再進(jìn)行準(zhǔn)確度檢查。
3
優(yōu)化翻譯模型進(jìn)一步減少性別偏見
“我們此次的AI技術(shù)方案實(shí)現(xiàn)了顯著的性能提升,不僅提高了性別判定的質(zhì)量,而且將功能拓展到了另外4種語言上,”Google高級軟件研發(fā)工程師Melvin Johnson這樣寫到,“我們將繼續(xù)沿著這個方向探索下去,下一步準(zhǔn)備解決長文本翻譯中的性別偏見問題?!?/p>
在新的處理模式下,系統(tǒng)不需要在第一步對原文進(jìn)行判別,而是直接產(chǎn)出默認(rèn)的翻譯文本;在第二步則由“重寫”功能,產(chǎn)出與默認(rèn)翻譯文本對立性別的本文。比如說,默認(rèn)翻譯文本是“他是一名醫(yī)生”,則重寫功能會產(chǎn)出對應(yīng)的文本“她是一名醫(yī)生”。最后再對兩則翻譯文本進(jìn)行準(zhǔn)確度檢查,保證只有性別因素不同,其它因素保持一致。
要實(shí)現(xiàn)優(yōu)化模式中的“重寫”功能也絕非易事,Google為了實(shí)現(xiàn)該功能使用了百萬級的訓(xùn)練語例,這些訓(xùn)練文本中包含了區(qū)分兩種性別的雙語詞組。由于這樣規(guī)模的雙語文本數(shù)據(jù)在短期之內(nèi)很難獲得,Google Translate團(tuán)隊(duì)還利用算法對現(xiàn)有的單語數(shù)據(jù)進(jìn)行了處理,為其生成了包含對應(yīng)性別的語例文本。
獲得足夠的訓(xùn)練數(shù)據(jù)后,Google Translate也加入了標(biāo)點(diǎn)和格的變化(指主格、賓格、所有格等變化),增強(qiáng)模型的穩(wěn)定性。利用此種模型可實(shí)現(xiàn)高達(dá)99%的性別判定準(zhǔn)確度。
Google Translate此次使用的優(yōu)化版AI技術(shù),將4種語言與英語的文本互譯中的“性別偏見”減少了90%以上,而用使用原方案的土耳其語-英語翻譯場景中,對“性別偏見”的解決度也從60%上升到了95%。系統(tǒng)判別是否需要展示兩種性別文本的準(zhǔn)確度穩(wěn)定在97%。
Google Translate雖然稱不上完美,也遠(yuǎn)遠(yuǎn)無法代替專業(yè)的人類譯者,但其在減少性別偏見的道路上的每一次進(jìn)步,都體現(xiàn)了Google對于減少AI性別偏見的努力。AI技術(shù)是由人類創(chuàng)造的并塑造的,技術(shù)從業(yè)者需要像Google Translate一樣,打造更公正平等的AI產(chǎn)品反哺社會,幫助人類向更文明的方向發(fā)展。
END
編輯|思洋 校對|堅(jiān)果 視覺|牛小偉
文章已獲得轉(zhuǎn)載授權(quán),
如需轉(zhuǎn)載,請聯(lián)系原作者。
責(zé)任編輯: