人在江湖飄,哪有不挨刀。
作為一名有11年經(jīng)驗(yàn)的資深剁手黨,手起刀落,咱們也是參與了N多億萬項(xiàng)目的社會(huì)人(雙11、618、520。。。)。雖然,現(xiàn)在雷鋒網(wǎng)編輯小李已經(jīng)練成火眼金睛,但是也經(jīng)歷過那么幾個(gè)“沮喪”時(shí)刻。
2008年,我打開了第一張新世界的大門:在淘寶上買了一雙傳說是耐克dunk sb新款的鞋,收到之后,得瑟了半天,眼尖的室友尖叫一聲:不對(duì),你的對(duì)勾好像反了。。。。奉行“貧窮我就暫時(shí)性失明”的宗旨,我還是開開心心地穿了一個(gè)星期,然后在體育課上華麗麗地跑掉了鞋底。。。。
自此,那雙辣眼睛的對(duì)勾“耐克”就成了剁手黨進(jìn)階路上無時(shí)無刻提醒我的“路標(biāo)”:注意假貨,還有。。。多賺錢。
2012 年雙 11 開啟,開心的我認(rèn)認(rèn)真真地在購物車囤了一個(gè)星期的貨,只待零點(diǎn),結(jié)果零點(diǎn)的鐘聲響起,我還沒反應(yīng)過來,提交訂單時(shí)就遭遇了崩潰——怎么一下就被搶光了?跟我眼光一致的人這么多?
那時(shí),命運(yùn)給我上了一堂我自己還沒搞明白的課:原來還有種東東叫做“秒殺神器”。再到以后,我苦練搶購絕技,卻發(fā)現(xiàn)雖然和我一樣的剁手黨越來越多,但踩的坑越來越少。
直到有一天,阿里安全一個(gè)做人工智能研究的專家告訴我,他們有個(gè)系統(tǒng),這個(gè)系統(tǒng)里的圖片數(shù)據(jù)總量相當(dāng)于 186 個(gè)中國國家圖書館藏量,累積的打假圖片樣本量超過 137 億張。以前他們阿里小二人肉對(duì)比打假,吭哧吭哧地干活,卻怎么也追不上淘寶發(fā)展的速度,現(xiàn)在他們讓 AI 小二上陣,人工查看1張圖片的信息需要 10 秒,5 萬人同時(shí)工作的效率才能勉強(qiáng)趕上“知產(chǎn)保護(hù)科技大腦(AI 小二)”掃描甄別圖片的速度。
除了打假,他們還靠 AI 打擊黃賭毒,在搶購節(jié)點(diǎn)圍追堵截干壞事的機(jī)器人,并抗擊圖謀不軌,準(zhǔn)備趁機(jī)搞破壞的攻擊者。
曾經(jīng),無數(shù)安全從業(yè)者告訴我——“感受不到的安全就是真的安全”“什么都沒發(fā)生就是好事”,我總無法感同身受,但是說到“買買買”,我突然就理解了。
8 月 28 日,阿里巴巴集團(tuán)安全首席算法專家陸全霹靂吧啦說了一堆,大意是上面 AI 能幫我們順利“買買買”的東西其實(shí)就是阿里巴巴商業(yè)操作系統(tǒng)的風(fēng)控大腦,也叫做“安全AI”。
我突然又不懂了,“安全AI”除了讓我們這種吃瓜群眾能感受到順利地“買買買”,背后還有什么黑科技?跟雷鋒網(wǎng)一起了解一下。
“看到”假貨
為了便于理解,我們還是從特別實(shí)操的“如何讓你不買到假貨”說起。
阿里的技術(shù)人員是怎么看哪些是“侵犯了知識(shí)產(chǎn)權(quán)”的商品呢?
對(duì)比圖片,對(duì)比款式,對(duì)比商標(biāo)。
但是,不是所有商家上傳圖片時(shí),都是“正正經(jīng)經(jīng)‘立正’商標(biāo)拍照”,有些人只露出商標(biāo)的一部分,有些是擺出不同的角度,還有一些人故意遮擋。對(duì)付文字就更“精明了”,他們可能使用變形的文字,并充分利用漢字博大精深的特點(diǎn)。
后來,可以上視頻代替圖片后,有些商家就更厲害了——在很多幀圖片里上傳一張“隱晦”圖片。
陸全在聊天之前先給我放了一段視頻:仿冒商家在一件正品連衣裙上做了很簡單的樣式改動(dòng),比如加了一個(gè)蝴蝶結(jié),都能被認(rèn)出來。
這就要依賴上述打假樣本庫和相關(guān)算法。
有意思的是,陸全告訴雷鋒網(wǎng),現(xiàn)在已經(jīng)不是采取“敵動(dòng)我跟”的單點(diǎn)對(duì)抗策略,比如,不僅是出現(xiàn)了假貨,收集假貨特征,被動(dòng)跟隨打擊,他們會(huì)主動(dòng)尋找假貨特征,甚至整個(gè)黑產(chǎn)的情況,綜合多方面信息“摸底打擊”。甚至在違規(guī)商戶只是打算上架“假貨”時(shí),都能精準(zhǔn)“擊斃”。
在這樣的背景下,依靠 AI 在商品發(fā)布環(huán)節(jié),96%的造假都能被攔截,在修改的過程中不斷檢測和控制,最后能達(dá)到每一萬筆中,只有1.1筆被消費(fèi)者懷疑為假貨。
這種圖片審核和視頻審核背后所采用的 AI 是阿里提出來的“安全AI”大腦的感知區(qū),這個(gè)感知區(qū)域的核心技術(shù)是計(jì)算機(jī)視覺技術(shù)及語音識(shí)別技術(shù),是整個(gè)系統(tǒng)的感官系統(tǒng),是對(duì)象識(shí)別的基礎(chǔ),為形成后續(xù)一系列處理動(dòng)作邁出第一步。
說白了,“感知區(qū)”就是一雙“眼睛”。
剛才“抗擊假貨”只是其中一個(gè)應(yīng)用場景?!把劬Α边€有用于線上商品識(shí)別的商標(biāo)檢測、物體檢測、光學(xué)字符識(shí)別技術(shù),用于營銷環(huán)節(jié)檢測的廣告圖片分析和視頻直播監(jiān)測技術(shù),以及用于原創(chuàng)作品保護(hù)的多媒體檢索和圖像水印技術(shù)等。
如果你要開個(gè)店,“眼睛”還要對(duì)用于開店身份進(jìn)行人臉識(shí)別、聲紋識(shí)別、活體檢測等生物識(shí)別。
“眼睛”給線下零售提升效率
不僅是線上,另一個(gè)與感知的“眼睛”有關(guān)的重要場景是:阿里開設(shè)的新零售——線下泛安全場景的保護(hù)以及提升效率。
之前有個(gè)笑話,說現(xiàn)在小偷已經(jīng)無錢可偷——因?yàn)榇蠹叶加秒娮又Ц豆ぞ?,帶個(gè) 500 塊現(xiàn)金出門都筭“身懷巨款”。現(xiàn)在,小偷不僅無錢可偷,可能連實(shí)體商品都難以“作案”了。
傳統(tǒng)門店抓小偷的鏈路是這樣的:從錄像看這些貨哪些被人拿走,發(fā)現(xiàn)之后,還要看這個(gè)人還拿了其他哪些貨。確定之后,要找到這個(gè)人正面照片,把照片打印出來再分發(fā)給保安。整個(gè)回溯錄像和偷竊人的照片的過程,可能需要12-24小時(shí)。
如果說“安全AI” 完全替代保安、店員確實(shí)是危言聳聽,但它能顯著提升效率。原來線下商店每天需要花 2 小時(shí)盤貨,現(xiàn)在可以實(shí)時(shí)盤貨,原來對(duì)丟貨要進(jìn)行12-24小時(shí)的盤貨,現(xiàn)在AI盤貨只需要2個(gè)小時(shí)。
到底是怎么做的?
“線下店面現(xiàn)在毛利率很低,你肯定不能通過改造硬件成本提高他們的成本?!彪m然陸全看上去是高大上的算法專家,但是考慮用戶需求很實(shí)際,那就只有一個(gè)辦法,從 AI 算法上改進(jìn)。
“這些線下店如果采用的是無人店的技術(shù),就會(huì)裝貨架攝像頭,對(duì)同一個(gè)物品有多維去展現(xiàn),很容易知道這個(gè)物品的定位在哪里,但是一般的監(jiān)控?cái)z像頭很難知道一個(gè)平面的多維度,有可能商品的位置在這兒,實(shí)際有很大的偏差,從攝像頭角度,商品的位置已經(jīng)被挪動(dòng),這就要解決二維到三維的問題,我們解決的方式是要對(duì)其中很多點(diǎn)事先做多維定位,這樣消耗的是算力資源,比硬件成本要低很多。”
這樣下來,“安全AI” 就知道到底哪些人真的在偷盜,從而實(shí)現(xiàn)預(yù)警和跟蹤。
一個(gè)有意思的數(shù)據(jù)是,傳統(tǒng)打印慣偷照片分發(fā)給保安的情況下,抓住慣偷的概率只有5%,讓 AI上了以后,這個(gè)概率能提升到 35%,但是一段時(shí)間后,概率大幅下降,原因是,小偷不敢來了。
它不會(huì)讓你找出白百合、楊臣剛和C杯
“看見”只是第一步,作為一個(gè)有“腦子”的阿里商業(yè)風(fēng)控還需要“認(rèn)知”。“安全 AI 認(rèn)知層”的核心技術(shù)是自然語言處理技術(shù)。
再回到線上場景,如果要對(duì)抗購物節(jié)和我搶熱銷商品的那么多機(jī)器人,“安全 AI”可以做點(diǎn)什么?
第一個(gè)案例就是“問答式驗(yàn)證碼”,這是平常我們進(jìn)行賬戶驗(yàn)證時(shí)時(shí)不時(shí)會(huì)遇到的“關(guān)卡”。
以前,我們吐槽過這些逆天的“驗(yàn)證碼”:
請(qǐng)找出圖中的白百何
請(qǐng)分辨出這里的楊臣剛、王大治和孫楠
這些我們都忍了,直到有一天,有人拿出了一張驗(yàn)證碼的圖片:XXXXXXX,請(qǐng)找出這里的C杯。
“安全AI”比較人性化,好像沒有問這么令人腎上腺素飆升的問題,因?yàn)樗鼏柕膯栴}可能是從大家在淘寶中的評(píng)論里提取的。
比如:
“顏色比圖片上暗,是比較氣質(zhì)的款式,快遞真的超級(jí)快?!?/span>
AI 會(huì)從其中提取情感屬性和商品屬性,然后呈現(xiàn)出一個(gè)驗(yàn)證問答:
陸全告訴雷鋒網(wǎng),這種驗(yàn)證模式利用阿里電商平臺(tái)海量信息做文本生成,其實(shí)包含了三重防護(hù)體系:
1)認(rèn)知問答:給出一段文本,基于對(duì)文本的理解和推理回答問題,考察語言認(rèn)知能力。
2)圖像對(duì)抗:文本問題以圖片的形式展現(xiàn),通過注入對(duì)抗樣本,影響主流OCR識(shí)別算法的檢測效果;
3)行為檢測:回答問題需要通過拖拽的方式完成,基于行為的大數(shù)據(jù)分析以及端上的安全防控,進(jìn)行人機(jī)區(qū)分;
通過這三個(gè)方式,對(duì)于某些風(fēng)險(xiǎn)較高的賬戶進(jìn)行認(rèn)證,可以以95%的概率識(shí)別出“非我族類”。
這樣做主要還是為了提供攻擊方的門檻。因?yàn)樘詫毜入娚唐脚_(tái)可以日均產(chǎn)生千萬級(jí)的高質(zhì)量評(píng)論,題庫規(guī)模足夠大,想通過扒題庫的方式破擊驗(yàn)證系統(tǒng)幾乎不可能,另外基于自有數(shù)據(jù)也導(dǎo)致一般的算法模型很難適用。
AI 通過對(duì)商品評(píng)論做屬性級(jí)的情感分析,提煉出問答知識(shí)點(diǎn),例如對(duì)商品某一屬性的評(píng)價(jià)是什么,評(píng)價(jià)是正面還是負(fù)面的,這樣j基于提煉的結(jié)構(gòu)化知識(shí)點(diǎn),生成自然語言的問答,增加了問題的多樣性。
一句話,機(jī)器要想看懂并明白它,很難。
AI 當(dāng)臥底,海底撈針
另一個(gè)能提升“安全 AI ”認(rèn)知能力的是“風(fēng)險(xiǎn)分析”,也就是說,靠 AI 算法從海量信息中找到這些問題的答案:
1.誰在對(duì)我虎視眈眈?他們從哪里來,到哪里去,要干什么?堪比回答人生的終極疑問。
2.以前那些看上去“沒有什么背景”的攻擊到底是誰干的?張三家大白鵝丟了和五百公里外的李四家有什么潛在關(guān)系?XX團(tuán)伙發(fā)起的攻擊與一年前發(fā)起的那一波攻擊有沒有關(guān)聯(lián)?
3.現(xiàn)在主流威脅有哪些?我未來還會(huì)受到哪些黑灰產(chǎn)攻擊?
“安全AI”背后的阿里安全團(tuán)隊(duì)自己上還不夠,以防萬一,要請(qǐng)來大牛坐鎮(zhèn)——安全AI的“風(fēng)險(xiǎn)分析”與達(dá)摩院有諸多合作,達(dá)摩院在自然語言處理技術(shù)上很強(qiáng),在機(jī)器翻譯、多人對(duì)話方面都取得了挺多公開數(shù)據(jù)級(jí)測試世界第一。
“我們跟它進(jìn)行深度合作,做NLP的處理”。陸全說。
靠著自己爭氣和“背后有人”,60%的黑灰產(chǎn)風(fēng)險(xiǎn)被機(jī)器自動(dòng)化發(fā)現(xiàn)并首次最先報(bào)警,“安全AI”發(fā)掘了黑灰產(chǎn)關(guān)系于線上風(fēng)控,并開啟“大喇叭”推廣到全域經(jīng)濟(jì)體。
當(dāng)然,判斷“用戶”是機(jī)器人還是真實(shí)人類,發(fā)掘黑灰產(chǎn)情況還不夠,一個(gè)優(yōu)秀的大腦還要跟蹤風(fēng)險(xiǎn)賬戶的行為,由己及彼,具有超強(qiáng)的推理能力。
“安全AI”決策層的核心技術(shù)包括深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩塊,用來解決現(xiàn)實(shí)中的復(fù)雜決策問題。它決定了系統(tǒng)該如何動(dòng)作,如何更合理有效地作出最佳應(yīng)對(duì)。例如,當(dāng)面臨商家實(shí)時(shí)博弈、信息內(nèi)容的變異,以及黑產(chǎn)的惡意攻擊時(shí),在全局視角下做出更有利的決策。
比如,如果它發(fā)現(xiàn)了一個(gè)可疑份子,一次可疑行為,要像一個(gè)深謀遠(yuǎn)慮的軍師一樣善于布局,“拔出蘿卜帶出泥”,清楚地構(gòu)建一個(gè)整體線索圖,更具全局觀。
“帳號(hào)跟帳號(hào)之間是有關(guān)聯(lián)的,它的關(guān)聯(lián)可能通過共同買同樣的商品,或者共同評(píng)價(jià)同樣的商品,或者互相評(píng)價(jià)這些關(guān)聯(lián),我們做風(fēng)控就是用全局的信息才能夠挖掘到后面的團(tuán)伙信息。”陸全說。
如果今天有一群穿著黑衣服的人來“打家劫舍”,明天就算這群人穿了綠衣服,戴了口罩,AI 也能“認(rèn)出”他們。
“安全AI” 也要自衛(wèi)
可能出乎你意料的是,“安全AI”大腦不僅要有發(fā)現(xiàn)威脅的各種感知、認(rèn)知、決策能力,還要有自衛(wèi)的能力——保護(hù)層,保護(hù)自己和系統(tǒng)不受到傷害。
這里要提到三項(xiàng)有意思的技術(shù):源碼保護(hù)、自動(dòng)化漏洞挖掘及對(duì)抗樣本訓(xùn)練。
為了保證自己辛辛苦苦做出的各類 AI 引擎不被壞人輕易復(fù)制、利用和對(duì)抗,阿里的安全研究人員還要“抱”住自己的 AI 模型。
但是,現(xiàn)在有越來越多的機(jī)器學(xué)習(xí)的模型代碼都會(huì)布到端上,或者是布到不可控的地方。為了保護(hù)自己的源碼,他們只好選擇把編譯好的編譯碼放到端上,而不是把源碼放上面,這樣人即使可以讀懂源碼,但讀不懂編譯碼,陸全等人把“安全AI”的核心模型都變成了一個(gè)只有阿里的知識(shí)引擎才能看懂的機(jī)器。
此刻,我想起了明星閨蜜才知道的一個(gè)暗號(hào)。
A:今天我去做頭發(fā)。
B:懂,如果你老公問我的話。
陸全還提到,安全 AI 在很多應(yīng)用上面歸根結(jié)底變成了代碼,有代碼就會(huì)有漏洞。
“可怕的是,我們現(xiàn)在發(fā)現(xiàn)有一個(gè)問題在 AI 界是比較嚴(yán)重的。大家模型和框架都有非常強(qiáng)的同質(zhì)性,你用的、我用的、他用的都差不多,就好像大家基本上基因構(gòu)造都很類似。以后萬一有一種病毒或者有一種攻擊方式出來,基本上所有的人都沒有免疫力,都很容易中招。”
所以,“安全AI”要對(duì)自身和阿里本身的業(yè)務(wù)系統(tǒng)進(jìn)行自動(dòng)化的漏洞挖掘,未雨綢繆,找到更多缺陷,及早預(yù)防。
上述都是從外部治理 AI 系統(tǒng),但是提升 AI 模型本身對(duì)付惡意攻擊的適應(yīng)能力,還要靠對(duì)抗訓(xùn)練樣本的方式。
“事先產(chǎn)生一些比較接近于黑客或者黑灰產(chǎn)容易攻擊的樣本,把樣本加到訓(xùn)練集里面,讓模型在訓(xùn)練產(chǎn)生的時(shí)候,就已經(jīng)具備抵抗一些變異和攻擊的能力?!?/strong>
不知為何,陸全的闡釋讓我想到了大神周伯通的雙手互搏。
最強(qiáng)高手的目標(biāo),永遠(yuǎn)在于如何戰(zhàn)勝自己。
[陸全]
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))。