亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁 > 科技新聞 >

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠

時間:2019-11-12 18:40來源:網(wǎng)絡(luò)整理 瀏覽:
雷鋒網(wǎng) AI 開發(fā)者按:2019 年 10 月 19 日,第十八屆中國計算語言學(xué)大會「中國法研杯」相似案例匹配評測研討會在云南昆明完美落幕。

雷鋒網(wǎng) AI 開發(fā)者按:2019 年 10 月 19 日,第十八屆中國計算語言學(xué)大會「中國法研杯」相似案例匹配評測研討會在云南昆明完美落幕。會上,清華大學(xué)劉知遠(yuǎn)副教授、中國科學(xué)院軟件研究所韓先培研究員、冪律智能科技有限公司 CEO 涂存超博士等均出席了該會議。

其中,基于大會開展的中國法研杯相似案例匹配評測競賽,由來自支付寶的 AlphaCourt 團(tuán)隊摘得桂冠,這是一支致力于搭建屬于支付平臺的「互聯(lián)網(wǎng)法院」的隊伍。本次大賽中,他們充分運用了數(shù)據(jù)挖掘、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法,實現(xiàn)了對「多篇法律文書的相似度計算與判斷」等任務(wù)的多模型融合、優(yōu)化以及可視化探索,最終以 71.88 的優(yōu)績,奪下了本次大賽冠軍!

在大賽中,我們也能看到京東、華宇元典、同濟(jì)大學(xué)等強勁對手的身影,但究竟 AlphaCourt 團(tuán)隊是在哪些技術(shù)與方法上略勝一籌,才從 711 支參賽隊伍中脫穎而出?雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)) AI 開發(fā)者有幸采訪到冠軍團(tuán)隊,并將其冠軍方案解析如下,也許我們可以一起來找到答案。

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

劉知遠(yuǎn)副教授為一等獎隊伍頒獎

比賽任務(wù)簡介

本屆法研杯司法人工智能挑戰(zhàn)賽主要圍繞「相似案例匹配評測」主題展開,比賽任務(wù)則涉及到類案的理解與判斷等問題,其中最具代表性的則是:民間借貸相似案例。如果能通過 AI 技術(shù)將大量類案進(jìn)行分類與判斷等,將大大減少重復(fù)性的人力成本等實際問題。

因此,本次的任務(wù)第一步是針對多篇法律文書進(jìn)行相似度的計算和判斷;然后對于每份文書提供文書的標(biāo)題和事實描述,從兩篇候選集文書中找到與詢問文書更為相似的一篇。其中,相似案例匹配的數(shù)據(jù)限于民間借貸一類文書。

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

民間借貸相似案例匹配舉例

在數(shù)據(jù)集方面,本任務(wù)所使用的數(shù)據(jù)集是來自「中國裁判文書網(wǎng)」公開的法律文書,每組數(shù)據(jù)由三篇法律文書組成。對于每篇法律文書,僅提供事實描述;對于每份數(shù)據(jù),用(A,B,C)來代表該組數(shù)據(jù);對于訓(xùn)練數(shù)據(jù),保證文書數(shù)據(jù) A 與 B 的相似度是大于 A 與 C 的相似度。

在這樣的賽題背景下,各個參賽團(tuán)隊開始運用他們的技術(shù)方法不斷提高 AI 判斷的準(zhǔn)確度。

AlphaCourt 團(tuán)隊

本次冠軍團(tuán)隊 AlphaCourt 來自支付寶安全實驗室,參賽成員包括:

  • Kaggle Master 鮑晟霖

  • KDD 2019 冠軍得主易燦

  • 帝國理工博士劉星

  • 杜克大學(xué)碩士葉珩

  • 愛丁堡大學(xué)碩士林曉彤

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

這個小組的日常業(yè)務(wù)是根據(jù)用戶反饋的欺詐等風(fēng)險信息,通過 AI 算法分析處理從而更好地防控,保護(hù)用戶賬戶安全。這也正是他們隊名「AlphaCourt——智能法院」的來歷,因為在他們業(yè)務(wù)范圍內(nèi),大家的職能與法院一樣,旨在分配正義,消除不公。

因此我們可以發(fā)現(xiàn),團(tuán)隊在本次競賽上有兩大主要優(yōu)勢:

  • 一是業(yè)務(wù)涉及豐富的文本,沉淀了很多文本相關(guān)的算法;

  • 二是團(tuán)隊曾搭建過詐騙案由的知識圖譜,這也更好的幫助他們輕車熟路地構(gòu)建業(yè)務(wù)抽象要素框架,并與文本模型結(jié)合,豐富了模型的學(xué)習(xí)維度。

盡管團(tuán)隊有著豐富、熟稔的經(jīng)驗和技巧,但除了面臨法律案件中各種的難題,如:案件文本長、案件復(fù)雜度高、案情靈活多變、案件分析數(shù)值繁多等之外,他們依舊還有需要克服的其它困難及挑戰(zhàn)。

挑戰(zhàn)一:數(shù)據(jù)構(gòu)建及句子相似度判定

在比賽過程中,團(tuán)隊首先面臨的是賽題數(shù)據(jù)構(gòu)建形式較少見這一大挑戰(zhàn)。隊長表示,雖然日常工作中他們很熟悉文本分類問題,但賽題是三段文本之間的對比,所以需要一定的轉(zhuǎn)換。

因此,一開始他們做了一個簡單的假設(shè),把賽題轉(zhuǎn)化為了一個絕對相似的問題。假定文書數(shù)據(jù) A 和文書數(shù)據(jù) B 之間是符合絕對的相似,同時文書數(shù)據(jù) A 和文書數(shù)據(jù) C 之間是符合絕對的不相似,即原先的三元組數(shù)據(jù)拆分成兩兩文書數(shù)據(jù)之間是否絕對相似的問題,這樣就可以使用二分類模型來解決此類問題。

但實際上在第二階段檢查數(shù)據(jù)時,團(tuán)隊發(fā)現(xiàn)之前的絕對相似假設(shè)存在一定問題。雖然數(shù)據(jù)(A,B,C)保證了文書數(shù)據(jù) A 與 B 的相似度是大于 A 與 C 的相似度,但是另一條數(shù)據(jù)中會出現(xiàn)(A,D,B)的情況;當(dāng)把這兩條三元組樣例同時拆分成兩兩對比相似的數(shù)據(jù)時,會發(fā)現(xiàn)產(chǎn)生數(shù)據(jù)的標(biāo)簽存在沖突。

因此,團(tuán)隊在第一階段使用二分類模型思路的情況下,重新考慮了三元組的相對相似問題。最終,他們采用了損失函數(shù)為 Triplet Loss 的 Rank 模型來解決三元組的相對相似的問題,從兩兩文本間的相似距離來評估兩兩文本之間相似度。

兩種模型的思路框架如下圖所示。

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

解決相對相似問題的模型

挑戰(zhàn)二:文本形式差異

隊長告訴我們,他們?nèi)粘L幚淼氖怯脩糇杂商顚懙奈谋?,信息稀疏且沒有固定結(jié)構(gòu),而賽題則是半結(jié)構(gòu)化的法律文書,所以需要構(gòu)建賽題案由相關(guān)的業(yè)務(wù)抽象特征。

因此,他們主要參考了合同法、擔(dān)保法、婚姻法及相關(guān)司法解釋,總結(jié)出了原告/被告屬性、擔(dān)保類型(一般、連帶)、計息方式、約定借期利率、約定逾期利率、抵押物、借款合意憑據(jù)等七個特征。最終根據(jù)可行性以及數(shù)據(jù)表現(xiàn),選用了原告被告特征、擔(dān)保特征、利息特征等特征。

原告被告特征包括原告是否屬于公司、原告人數(shù)、被告是否屬于公司和被告人數(shù);

擔(dān)保特征包括文書中是否包含擔(dān)保人、擔(dān)保人個數(shù)、文書中是否包含抵押物和抵押物的個數(shù);

利息特征包括文書中是否包含利息和對利息金額的轉(zhuǎn)換。其他業(yè)務(wù)特征包括文書中被告間是否存在夫妻關(guān)系和被告的死亡情況;

具體提取的結(jié)構(gòu)化特征如下圖所示:

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

具體提取的結(jié)構(gòu)化特征

雖然這些工作與建模關(guān)系不大,但在結(jié)果上證明了這些業(yè)務(wù)抽象特征確實會帶來不錯的增益;同時,從參賽方案來看,這也是其他參賽對手沒有特別重視的細(xì)節(jié)之處。對于這一點的把控,不禁讓人感嘆:這確實是「細(xì)節(jié)決定成敗」最有力的說明!

挑戰(zhàn)三:模型優(yōu)化

本次比賽有 711 支隊伍,共計 1003 位參賽者。激烈的競爭是在所難免的,而且在比賽過程中前幾名之間的分?jǐn)?shù)差距基本都在 5 以內(nèi),互相你追我趕,頗有劍拔怒張之勢。因此,AlphaCourt 團(tuán)隊也在不斷對模型進(jìn)行優(yōu)化,其中主要使用了兩個 Trick。

  • 模型融合

第一個 Trick 是模型融合;團(tuán)隊嘗試將 Bert 模型作為 Baseline 模型,然后對 Bert 模型進(jìn)行進(jìn)一步優(yōu)化。優(yōu)化方案包括:

對 Bert 模型內(nèi)部的網(wǎng)絡(luò)層輸出進(jìn)行提取,通過提取最后二層或三層中每層的第一個狀態(tài)輸出向量,嘗試與原先的 Bert 模型的輸出進(jìn)行拼接,可以得到一個更加全面的特征向量,如下圖(2)(3)所示;

結(jié)合正則表達(dá)式提取的業(yè)務(wù)抽象特征和 TF-IDF 提取文本數(shù)據(jù)的詞頻統(tǒng)計等結(jié)構(gòu)化特征,與 Bert 模型的輸出進(jìn)行拼接,結(jié)合結(jié)構(gòu)化特征的特征合理性得到更加優(yōu)化的特征向量,如下圖(4)所示;

Bert 模型的除了輸出特征向量外還提供了模型的狀態(tài)信息,該模型狀態(tài)信息可連接更深層的網(wǎng)絡(luò)模型,如 Bi-LSTM 和 Bi-GRU 網(wǎng)絡(luò)模型。通過更深層的網(wǎng)絡(luò)模型可以提取文本的更高維度特征。通過池化和提取隱藏層狀態(tài)等操作聚合 Bi-GRU 網(wǎng)絡(luò)層的輸出特征和隱藏層狀態(tài)的特征,如下圖(5)所示。

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

五種網(wǎng)絡(luò)模型

通過以上構(gòu)造的五種網(wǎng)絡(luò)模型,進(jìn)行多模型離線的多模型融合可以進(jìn)一步提高相似匹配的準(zhǔn)確率,如下圖所示。

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

多模型離線的多模型融合

  • Triple Loss 過擬合

另一個 Trick 是 Triple Loss 過擬合的解決;由于樣本按照三元組形式輸入,即默認(rèn)詢問文書數(shù)據(jù) A 與文書數(shù)據(jù) B 的相似度大于詢問文書數(shù)據(jù) A 與文書數(shù)據(jù) C 的相似度。此時在訓(xùn)練過程中可能會出現(xiàn)一種極端的情況,即模型結(jié)果無腦輸出 B,就會出現(xiàn)過擬合問題。

AlphaCourt 團(tuán)隊在這里使用的解決方案是部分修改文本數(shù)據(jù) B 和文本數(shù)據(jù) C 的順序,使一半的數(shù)據(jù)變成(A,C,B)形式的三元組數(shù)據(jù),即可以同時存在 B 和 C 的標(biāo)簽。具體的操作流程如下所示。

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

解決 Triple Loss 過擬合方案

在構(gòu)建訓(xùn)練和驗證數(shù)據(jù)集 Datasets 時,在第奇數(shù)個三元組樣本附帶一個變量 op,值為 1。將第偶數(shù)個三元組樣本的文書數(shù)據(jù) B 和文書數(shù)據(jù) C 進(jìn)行交換,并附帶一個變量 op,值為-1。構(gòu)建的數(shù)據(jù)集經(jīng)過數(shù)據(jù)加載器 Data Loader 會默認(rèn)將數(shù)據(jù)集進(jìn)行打亂,因此不會學(xué)習(xí)到數(shù)據(jù)的標(biāo)簽規(guī)律。

最后學(xué)習(xí)到特征向量經(jīng)過 Triplet Loss 計算時,只要計算過程中附帶了變量 op,調(diào)整兩者歐式距離的正負(fù)結(jié)果,就可以保證 Triplet Loss 的計算結(jié)果保持正確。

以上則為本次冠軍方案最核心部分的解讀,除此之外,關(guān)于編碼層、特征交互層、數(shù)據(jù)增廣、模型預(yù)訓(xùn)練等細(xì)節(jié)內(nèi)容詳情,可參考——

GitHub 開源代碼:

https://github.com/GuidoPaul/CAIL2019

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

AI 更廣泛的應(yīng)用

從這個大賽我們可以看到,曾經(jīng)局限于互聯(lián)網(wǎng)領(lǐng)域的 AI 技術(shù),現(xiàn)在也在金融、法律甚至是礦工等領(lǐng)域開始漸漸發(fā)光發(fā)熱,起到實際作用。而且這也并非唯一一個舉辦法律 AI 大賽的會議,像這樣的比賽還有很多,比如:

Artificial Intelligence for Legal Assistance (AILA)

詳情查看:https://sites.google.com/view/fire-2019-aila/

Competition on Legal Information Extraction/Entailment

詳情查看:https://sites.ualberta.ca/~rabelo/COLIEE2019/

這些比賽都是聚焦于通過 AI 技術(shù)來解決法律案由中數(shù)據(jù)量大、數(shù)據(jù)繁雜、檢索力誤差等實際問題,我們也通過比賽得到了很多實用的優(yōu)秀算法,幫助我們的生活變得更便利與幸福。

之前,我們很容易在互聯(lián)網(wǎng)、大數(shù)據(jù)等領(lǐng)域看到 AI 的身影;而現(xiàn)在,諸如法律、金融、醫(yī)療、交通、教育、零售以及文娛等各行各業(yè)中,也注入了強勁有力的 AI 實力。這或許也印證到,我們離全民 AI又更近了一步。

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

雷鋒網(wǎng) AI 開發(fā)者

「中國法研杯」相似案例匹配競賽結(jié)果出爐,冠軍方案關(guān)鍵點詳解

推薦內(nèi)容