陳運(yùn)文,80后張江男,國際算法競賽的世界冠軍,中國人工智能領(lǐng)域最高獎(jiǎng)—— “吳文俊人工智能科技獎(jiǎng)”獲得者。2015年,陳運(yùn)文從張江高科旗下的天之驕子孵化器內(nèi)起步,帶領(lǐng)“張江男天團(tuán)”創(chuàng)立達(dá)而觀信息科技(上海)有限公司,專注于利用語義理解和文本智能處理,創(chuàng)業(yè)初期即獲得首輪融資1000萬元。2016年4月,加入浦東軟件園的企業(yè)孵化培育平臺(tái),在浦東張江這一人工智能產(chǎn)業(yè)集聚地上不斷耕耘,經(jīng)過近5年的發(fā)展,達(dá)觀數(shù)據(jù)以強(qiáng)大的文本自動(dòng)化處理能力蜚聲業(yè)內(nèi)外,成為領(lǐng)域內(nèi)的獨(dú)角獸。
尋夢張江 五年孕育獨(dú)角獸
第一財(cái)經(jīng):浦東是一個(gè)代表著開放、自由、夢想的地方,很多科創(chuàng)企業(yè)都會(huì)選擇浦東,您當(dāng)時(shí)是什么樣的理由選擇在浦東創(chuàng)業(yè)?
陳運(yùn)文:這邊有非常豐富的工程師資源,非常多的針對(duì)創(chuàng)新創(chuàng)業(yè)人才的政策。張江集團(tuán)以及浦東新區(qū)都給我們這樣的創(chuàng)新企業(yè)非常好的幫扶政策,幫我們有很好的辦公場地,很好的宣傳平臺(tái),能夠讓我們從種子期的時(shí)候就得到很多支持,一路走來迅速發(fā)展壯大。
第一財(cái)經(jīng):您2015年在浦東開始創(chuàng)業(yè),當(dāng)時(shí)對(duì)浦東的印象是什么?
陳運(yùn)文:我們在浦東創(chuàng)業(yè)時(shí),創(chuàng)新創(chuàng)業(yè)剛剛開始興起,那邊有非常多的活動(dòng)、評(píng)選等等。我印象很深的是,當(dāng)時(shí)我還參加了《尋找獨(dú)角獸》這樣一個(gè)科技創(chuàng)新企業(yè)的評(píng)選,我們在活動(dòng)當(dāng)中也非常榮幸的過關(guān)斬將,最后拿到了獨(dú)角獸的大獎(jiǎng)。
第一財(cái)經(jīng):因?yàn)槟銈兪且粋€(gè)學(xué)霸的團(tuán)隊(duì),技術(shù)能力非常突出。
陳運(yùn)文:我們這個(gè)團(tuán)隊(duì)一直以來都在做文字大數(shù)據(jù)的挖掘工作,也代表中國參加過很多國際的數(shù)據(jù)挖掘競賽,獲得了兩次世界冠軍。所以我們這個(gè)團(tuán)隊(duì)有很好的技術(shù)積累,風(fēng)險(xiǎn)投資也給了我們很大的支持,公司創(chuàng)辦的時(shí)候,就拿到了徐小平老師的真格基金天使輪融資1000萬人民幣,應(yīng)該是真格基金最大的一筆天使輪,所以我們迅速地把我們的產(chǎn)品技術(shù)和產(chǎn)業(yè)應(yīng)用結(jié)合在一起,把產(chǎn)品很好地孵化出來了。
第一財(cái)經(jīng):我們采訪過很多人工智能領(lǐng)域的頭部公司,但是專注文本處理的達(dá)觀是第一家。公司為什么會(huì)選擇這個(gè)主攻方向?
陳運(yùn)文:文字資料處理是一個(gè)充滿魅力的領(lǐng)域,人類的智慧高度濃縮在文字里面,它和人類文明息息相關(guān),但是文字資料處理本身又是非常難的一件事。我們用短短幾個(gè)字,能夠表達(dá)氣象萬千的內(nèi)容。比如一句古詩“大漠孤煙直,長河落日圓”,十個(gè)字就能表達(dá)非常豐富的含義。正因?yàn)樗浅饪s,所以讓計(jì)算機(jī)去閱讀很困難。因?yàn)樗枰裎覀儼岩粋€(gè)咖啡粉放到水里面把它泡開,才能夠把短短幾個(gè)字背后的意思釋放出來,才能夠理解它,所以這個(gè)過程需要非常強(qiáng)大的一個(gè)技術(shù)能力。但是在我們?nèi)粘^k公中,每一個(gè)崗位、每一個(gè)人都離不開對(duì)文字資料的運(yùn)用和處理,我們希望有一個(gè)智能化的機(jī)器人系統(tǒng)去幫助人完成文字資料的閱讀、寫作,能夠讓我們從繁重的日常文檔資料處理工作中解脫出來,這是我們的創(chuàng)業(yè)的動(dòng)機(jī)。我們愿意做突破這個(gè)堡壘的一支尖兵,去完成這個(gè)工作。
圖像識(shí)別、語音信息識(shí)別、文字資料識(shí)別,是拉動(dòng)人工智能發(fā)展的三駕馬車。比爾蓋茨曾經(jīng)說過,文字資料處理是人工智能皇冠上的明珠。因?yàn)槲淖仲Y料是人類智慧的高度濃縮,在今天的人工智能產(chǎn)業(yè)里,文本識(shí)別是最難的一個(gè)領(lǐng)域。文本挖掘工作經(jīng)歷了第一代符號(hào)主義、第二代語法規(guī)則、第三代統(tǒng)計(jì)學(xué)習(xí),目前處于第四代深度學(xué)習(xí)階段,將實(shí)現(xiàn)用一個(gè)復(fù)雜的模型模擬人腦神經(jīng)網(wǎng)絡(luò)運(yùn)作,從而能夠像人類一樣的進(jìn)行說文解字,閱讀理解。
第一財(cái)經(jīng):目前國內(nèi)人工智能文本處理方面的企業(yè)大概有多少家?達(dá)觀是什么樣一個(gè)位置?
陳運(yùn)文:國內(nèi)在這個(gè)領(lǐng)域的創(chuàng)業(yè)企業(yè)大概不到10家,達(dá)觀是這個(gè)行業(yè)里的最領(lǐng)先的企業(yè),不管是公司體量、業(yè)務(wù)規(guī)模還是應(yīng)用場景都是最豐富的,我們建立了規(guī)模巨大的中英文語言資料庫,開發(fā)出來的自動(dòng)化辦公機(jī)器人已經(jīng)非常成功地運(yùn)用在很多領(lǐng)域里面,比如說在銀行,幫助客戶經(jīng)理自動(dòng)化完成信貸報(bào)告的填寫,在政府,幫助公務(wù)員自動(dòng)完成審批的工作,在500強(qiáng)企業(yè),把人事、財(cái)務(wù)、行政、供應(yīng)鏈這些原來大量靠人做的重復(fù)性的、枯燥的工作,實(shí)現(xiàn)自動(dòng)化。
第一財(cái)經(jīng):那是不是很多的白領(lǐng)工種會(huì)被您的這個(gè)技術(shù)取代?
陳運(yùn)文:應(yīng)該說部分會(huì)被代替。但其實(shí)白領(lǐng)的工作分成兩類,一類為創(chuàng)造性的工作,一類為重復(fù)性的工作。機(jī)器人來完成的是重復(fù)機(jī)械性的工作。我們公司也有一些同事來自于傳統(tǒng)行業(yè),我問他們?yōu)槭裁匆x開原來的崗位?他們說是因?yàn)槊刻斓墓ぷ鳑]有意義,就像一個(gè)機(jī)器一樣在重復(fù)。我就說,你說對(duì)了,這些工作就應(yīng)該由機(jī)器人去完成,人類就應(yīng)該去做那些有創(chuàng)造性的、有情感的、有溫度的工作。所以我們期望未來的工作是人和機(jī)器人互相搭配的一個(gè)狀態(tài),機(jī)器人是我們?nèi)祟惖闹?,幫我們完成那些不太愿意去觸及的工作,才能夠讓社會(huì)運(yùn)轉(zhuǎn)的更有效力,大幅度提高效率。比如,一個(gè)機(jī)器人和一個(gè)人力資源的職員同樣做表格填寫的工作,機(jī)器人的速度大概是人類的20倍以上,準(zhǔn)確率也會(huì)比人類高。我們?nèi)藭?huì)疲勞,會(huì)隨著心情的起伏導(dǎo)致工作質(zhì)量的下降,但是機(jī)器人一天工作24小時(shí),我們開發(fā)出來的RPA機(jī)器人,它能夠在各行各業(yè)很好地發(fā)揮作用。
第一財(cái)經(jīng):怎么樣去理解RPA?
陳運(yùn)文:RPA,它的英文叫Robotic Process Automation,翻譯過來就是機(jī)器人流程自動(dòng)化。它把白領(lǐng)的工作步驟變成一、二、三、四、五、六明確的流程,編出程序安裝在電腦里以后,就能像白領(lǐng)一樣自動(dòng)化去完成日常辦公了。
第一財(cái)經(jīng):你預(yù)期市場覆蓋率或者對(duì)人工的替代能夠達(dá)到一個(gè)什么樣的規(guī)模?目前已經(jīng)做到了多少占比?
陳運(yùn)文:我們預(yù)期十年之內(nèi)有50%的重復(fù)性日常辦公處理可以讓RPA機(jī)器人去完成。今天連1%都不到,所以這個(gè)有廣闊的市場空間,未來從1%都不到到50%這個(gè)巨大的市場空間,我們是有希望去占領(lǐng)的。
第一財(cái)經(jīng):在這個(gè)方向上,最核心的技術(shù)難點(diǎn)是什么?
陳運(yùn)文:最難的地方就是文字資料的理解,這個(gè)需要有一個(gè)非常強(qiáng)大的語言模型。因?yàn)闄C(jī)器人它不會(huì)像人類那樣思考,對(duì)文字資料所有的理解工作都是來自于大量的運(yùn)算,我們要建立一個(gè)非常優(yōu)秀的、聰明的數(shù)學(xué)模型才能讓機(jī)器人像人類一樣去理解每一個(gè)字詞背后的含義。我們的漢語非常神奇,它充滿了各種各樣的暗示、省略、雙關(guān)……上下文一變,意思往往會(huì)發(fā)生變化。我舉個(gè)例子,我們經(jīng)常講說:“今天天氣很冷,能穿多少穿多少”和“今天天氣很熱,能穿多少穿多少”,同樣都是“能穿多少穿多少”,上下文一變,意思就完全相反了。人類來理解毫無困難,但是機(jī)器人理解非常費(fèi)勁,我們就要花很多精力,讓機(jī)器人去閱讀大量的文檔資料,進(jìn)行各種各樣的訓(xùn)練。同時(shí),我們在日常工作中,除了普通的文字理解外,還要疊加人類的專業(yè)技能。比如你是一個(gè)律師,你去看一個(gè)合同的時(shí)候,不光看文字本身的意思,還會(huì)結(jié)合法律經(jīng)驗(yàn)和條款去解讀它。所以機(jī)器人還要去閱讀大量的法律法規(guī),案件卷宗,才能夠像我們的法務(wù)人員一樣的去完成這些合同的審閱工作。雖然我們已經(jīng)積累了超過2000億字的文字語言庫,構(gòu)建了非常龐大的算法模型,但是還是有很多語言文字現(xiàn)象沒有得到好的理解,所以我們還在不斷地升級(jí)我們的算法模型,讓計(jì)算機(jī)越來越聰明。
文本挖掘工作,一半是技術(shù),一半是藝術(shù)。陳運(yùn)文笑稱自己的名字早已注定了與文字為伍的“宿命”:“運(yùn)文、運(yùn)文,運(yùn)用文字?!?。而取名達(dá)觀有兩個(gè)原因:一是寓意通達(dá)樂觀,第二,公司的英文名稱Datagrand就是大數(shù)據(jù)的英文。
第一財(cái)經(jīng):上海是一個(gè)國際化大都市,達(dá)觀能夠處理多少國家的語言和相關(guān)的信息呢?
陳運(yùn)文:目前集中在處理中文和英文兩種語言,但是我們也和外國語學(xué)校有非常深入的合作,加大中小型語種語言模型的積累。我們服務(wù)了全球的貨運(yùn)巨頭,它們的的貨單、箱單、報(bào)關(guān)單上有各國文字,我們需要計(jì)算機(jī)系統(tǒng)自動(dòng)去完成報(bào)關(guān),自動(dòng)進(jìn)行貨運(yùn)單據(jù)的識(shí)別填寫工作,已經(jīng)取得很好的效果。所以我們也看到,整個(gè)全球的供應(yīng)鏈體系里面也可以讓自動(dòng)化辦公機(jī)器人發(fā)揮很大的作用,語言文字不分國界。
第一財(cái)經(jīng):聽下來整個(gè)達(dá)觀的商業(yè)模式,還是主要以To B為主,有沒有To C的可能性?
陳運(yùn)文:我覺得完全有可能。我們做過一個(gè)統(tǒng)計(jì),一個(gè)人每天有1/3的時(shí)間在和文字打交道,我們發(fā)現(xiàn)很多人寫文字的時(shí)候特別痛苦。比如,有人寫個(gè)1000字的報(bào)告,可能抓耳撓腮花一兩天才能寫出來。那如果配備一個(gè)機(jī)器人助手,你把你的主要的思路告訴它,它可以瞬間幫你起草出很多版本、很多風(fēng)格的文檔,你從里面挑選一個(gè),稍加潤色就能提交了。我們正在研發(fā)自動(dòng)化寫作機(jī)器人。
發(fā)力奔跑 探索人類文明之光
第一財(cái)經(jīng):回顧達(dá)觀創(chuàng)業(yè)的這五年,在浦東的大環(huán)境當(dāng)中,有哪些政策層面的支持讓你覺得非常給力?
陳運(yùn)文:我覺得不管是實(shí)實(shí)在在的落戶、人才公寓這些工作,還是很好的人才政策,都能夠讓我們這個(gè)企業(yè)在過去幾年聚攏非常多的優(yōu)秀人才。同樣,各類創(chuàng)新評(píng)比浦東新區(qū)都給了我們大力的支持。
2016年,陳運(yùn)文被評(píng)為“張江優(yōu)秀人才”。2017年,陳運(yùn)文入選浦東優(yōu)秀青年崗位能手獎(jiǎng),并入選浦東新區(qū)“百人計(jì)劃”。2019年,入選“浦東新區(qū)十大杰出青年”。而在剛剛過去的兩個(gè)月,陳運(yùn)文又獲得首屆浦東十大優(yōu)秀青年企業(yè)家稱號(hào)。
第一財(cái)經(jīng):過去的五年里,達(dá)觀在文本處理這個(gè)領(lǐng)域不停攀登,下一個(gè)五年的戰(zhàn)略是什么?
陳運(yùn)文:未來五年,我們要做的最重要的事情是把我們的技術(shù)能夠更多地推而廣之,讓更多的行業(yè)能夠知道這樣的技術(shù),應(yīng)用上這樣的技術(shù)。中國這么大,這么多的地區(qū),這么多的機(jī)構(gòu),其實(shí)都有潛在的需求。我們接下來就是要走出上海,走向全國。
第一財(cái)經(jīng):上市在計(jì)劃當(dāng)中嗎?
陳運(yùn)文:是的,我們不僅在準(zhǔn)備科創(chuàng)板的相關(guān)事宜,現(xiàn)在也為科創(chuàng)板在助力,我們今天的文字資料處理技術(shù)也在未上市企業(yè)注冊制的材料審核上提供服務(wù)。比如招股說明書、審計(jì)報(bào)告等等,我們?yōu)樽C券企業(yè)提供相應(yīng)的自動(dòng)化審核機(jī)器人系統(tǒng),所以我們非常自豪的說,科創(chuàng)板的科技創(chuàng)新也能夠融入我們達(dá)觀數(shù)據(jù)技術(shù)力量。
第一財(cái)經(jīng):很多人說 2020年是充滿挑戰(zhàn)的一年,也是充滿機(jī)遇的一年。2020年整個(gè)的外部環(huán)境,給達(dá)觀帶來了怎樣的改變?
陳運(yùn)文:我們看到市場對(duì)智能化系統(tǒng)的需求從原來的可有可無變得非常的迫切,以前我們覺得人工智能很多應(yīng)用是錦上添花,但是在疫情肆虐的時(shí)候,就變成了雪中送炭。當(dāng)人沒有辦法正常上崗的時(shí)候,機(jī)器人第一時(shí)間可以開始正常工作,所以疫情也能夠鞭策我們更好地把技術(shù)開發(fā)好,把產(chǎn)品打磨好,在更多的場景下發(fā)揮作用。
文字是一切的載體。在人類過去100萬年的進(jìn)化過程中,文明迭代速度極其緩慢,但文字的出現(xiàn),使其陡然加速。從5400年前的兩河流域的蘇美爾人文字,到現(xiàn)代法律文本的起源《漢謨拉比法典》,從象形文字到甲骨文,從雕版印刷到活字印刷,從計(jì)算機(jī)到大數(shù)據(jù),人類對(duì)文字處理的升級(jí)迭代,如劃破寂寂長夜的流星,在茫茫宇宙中照亮整片夜空。
而今,數(shù)據(jù)深度學(xué)習(xí)的革命方興未艾,人工智能作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,正在深刻改變世界。上海,浦東,作為人工智能的高地,正多點(diǎn)突破,加速搶跑。達(dá)觀,也在全力跑出加速度,沖出上海,走向全國,摘取人工智能皇冠上的明珠,探索人類文明之光。
責(zé)任編輯: