作者:沈知涵
如果用一句話概括搜狗一直在做的事情,那就是讓表達和獲取信息更簡單,而這兩件事情又都起源于一點——語言。
過去,搜狗用搜索和輸入法以語言為核心幫助用戶做輸入和輸出。
如今,這兩條線正在無限延伸,構(gòu)成了搜狗的語言 AI 戰(zhàn)略。
其一,是以語言為核心的自然交互。王小川稱這是機器通過深度學習之后產(chǎn)生人的「感知」能力。
王小川在現(xiàn)場展示了搜狗新的降噪算法,傳統(tǒng)錄音硬件對于噪音的識別更多是通過麥克風矩陣來實現(xiàn)的,而今天搜狗的工程師通過對現(xiàn)實場景中 4 萬種真實噪音的學習,讓機器有了分辨噪音的能力。王小川表示這項降噪技術(shù)也將會應用在新一代的錄音筆中。
得益于在 OCR 識別、唇語識別和語音識別、語音合成、語音變聲多項技術(shù)上的積累,搜狗的自然交互能力已經(jīng)逐漸實現(xiàn)了在 AI 錄音筆、合成主播等方面的實際商業(yè)使用。
其二,是在語言之上提取出跟語言的關(guān)聯(lián)關(guān)系,讓機器產(chǎn)生人的「認知」能力,王小川稱之為知識計算。搜狗在 GeekPark IF X 發(fā)布了行業(yè)首創(chuàng)的多模態(tài)同傳,在聽的過程中,機器能夠?qū)崟r閱讀 PPT,將它所看到的內(nèi)容拓展成知識網(wǎng)絡,在聽和看的基礎上,又多了思考的一步。隨著知識計算能力的提升,搜狗未來將在知識性問答、醫(yī)療助診、智能助理等領(lǐng)域里面注入更多 AI 能力。
在 GeekPark IF X 上,王小川分享了圍繞著 AI 戰(zhàn)略搜狗近期的探索和積累,以及他所構(gòu)想的語言 AI 的未來。而他又將如何一步步駛向那個終點?
以下是搜狗公司 CEO 王小川在 GeekPark IF X 的演講,經(jīng)極客公園編輯整理:

張鵬說今天要談一下未來 10 年(2020-2030 年),還要求我?guī)硪恍┯藏?,談未?10 年一定會談到 AI。
首先從我們最近發(fā)布的一個硬貨開始,就是搜狗出品的 AI 錄音筆,錄音筆是今年上市的,我很高興這個錄音筆已經(jīng)被市場接受了,極客公園基本上人手一支,不是我贈送的,是他們掏錢買的,同時也有了很多的復購率。
錄音筆是一個很小眾的市場,但是因為有了人工智能的加持,錄音筆變成今年電商中間的一個小爆款。搜狗 AI 錄音筆相對傳統(tǒng)錄音筆,不僅有麥克風的矩陣,同時還有 AI 降噪、實時轉(zhuǎn)寫文字、云端的存儲和搜索、智能編輯、同聲傳譯等功能。所以,這個產(chǎn)品上線之后把整個市場改變了,像索尼、愛國者、紐曼都跟搜狗成立了一個聯(lián)盟,而搜狗成為了聯(lián)盟的盟主。
這個產(chǎn)品上線之前,整個錄音筆市場銷量逐年下滑,市場保有量只有 400 萬支,但是今年 3 月份的時候,搜狗上線錄音筆第一代產(chǎn)品,出現(xiàn)了一個奇怪的現(xiàn)象,主流電商平臺的錄音筆搜索量開始有了上升,到 12 月份我們發(fā)布了第二代錄音筆,也得到了很多好評,所以搜狗開始一點點的變硬。這件事情就像之前手機從傳統(tǒng)走向智能一樣,而且有了 AI 能力的注入,會帶來一個新的改變,AI 注入之后對于 C 端消費品有了一些變化。
談到硬件我個人有一些觀點,大家談的比較多的是音箱,我基本的判斷是人工智能對于硬件的助力,使得硬件方向有兩大趨勢:
第一,會變得更加便攜。以前放在桌上的 PC 機很大,隨后智能硬件開始走向筆記本、iPad、手機,甚至開始走向穿戴,因此未來個人硬件的趨勢是越來越移動化、便攜化。
第二,更強的 IO 能力。從之前的計算能力走向傳感器能力、基于 AI 的處理能力,從人去適應機器變成機器去適應人,最后機器開始接管你的感官成為人的助力。
智能硬件從以前的手機開始走向手表、耳機、到未來走向眼鏡,這是我對于未來 10 年路徑的一個暢想。這有可能會改變我們以手機為中心的方式,我相信在 10 年時間里面,很有可能眼鏡和耳機會取代手機作為我們接觸外界信息的通道,這就是 AI 未來對硬件產(chǎn)生影響的變化。
硬件背后,是人去接受這個世界。除了有圖像和語音之外,很重要的一個事情就是語言。其實一只貓或者狗都會有圖像和聲音的處理能力,但是惟有人能夠處理語言,語言是我們與世界交互的一種抽象的方式。
就像亞里士多德講到的,語言是心靈印象的符號,而且是人類思維的工具,是知識的載體,并且有了語言,人類社會才能溝通交流。不管是我們生產(chǎn)語言,還是計算機處理語言,語言是最難的一件事情,語言是人工智能皇冠上的明珠。
在圖靈測試里面提到,機器能夠用語言與人交流,就代表它擁有智能,今天我們的人工智能還不具有創(chuàng)造力和通用的推理能力,但是我們可以去做這樣的一個猜想,只有當它掌握了語言之后,它才能夠完整的擁有創(chuàng)造力和推用的推理。如果有機器能夠跟你對話,你就會覺得它具有智能,因此語言在智能當中是有極其重要的位置,也是人跟動物一個重大的區(qū)別。
我們會看到以語言為核心變成了我們?nèi)ニ伎既斯ぶ悄馨l(fā)展路徑的關(guān)鍵節(jié)點。搜狗做輸入法、搜索,其實就是處理語言的,也是幫你更好的表達、更好的獲取信息。今天我們雖然提到有語音、圖像,但是別忘了核心是語言。

語言往下我有兩部分分享:
第一,自然交互。自然交互讓人跟機器之間能夠用語音、圖像、手勢各種方式產(chǎn)生交流,其中用到了語音、圖像技術(shù),包括視覺的技術(shù)。
第二,認知問題,我們叫做知識計算?;谡Z言,機器能夠做問答和對話,機器翻譯是認知技術(shù)入門的門檻。有了更好的感知技術(shù),機器會從手機走向新的智能硬件,有了更好的認知技術(shù),機器對知識產(chǎn)生理解和推理,尤其是在垂直領(lǐng)域擁有問答的能力。新的硬件形式和新的對話和問答能力,智能硬件未來會走向智能助理,這也是整個 AI 行業(yè)在產(chǎn)品層面上面最明珠的地方,蘋果大概在 2006 年就開始推出這樣的能力。到今天 Google、百度、阿里、小米做這樣的音箱產(chǎn)品,其實內(nèi)核都是在做智能助理,只是外殼上我認為不是最好的方向。
布局的時候,從語音圖像有大量的技術(shù)要去做,包括語音識別、語音合成,包括了搜索獨有辨識的能力,往下可以作為展開,我把一些搜狗走在行業(yè)最前沿的點,給大家做一個簡單的匯報。
語音識別這是自然交互里面最自然的事情。搜狗輸入法今天我們做到了每天超過 8 億次的使用量,而且上升的很快。我最近批了一批服務器,在春節(jié)期間的時候可能就會超過 9-10 億次的日請求量。我們也積累了大量的數(shù)據(jù),包括了語種、方言各種能力。
語言識別聽著很簡單的一件事情,其實并不是純粹的單點技術(shù),在識別過程當中,對于語音、語義的理解還有哪些點需要攻克的呢?
在剛剛播放的視頻中,首先,大家感覺到有人聲的分離,機器能識別不同的人,能動態(tài)的去判斷這是第一個人還是第二個人。第二,做掌聲、笑聲或者其它聲音的識別,幫助我們理解內(nèi)容。第三,中英文混合,這是非常難的事情,從傳統(tǒng)的深度學習網(wǎng)絡數(shù)據(jù)中,得不到一個混合的模型,這里面會加入一些特定知識,來改變這個系統(tǒng)。
在這個識別背后還會有更復雜的技術(shù)需要我們解決,我們做錄音筆時會考慮很多問題,其中一件事是在嘈雜環(huán)境里怎么讓機器聽清人的聲音,幫助后面的識別,這是我們最前沿的技術(shù)。
傳統(tǒng)的硬件是用麥克風矩陣實現(xiàn)的,用多個麥克風進行中間的數(shù)字計算、信號處理,今天依靠人工智能,我們有了新的方法,搜狗的工程師在現(xiàn)實場景中對 4 萬種噪音進行了學習,使得機器有能力分辨噪音。
在這個視頻中,原始的機器識別、處理是不夠的。為了讓錄音筆、聲音的交互更好,我們有了新的算法,(降噪)技術(shù)在實驗中已經(jīng)完成了,期待在以后新款的錄音筆當中能給大家?guī)順O致的 AI 體驗。
從語音識別里面我們往前做了很多前沿的事情,除了語音識別還有一個重要的領(lǐng)域,就是語音的合成,在語音合成的時候,今天大家聽過了林志玲、高曉松的聲音,語音可以惟妙惟肖,用人的音色做表達。
但是,當你做長篇演講、音頻付費節(jié)目的時候,傳統(tǒng)機器所合成的聲音情感是不足夠的,搜狗是全球首次實現(xiàn)用機器模擬人,在得到音頻課程的整節(jié)課程中完全用機器合成,大家聽一下這個聲音。

(播放視頻)這個不只是聲音跟梁寧很像,更難得的是讓一半的聽眾沒有意識到整篇文章不是她本人讀的。因為一篇文章在音頻付費節(jié)目里面,已經(jīng)是一個表演了,對節(jié)奏把握、情感的輸出要求很高。
技術(shù)做的多的同學都知道,以今天的 AI 能力,機器不會有如此精準的認知理解,所以這個里面我們用了另外一種技術(shù),其實是一種聲音的皮膚,把梁寧的聲音變成一種聲音皮膚,技術(shù)上稱為特征的提取能力,可以讓另外一個人讀這篇文章,再把聲音皮膚附到這個聲音里面來,使得合成的聲音可以表達他的情感,經(jīng)過合成之后,最后由梁寧來呈現(xiàn)。
這種做法之后可以改善整個音頻節(jié)目生產(chǎn)的環(huán)節(jié),表演者和生產(chǎn)者做到一定的分離,以避免人員離職等等帶來的各種困難。加上聲音皮膚,大家可以假想有蠟筆小新、高曉松,也可以模仿一些帶有方言的聲音。
這種情況下,有個電影叫《頭號玩家》,使得我們現(xiàn)在每一個人在互聯(lián)網(wǎng)上,不僅可以換成其它的形象,也可以換成自己想要的一個聲音的形象。在生活中也有實際的用處,我們馬上開年會了,如果我要表演唱歌,作為一個五音不全的人怎么來做呢?這是我自己的聲音做的提取,然后可以加上《藍精靈》里面唱的一首歌,比我自己唱的好聽。
這樣一些技術(shù),也使得在交互中間能夠做到了人機本身的結(jié)合,使得這樣的制作能力能夠有放大。在這里面除了我們提到聲音的識別、合成以外,我們也做了一些更前沿的工作,是從語音走向了視覺,因此我們提到了搜狗分身,這是我們產(chǎn)品上一個重大的進展。這個產(chǎn)品發(fā)展到現(xiàn)在經(jīng)歷了多次的技術(shù)迭代,從最早的給新華社所做的主持人,到后來可以做到央視的主持人,到第二代能夠讓它更豐富的表達,第三代能夠站起來有手勢,到第四代之后就開始做到了多語言、多場景的播報能力,然后到了第五代之后開始能夠做交互,比如平安普惠的保險項目,后面的服務人員已經(jīng)被機器取代了。實際你在保險簽約的時候,是機器人更你做交互回答。我們很快發(fā)布的是第六代擁有大角度、大幅度的動作能力,這是天氣預報的播報,大家可以看一下。

這樣的技術(shù)在今年發(fā)布之后已經(jīng)得到了全球 200 多家媒體的的廣泛報道,也是機器在取代人上面的一次重大應用。所以,這里面我們可以看到,從語言為核心,背后配上了語音、人的表情、肢體、唇語,能夠使得人機的交互,走到更自然的狀態(tài)。
除了最簡單的感知問題以外,我們也在認知里面做了非常多的積累,剛才我們提到了翻譯是中間最簡單、入門的門檻,這里面我們做了很多的積累,這個問題很重大,而且我們現(xiàn)在做的也非常的努力。全球 20% 的人口是說中文的,中文是第一母語的國家,英文作為母語的人口只占全球的 4%,是第四大語言,印第語和葡萄牙語也比英語大。
但是,在這種情況里面,我們?nèi)?95% 的信息是用英文所寫的,100% 的國際商貿(mào)活動是用英文的,因此如何幫助中國人跟外國人進行更好的交流,這變成了一個重大的技術(shù)課題,我們作為做輸入法、搜索以語言為核心的公司,投了很多的力量來做相關(guān)的積累。
所以,2016 年在第三次世界互聯(lián)網(wǎng)大會上我們行業(yè)首家發(fā)布了大會的同傳,2017 年搜狗發(fā)布了英文搜索,你用中文詞能搜索全球的英文信息,搜索結(jié)果用中文展示出來。在第四屆互聯(lián)網(wǎng)大上,我們首個實現(xiàn)了深度學習的離線翻譯,以及有英譯中功能的同傳,2019 年 1 月份在極客公園大會上英中同傳首次發(fā)布。
到今天我們會發(fā)布新一代的同傳給大家,從 2017 年的同傳到 2018 年的個性化,今年我們做的是這樣一個多模態(tài)和自主有學習能力的同傳,真的同傳人員不僅是聽聲音的,他會去看你的這樣一個 PPT,我們今天這場會的同傳就是機器實時閱讀我的 PPT,同時識別中間的文字,并且把它轉(zhuǎn)化成知識圖譜,拓展它的知識邊界,就好像一個人一樣,看到我說了深度學習,就想到你可能會說卷積神經(jīng)元網(wǎng)絡,隨后是在知識庫查表,能找到中英對話實時加載的知識。
所以,從以前能聽、會看的多模態(tài),到現(xiàn)在這樣一個同傳系統(tǒng),它帶有一些簡單的思考能力,通過知識圖譜能夠?qū)崟r的把它看到的東西拓展成知識網(wǎng)絡,放到同傳生態(tài)系統(tǒng)中去,利用這樣的技術(shù),搜狗同傳的翻譯正確性提升了 40%。
這張圖展示的是通過視覺技術(shù)能夠?qū)崟r看到的詞匯,同時把它拓展成相應的知識,變成平行的語料,和傳統(tǒng)同傳系統(tǒng)做融合,這就是知識計算在同傳當中首次的重大應用。
同樣在知識計算之后,我們強調(diào)一個核心觀點,就是機器做閱讀理解之后做問答,傳統(tǒng)的搜索是通過關(guān)鍵詞給你 10 條鏈接,隨著技術(shù)的進步,我們整個處理能力會從詞變成句子、段落、篇章,用戶的表達也可能會轉(zhuǎn)換成句子,機器的閱讀理解也會走向篇章和整個文章體系,這是技術(shù)進步帶來的機會。
好幾家做音箱的公司也是盡可能把問答技術(shù)做到設備里去,因此在明年大家會看到一款新的搜索產(chǎn)品誕生,這件事情就不是用關(guān)鍵詞對應 10 條鏈接了,而是在問答里面走出重大的一步,我們可以看一個簡單的 demo。
這是早年間的一個系統(tǒng),這個系統(tǒng)并不能做到對知識推理的理解能力,更多是找到事實類的問題,但是它很厲害的地方不是簡單從數(shù)據(jù)做檢索,而是能做通篇閱讀理解,這是我們兩年前發(fā)布的一個節(jié)目中用的系統(tǒng),背后用了真實的技術(shù)。
今天的技術(shù)有很多的拓展,機器對于這樣一個問題的理解,甚至幫你構(gòu)造問題,幫你掌握怎么提問,也做了非常多的努力,因此在這里面從翻譯走向問答,也會在明年有一個新的突破。另外對話技術(shù)在輸入法中間會做更多的呈現(xiàn)。
在未來幾年的時間里面,也許用不到 10 年,我們構(gòu)建了一個基本的路徑,自然交互會從文字走向語音、圖像理解,所以看到我們的錄音筆、同傳、合成主播這個技術(shù)的前面,是在語音圖像的交互能力里面做增強,但是背后還是語言。
另外一條道路就是認知能力不斷地提升,會使得從搜索走向、輔助醫(yī)療、輔助問答以及合并語音圖像技術(shù),最終走向行業(yè)終極的理想,就是每個人都擁有一個個人助理,在一些垂直領(lǐng)域當中,能夠幫你去做秘書的工作,或者是成為你的分身,跟世界進行溝通,這個是我們規(guī)劃的藍圖。

到明年的時候,我們會完善這張圖,給大家呈現(xiàn)一個離個人助理更近的 AI 時代的產(chǎn)品,用機器幫助每一個人,讓表達、獲取信息更加的簡單,這個是我們的一些思考,謝謝!