首先讓我們來(lái)聊聊什么是大數(shù)據(jù)。大數(shù)據(jù)這個(gè)概念已經(jīng)出來(lái)很多年了(超過(guò) 10 年),但一直沒(méi)有一個(gè)準(zhǔn)確的定義(也許也并不需要)。數(shù)據(jù)工程師(DataEngineer)對(duì)大數(shù)據(jù)的理解會(huì)更多從技術(shù)和系統(tǒng)的角度去理解,而數(shù)據(jù)分析人員(Data Analyst)對(duì)大數(shù)據(jù)理解會(huì)從產(chǎn)品的角度去理解,所以數(shù)據(jù)工程師(Data Engineer) 和數(shù)據(jù)分析人員(Data Analyst)所理解的大數(shù)據(jù)肯定是有差異的。我所理解的大數(shù)據(jù)是這樣的,大數(shù)據(jù)不是單一的一種技術(shù)或者產(chǎn)品,它是所有與數(shù)據(jù)相關(guān)的綜合學(xué)科??创髷?shù)據(jù)我會(huì)從 2 個(gè)維度來(lái)看,一個(gè)是數(shù)據(jù)流的維度(下圖的水平軸),另外一個(gè)是技術(shù)棧的維度(下圖的縱軸)。

其實(shí)我一直不太喜歡張口閉口講“大數(shù)據(jù)”,我更喜歡說(shuō)“數(shù)據(jù)”。因?yàn)榇髷?shù)據(jù)的本質(zhì)在于“數(shù)據(jù)”,而不是“大”。由于媒體一直重點(diǎn)宣揚(yáng)大數(shù)據(jù)的“大”,所以有時(shí)候我們往往會(huì)忽然大數(shù)據(jù)的本質(zhì)在“數(shù)據(jù)”,而不是“大”,“大”只是你看到的表相,本質(zhì)還是數(shù)據(jù)自身。
在我們講清楚大數(shù)據(jù)的含義之后,我們來(lái)聊聊大數(shù)據(jù)目前到底處在一個(gè)什么樣的位置。從歷史發(fā)展的角度來(lái)看,每一項(xiàng)新技術(shù)都會(huì)經(jīng)歷下面這樣一個(gè)技術(shù)成熟度曲線。

當(dāng)一項(xiàng)新技術(shù)剛出來(lái)的時(shí)候人們會(huì)非常樂(lè)觀,常常以為這項(xiàng)技術(shù)會(huì)給人類帶來(lái)巨大的變革,對(duì)此持有過(guò)高的期望,所以這項(xiàng)技術(shù)一開始會(huì)以非??斓乃俣仁艿酱蠹易放酰缓蟮竭_(dá)一個(gè)頂峰,之后人們開始認(rèn)識(shí)到這項(xiàng)新技術(shù)并沒(méi)有當(dāng)初預(yù)想的那么具有革命性,然后會(huì)過(guò)于悲觀,之后就會(huì)經(jīng)歷泡沫階段。等沉寂一定階段之后,人們開始回歸理性,正視這項(xiàng)技術(shù)的價(jià)值,然后開始正確的應(yīng)用這項(xiàng)技術(shù),從此這項(xiàng)技術(shù)開始走向穩(wěn)步向前發(fā)展的道路。(題外話,筆者在看這幅圖的時(shí)候也聯(lián)想到了一個(gè)男人對(duì)婚姻看法的曲線圖,大家自己腦補(bǔ))。
從大數(shù)據(jù)的歷史來(lái)看,大數(shù)據(jù)已經(jīng)經(jīng)歷了 2 個(gè)重要階段
兩個(gè)重要階段是指過(guò)高期望的峰值和泡沫化的底谷期 ?,F(xiàn)在正處于穩(wěn)步向前發(fā)展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大數(shù)據(jù)大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然后慢慢走向下降通道(當(dāng)然這張曲線并不會(huì)和上面這張技術(shù)成熟度曲線完全擬合,比如技術(shù)曲線處在下降通道有可能會(huì)使討論這項(xiàng)技術(shù)的搜索量增加)。

數(shù)據(jù)規(guī)模會(huì)繼續(xù)擴(kuò)大,大數(shù)據(jù)將繼續(xù)發(fā)揚(yáng)光大
前面已經(jīng)提到過(guò),大數(shù)據(jù)已經(jīng)度過(guò)了過(guò)高期望的峰值和泡沫化的底谷期,現(xiàn)在正在穩(wěn)步向前發(fā)展。做這樣判斷主要有以下 2 個(gè)原因:
上游數(shù)據(jù)規(guī)模會(huì)繼續(xù)增長(zhǎng),特別是由于 IOT 技術(shù)的發(fā)展和成熟,以及未來(lái) 5G 技術(shù)的鋪開。在可預(yù)測(cè)的未來(lái),數(shù)據(jù)規(guī)模仍將繼續(xù)快速增長(zhǎng),這是能夠帶動(dòng)大數(shù)據(jù)持續(xù)穩(wěn)定向前發(fā)展的基本動(dòng)力。
下游數(shù)據(jù)產(chǎn)業(yè)還有很多發(fā)展的空間,還有很多數(shù)據(jù)的價(jià)值我們沒(méi)有挖掘出來(lái)。
雖然現(xiàn)在人工智能,區(qū)塊鏈搶去了大數(shù)據(jù)的風(fēng)口位置,也許大數(shù)據(jù)成不了未來(lái)的主角,但大數(shù)據(jù)也絕對(duì)不是跑龍?zhí)椎?,大?shù)據(jù)仍將扮演一個(gè)重要而基礎(chǔ)的角色??梢赃@么說(shuō),只要有數(shù)據(jù)在,大數(shù)據(jù)就永遠(yuǎn)不會(huì)過(guò)時(shí)。我想在大部分人的有生之年,我們都會(huì)見證大數(shù)據(jù)的持續(xù)向上發(fā)展。
數(shù)據(jù)的實(shí)時(shí)性需求將更加突出
之前大數(shù)據(jù)遇到的最大挑戰(zhàn)在于數(shù)據(jù)規(guī)模大(所以大家會(huì)稱之為“大數(shù)據(jù)”),經(jīng)過(guò)工業(yè)界多年的努力和實(shí)踐,規(guī)模大這個(gè)問(wèn)題基本已經(jīng)解決了。接下來(lái)幾年,更大的挑戰(zhàn)在于速度,也就是實(shí)時(shí)性。而大數(shù)據(jù)的實(shí)時(shí)性并不是指簡(jiǎn)單的傳輸數(shù)據(jù)或者處理數(shù)據(jù)的實(shí)時(shí)性,而是從端到端的實(shí)時(shí),任何一個(gè)步驟速度慢了,就影響整個(gè)大數(shù)據(jù)系統(tǒng)的實(shí)時(shí)性。所以大數(shù)據(jù)的實(shí)時(shí)性,包括以下幾個(gè)方面:
- 快速獲取和傳輸數(shù)據(jù)
- 快速計(jì)算處理數(shù)據(jù)
- 實(shí)時(shí)可視化數(shù)據(jù)
- 在線機(jī)器學(xué)習(xí),實(shí)時(shí)更新機(jī)器學(xué)習(xí)模型
目前以 Kafka,F(xiàn)link 為代表的流處理計(jì)算引擎已經(jīng)為實(shí)時(shí)計(jì)算提供了堅(jiān)實(shí)的底層技術(shù)支持,相信未來(lái)在實(shí)時(shí)可視化數(shù)據(jù)以及在線機(jī)器學(xué)習(xí)方面會(huì)有更多優(yōu)秀的產(chǎn)品涌現(xiàn)出來(lái)。當(dāng)大數(shù)據(jù)的實(shí)時(shí)性增強(qiáng)之后,在數(shù)據(jù)消費(fèi)端會(huì)產(chǎn)生更多有價(jià)值的數(shù)據(jù),從而形成一個(gè)更高效的數(shù)據(jù)閉環(huán),促進(jìn)整個(gè)數(shù)據(jù)流的良性發(fā)展。
大數(shù)據(jù)基礎(chǔ)設(shè)施往云上遷移勢(shì)不可擋
目前 IT 基礎(chǔ)設(shè)施往云上遷移不再是一個(gè)大家還需要爭(zhēng)論的問(wèn)題,這是大勢(shì)所趨。當(dāng)然我這邊說(shuō)的云并不單單指公有云,也包括私有云,混合云。因?yàn)橛捎诿總€(gè)企業(yè)的業(yè)務(wù)屬性不同,對(duì)數(shù)據(jù)安全性的要求不同,不可能把所有的大數(shù)據(jù)設(shè)施都部署在公有云上,但向云上遷移這是一個(gè)未來(lái)注定的選擇。目前各大云廠商都提供了各種各樣的大數(shù)據(jù)產(chǎn)品以滿足各種用戶需求,包括平臺(tái)型(PAAS) 的 EMR ,服務(wù)型 (SAAS) 的數(shù)據(jù)可視化產(chǎn)品等等。
大數(shù)據(jù)基礎(chǔ)設(shè)施的云化對(duì)大數(shù)據(jù)技術(shù)和產(chǎn)品產(chǎn)生也有相應(yīng)的影響。大數(shù)據(jù)領(lǐng)域的框架和產(chǎn)品將更加 Cloud Native 。
- 計(jì)算和存儲(chǔ)的分離。我們知道每個(gè)公有云都有自己對(duì)應(yīng)的分布式存儲(chǔ),比如 AWS 的 S3 。 S3 在一些場(chǎng)合可以替換我們所熟知的 HDFS ,而且成本更低。而 S3 的物理存儲(chǔ)并不是在 EC2 上面,對(duì) EC2 來(lái)說(shuō), S3 是 remote storage 。所以如果你要是 AWS 上面做大數(shù)據(jù)開發(fā)和應(yīng)用,而且你的數(shù)據(jù)是在 S3 上,那么你就自然而然用到了計(jì)算和存儲(chǔ)的分離。
- 擁抱容器,與 Kubernate 的整合大勢(shì)所趨,我們知道在云環(huán)境中 Kuberneate 基本上已經(jīng)是容器資源調(diào)度的標(biāo)準(zhǔn)。
- 更具有彈性(Elastic)。
- 與云上其他產(chǎn)品和服務(wù)整合更加緊密。
大數(shù)據(jù)產(chǎn)品全鏈路化
全鏈路化是指提供端到端的全鏈路解決方案,而不是簡(jiǎn)單的堆積一些大數(shù)據(jù)產(chǎn)品組件。以 Hadoop 為代表的大數(shù)據(jù)產(chǎn)品一直被人詬病的主要問(wèn)題就是用戶使用門檻過(guò)高,二次開發(fā)成本太高。全鏈路化就是為了解決這一問(wèn)題,用戶需要的并不是 Hadoop,Spark,F(xiàn)link 等這些技術(shù),而是要以這些技術(shù)為基礎(chǔ)的能解決業(yè)務(wù)問(wèn)題的產(chǎn)品。 Cloudera 的從 Edge 到 AI 是我比較認(rèn)同的方案。大數(shù)據(jù)的價(jià)值并不是數(shù)據(jù)本身,而是數(shù)據(jù)背后所隱藏的對(duì)業(yè)務(wù)有影響的信息和知識(shí)。下面是一張摘自 wikipedia 的經(jīng)典數(shù)據(jù)金字塔的圖。

大數(shù)據(jù)技術(shù)就是對(duì)最原始的數(shù)據(jù)進(jìn)行不斷處理加工提煉,金字塔每上去一層,對(duì)應(yīng)的數(shù)據(jù)量會(huì)越小,同時(shí)對(duì)業(yè)務(wù)的影響價(jià)值會(huì)更大更快。而要從數(shù)據(jù)(Data) 最終提煉出智慧(Wisdom),數(shù)據(jù)要經(jīng)過(guò)一條很長(zhǎng)的數(shù)據(jù)流鏈路,沒(méi)有一套完整的系統(tǒng)保證整條鏈路的高效運(yùn)轉(zhuǎn)是很難保證最終從數(shù)據(jù)中提煉出來(lái)有價(jià)值的東西的,所以大數(shù)據(jù)未來(lái)產(chǎn)品全鏈路化是另外一個(gè)大的趨勢(shì)。
大數(shù)據(jù)技術(shù)往下游數(shù)據(jù)消費(fèi)和應(yīng)用端轉(zhuǎn)移
上面講到了大數(shù)據(jù)的全鏈路發(fā)展趨勢(shì),那么這條長(zhǎng)長(zhǎng)的數(shù)據(jù)鏈路目前的狀況是如何,未來(lái)又會(huì)有什么樣的趨勢(shì)呢?
我的判斷是未來(lái)大數(shù)據(jù)技術(shù)的創(chuàng)新和發(fā)力會(huì)更多的轉(zhuǎn)移到下游數(shù)據(jù)消費(fèi)和應(yīng)用端。之前十多年大數(shù)據(jù)的發(fā)展主要集中在底層的框架,比如最開始引領(lǐng)大數(shù)據(jù)風(fēng)潮的 Hadoop ,后來(lái)的計(jì)算引擎佼佼者 Spark,F(xiàn)link 以及消息中間件 Kafka ,資源調(diào)度器 Kubernetes 等等,每個(gè)細(xì)分領(lǐng)域都涌現(xiàn)出了一系列優(yōu)秀的產(chǎn)品??偟膩?lái)說(shuō),在底層技術(shù)框架這塊,大數(shù)據(jù)領(lǐng)域已經(jīng)基本打好了基礎(chǔ),接下來(lái)要做的是如何利用這些技術(shù)為企業(yè)提供最佳用戶體驗(yàn)的產(chǎn)品,以解決用戶的實(shí)際業(yè)務(wù)問(wèn)題,或者說(shuō)未來(lái)大數(shù)據(jù)的側(cè)重點(diǎn)將從底層走向上層。之前的大數(shù)據(jù)創(chuàng)新更偏向于 IAAS 和 PAAS ,未來(lái)你將看到更多 SAAS 類型的大數(shù)據(jù)產(chǎn)品和創(chuàng)新。
從近期一些國(guó)外廠商的收購(gòu)案例,我們可以略微看出一些端倪。
面對(duì)最終用戶的大數(shù)據(jù)產(chǎn)品將是未來(lái)大數(shù)據(jù)競(jìng)爭(zhēng)的重點(diǎn),我相信會(huì)未來(lái)大數(shù)據(jù)領(lǐng)域的創(chuàng)新也將來(lái)源于此,未來(lái) 5 年內(nèi)大概率至少還會(huì)再出一個(gè)類似 Looker 這樣的公司,但是很難再出一個(gè)類似 Spark 的計(jì)算引擎。
底層技術(shù)的集中化和上層應(yīng)用的全面開花
學(xué)習(xí)過(guò)大數(shù)據(jù)的人都會(huì)感嘆大數(shù)據(jù)領(lǐng)域的東西真是多,特別是底層技術(shù),感覺(jué)學(xué)都學(xué)不來(lái)。經(jīng)過(guò)多年的廝殺和競(jìng)爭(zhēng),很多優(yōu)秀的產(chǎn)品已經(jīng)脫穎而出,也有很多產(chǎn)品慢慢走向消亡。比如批處理領(lǐng)域的 Spark 引擎基本上已經(jīng)成為批處理領(lǐng)域的佼佼者,傳統(tǒng)的 MapReduce 除了一些舊有的系統(tǒng),基本不太可能會(huì)開發(fā)新的 MapReduce 應(yīng)用。 Flink 也基本上成為低延遲流處理領(lǐng)域的不二選擇,原有的 Storm 系統(tǒng)也開始慢慢退出歷史舞臺(tái)。同樣 Kafka 也在消息中間件領(lǐng)域基本上占據(jù)了壟斷地位。未來(lái)的底層大數(shù)據(jù)生態(tài)圈中將不再有那么多的新的技術(shù)和框架,每個(gè)細(xì)分領(lǐng)域都將優(yōu)勝劣汰,走向成熟,更加集中化。未來(lái)更大的創(chuàng)新將更多來(lái)來(lái)自上層應(yīng)用或者全鏈路的整合方面。在大數(shù)據(jù)的上層應(yīng)用方面未來(lái)將會(huì)迎來(lái)有更多的創(chuàng)新和發(fā)展,比如基于大數(shù)據(jù)上的 BI 產(chǎn)品, AI 產(chǎn)品等等,某個(gè)垂直領(lǐng)域的大數(shù)據(jù)應(yīng)用等等,我相信未來(lái)我們會(huì)看到更多這方面的創(chuàng)新和發(fā)展。
開源閉源并駕齊驅(qū)
大數(shù)據(jù)領(lǐng)域并不是只有 Hadoop,Spark,F(xiàn)link 等這類大家耳熟能詳?shù)拈_源產(chǎn)品,還有很多優(yōu)秀的閉源產(chǎn)品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。這些產(chǎn)品雖然沒(méi)有開源產(chǎn)品那么受開發(fā)者歡迎,但是他們對(duì)于很多非互聯(lián)網(wǎng)企業(yè)來(lái)說(shuō)是非常受歡迎的。因?yàn)閷?duì)于一個(gè)企業(yè)來(lái)說(shuō),采用哪種大數(shù)據(jù)產(chǎn)品有很多因素需要考慮,否開源并不是唯一標(biāo)準(zhǔn)。產(chǎn)品是否穩(wěn)定,是否有商業(yè)公司支持,是否足夠安全,是否能和現(xiàn)有系統(tǒng)整合等等往往是某些企業(yè)更需要考慮的東西,而閉源產(chǎn)品往往在這類企業(yè)級(jí)產(chǎn)品特性上具有優(yōu)勢(shì)。
最近幾年開源產(chǎn)品受公有云的影響非常大,公有云可以無(wú)償享受開源的成果,搶走了開源產(chǎn)品背后的商業(yè)公司很多市場(chǎng)份額,所以最近很多開源產(chǎn)品背后的商業(yè)公司開始改變策略,有些甚至修改了 Licence 。不過(guò)我覺(jué)得公有云廠商不會(huì)殺死那些開源產(chǎn)品背后的商業(yè)公司,否則就是殺雞取卵,殺死開源產(chǎn)品背后的商業(yè)公司,其實(shí)就是殺死開源產(chǎn)品的最大技術(shù)創(chuàng)新者,也就是殺死開源產(chǎn)品本身。我相信開源界和公有云廠商最終會(huì)取得一個(gè)平衡,開源仍然會(huì)是一個(gè)主流,仍然會(huì)是創(chuàng)新的主力,一些優(yōu)秀的閉源產(chǎn)品同樣也會(huì)占據(jù)一定的市場(chǎng)空間。
最后我想再次總結(jié)下本文的幾個(gè)要點(diǎn):
目前大數(shù)據(jù)已經(jīng)度過(guò)了最火的峰值期和泡沫化的底谷期,現(xiàn)在正處于穩(wěn)步向前發(fā)展的階段。
【責(zé)任編輯:未麗燕 TEL:(010)68476606】