亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁 > 科技新聞 >

數(shù)據(jù)湖里沒有“水怪”,有的是,,,

時(shí)間:2019-11-13 01:08來源:網(wǎng)絡(luò)整理 瀏覽:
一般情況下,要使大數(shù)據(jù)項(xiàng)目成功,至少需要兩件事:其一,知道需要什么可操作的數(shù)據(jù);其二,獲得正確的數(shù)據(jù)來進(jìn)行分析和利用,以實(shí)現(xiàn)預(yù)期目標(biāo)。 然

一般情況下,要使大數(shù)據(jù)項(xiàng)目成功,至少需要兩件事:其一,知道需要什么可操作的數(shù)據(jù);其二,獲得正確的數(shù)據(jù)來進(jìn)行分析和利用,以實(shí)現(xiàn)預(yù)期目標(biāo)。

數(shù)據(jù)湖里沒有“水怪”,有的是,,,

然而,有很多不同形式的數(shù)據(jù)有著形色各異的來源,并且,這種數(shù)據(jù)量,或者多樣性等會(huì)隨著時(shí)間的推移而呈指數(shù)型增長(zhǎng)。

數(shù)據(jù)湖是在快速增長(zhǎng)和日益非結(jié)構(gòu)化的大數(shù)據(jù)領(lǐng)域中結(jié)束數(shù)據(jù)孤島的一種方式。

在未來幾年,工業(yè)物聯(lián)網(wǎng)將快速增長(zhǎng)。這種增長(zhǎng),會(huì)出現(xiàn)更多或更優(yōu)質(zhì)的數(shù)據(jù):數(shù)據(jù)在整個(gè)物聯(lián)網(wǎng)體系中的有著舉足輕重的地位,其作用是獲得更精確的洞察力,推動(dòng)相關(guān)行動(dòng)和運(yùn)營(yíng),以達(dá)成期望目標(biāo)。為了進(jìn)行有目的大數(shù)據(jù)分析,為智能應(yīng)用程序提供智能數(shù)據(jù),也就意味著不可避免地需使用人工智能來分析所有這些數(shù)據(jù)。

數(shù)據(jù)湖是將所有不同種類數(shù)據(jù)收集、存儲(chǔ)、分析并轉(zhuǎn)化為洞察力和決策的地方,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

傳統(tǒng)上,數(shù)據(jù)存儲(chǔ)于整個(gè)組織(內(nèi)部數(shù)據(jù))及其運(yùn)作的生態(tài)系統(tǒng)(外部數(shù)據(jù))中。這是一個(gè)挑戰(zhàn):如果數(shù)據(jù)在云內(nèi)云外無處不在,那就不能將有效的數(shù)據(jù)組合在一個(gè)大數(shù)據(jù)項(xiàng)目中。

作為一個(gè)概念,數(shù)據(jù)湖是由Pentaho的首席技術(shù)官James Dixon推廣的,并將其視為是比數(shù)據(jù)集或數(shù)據(jù)中心更適合于大數(shù)據(jù)的存儲(chǔ)庫。

以下是Dixon于2011年在博客上對(duì)數(shù)據(jù)湖的定義:“如果將數(shù)據(jù)中心視為商店的經(jīng)過清潔、包裝和結(jié)構(gòu)化的瓶裝水,那數(shù)據(jù)湖便是一個(gè)更自然的大水體。數(shù)據(jù)湖中的內(nèi)容從源頭流入湖中,用戶可以在湖中進(jìn)行檢查、潛水或采集樣本“。

數(shù)據(jù)湖是具有分析和行動(dòng)目的存儲(chǔ)庫。

在本質(zhì)上,大數(shù)據(jù)湖是一個(gè)存儲(chǔ)庫,包含大量原始的、原生格式的數(shù)據(jù)。

傳統(tǒng)的數(shù)據(jù)管理方法不適合處理大數(shù)據(jù)或進(jìn)行大數(shù)據(jù)分析。通過大數(shù)據(jù)分析,可找到不同數(shù)據(jù)集之間的關(guān)聯(lián),這些數(shù)據(jù)集需要合并才能實(shí)現(xiàn)我們的業(yè)務(wù)目標(biāo)。如果這些數(shù)據(jù)集位于完全不同的系統(tǒng)中,那幾乎是不可能實(shí)現(xiàn)的。

比如,我們可以將來自一個(gè)來源的客戶數(shù)據(jù)與其他來源的數(shù)據(jù),甚至似乎不相關(guān)的數(shù)據(jù)結(jié)合起來(例如,交通數(shù)據(jù)、天氣數(shù)據(jù)等似乎與我們的業(yè)務(wù)無關(guān)的客戶數(shù)據(jù))。并采取相應(yīng)的措施,以提高客戶體驗(yàn),提出新的服務(wù),或提高銷售額。

自下而上的數(shù)據(jù)分析:攝入數(shù)據(jù)以填滿數(shù)據(jù)湖

數(shù)據(jù)分析和數(shù)據(jù)湖有什么關(guān)系?大數(shù)據(jù)湖是分析的兩種信息管理方法之一。

第一個(gè)是自上而下的數(shù)據(jù)倉庫,第二個(gè)是自下而上的數(shù)據(jù)湖。為了讓他更直觀,讓我們想象一個(gè)真正的湖的形象。湖不會(huì)平白無故的被填滿,通常有河流或較小的溪流給它帶來水。

數(shù)據(jù)湖是專為大數(shù)據(jù)分析而設(shè)計(jì)的,以解決大數(shù)據(jù)中的數(shù)據(jù)孤島問題。

在數(shù)據(jù)湖中也會(huì)發(fā)生同樣的情況。這也被稱為數(shù)據(jù)的攝入,不論其來源或結(jié)構(gòu)如何。通過上述數(shù)據(jù)分析,我們需收集實(shí)現(xiàn)目標(biāo)所需的所有數(shù)據(jù)。

這些“數(shù)據(jù)流”有幾種格式:結(jié)構(gòu)化數(shù)據(jù)(簡(jiǎn)單地說,來自傳統(tǒng)關(guān)系數(shù)據(jù)庫甚至電子表格的數(shù)據(jù):行和列), 非結(jié)構(gòu)化數(shù)據(jù) (社交、視頻、電子郵件、短信……),來自各種日志的數(shù)據(jù)(如網(wǎng)志、點(diǎn)擊流分析……)、機(jī)器對(duì)機(jī)、物聯(lián)網(wǎng)和傳感器數(shù)據(jù),您可以將其命名為日志和XML,也稱為半結(jié)構(gòu)化數(shù)據(jù)。

它們還涉及從全局的角度來看各種類型的數(shù)據(jù):客戶數(shù)據(jù)、業(yè)務(wù)應(yīng)用程序的數(shù)據(jù)、銷售數(shù)據(jù)等(通過API輸入數(shù)據(jù)湖)。顯然,我們將在大多數(shù)時(shí)候需利用外部數(shù)據(jù)以實(shí)現(xiàn)我們的目標(biāo)。

數(shù)據(jù)湖的使用:存儲(chǔ)、分析和可視化

所有這些數(shù)據(jù),只要它有意義,就會(huì)存儲(chǔ)在數(shù)據(jù)湖中,同時(shí)它也會(huì)通過應(yīng)用程序接口協(xié)議API,或從各種應(yīng)用程序和系統(tǒng)中通過批處理過程不斷輸入數(shù)據(jù)。

存儲(chǔ)維度是第二部分(攝入是第一部分)。在大數(shù)據(jù)湖中,這實(shí)際上意味著沒有數(shù)據(jù)孤島。因此,這意味著我們即將開始一項(xiàng)有趣的工作:大數(shù)據(jù)分析。

要知道,我們合并的數(shù)據(jù)集有時(shí)看起來是無關(guān)的,例如,我們可以使用人工智能來檢測(cè)購買行為和天氣狀況之間的模式,來自一個(gè)來源的客戶數(shù)據(jù)和另一個(gè)來源的客戶數(shù)據(jù),交通數(shù)據(jù)和污染數(shù)據(jù)之間的模式,這種模式不勝枚舉。我們能用這些模式做什么?正如你所能想象的那樣,在現(xiàn)實(shí)生活中,大量的大數(shù)據(jù)使用示例表明,這就是你的業(yè)務(wù)或其他目標(biāo)發(fā)揮作用的地方。

顯然,光是分析是不夠的。你還需對(duì)所分析的東西進(jìn)行想象、理解和行動(dòng)。正如EMC關(guān)于數(shù)據(jù)湖如何工作的信息圖表所示:流出的水是經(jīng)過分析的數(shù)據(jù),然后會(huì)采取相關(guān)的行動(dòng),進(jìn)而產(chǎn)生商業(yè)洞察力。

數(shù)據(jù)湖里沒有“水怪”,有的是,,,

為什么是數(shù)據(jù)湖?

如前所述,傳統(tǒng)上有兩種分析的信息管理方法。為什么數(shù)據(jù)湖(自下而上的方法)在數(shù)據(jù)分析中很受歡迎?

原因有很多。首先,重要的是要理解我們對(duì)數(shù)據(jù)湖的看法并不完全正確,它不僅僅是一些自下而上的大混亂數(shù)據(jù)沼澤。其中涉及到相當(dāng)多的技術(shù),協(xié)議等等。要妥善利用溪流進(jìn)入湖中的圖像:在水真正進(jìn)入湖中之前,就已經(jīng)安裝了過濾器。

1. 歷史遺留數(shù)據(jù)體系結(jié)構(gòu)的挑戰(zhàn)

數(shù)據(jù)湖更受歡迎的一部分原因是歷史原因。

傳統(tǒng)的數(shù)據(jù)系統(tǒng)并不是那么開放,如果想要集成、添加和混合數(shù)據(jù)以進(jìn)行分析和操作的話,也不是很容易。傳統(tǒng)數(shù)據(jù)架構(gòu)的分析也不那么精確,成本也不低(需要額外的工具,取決于軟件)。此外,它們的構(gòu)建沒有考慮到我們通常在大數(shù)據(jù)中的所有新的和正在出現(xiàn)的(外部)數(shù)據(jù)源。

2. 更快的大數(shù)據(jù)分析能力

使用數(shù)據(jù)湖的另一個(gè)重要原因是大數(shù)據(jù)分析可以更快地完成。

事實(shí)上數(shù)據(jù)湖是為大數(shù)據(jù)分析而設(shè)計(jì)的,更重要的是,它是為基于實(shí)時(shí)分析的實(shí)時(shí)操作而設(shè)計(jì)的。數(shù)據(jù)湖適合以一致的方式利用大量數(shù)據(jù),并使用算法驅(qū)動(dòng)實(shí)時(shí)分析。

3. 混合和匯聚數(shù)據(jù):一個(gè)數(shù)據(jù)湖中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)

數(shù)據(jù)湖還有一個(gè)優(yōu)點(diǎn)是,可以獲取、融合、集成和聚合所有類型的數(shù)據(jù),而不論其來源和格式如何。

Hadoop是數(shù)據(jù)湖體系結(jié)構(gòu)之一,它還可以處理主要數(shù)據(jù)塊之上的結(jié)構(gòu)化數(shù)據(jù),也包括來自社會(huì)數(shù)據(jù)、日志等非結(jié)構(gòu)化數(shù)據(jù)。順便提一句:非結(jié)構(gòu)化數(shù)據(jù)是所有數(shù)據(jù)中增長(zhǎng)最快的形式(即使結(jié)構(gòu)化數(shù)據(jù)也在不斷增長(zhǎng)),預(yù)計(jì)將達(dá)到所有數(shù)據(jù)的90%。

4. 將數(shù)據(jù)分析移到數(shù)據(jù)湖和邊緣

還有一個(gè)事實(shí)是,來回移動(dòng)大型數(shù)據(jù)集并不是明智的做法。

有了大數(shù)據(jù)湖,應(yīng)用程序會(huì)更接近于數(shù)據(jù)的所在。從這個(gè)意義上講,你可以看到應(yīng)用程序移動(dòng)到邊緣,而不是存儲(chǔ)庫中心,即以更快的速度移動(dòng)并減輕網(wǎng)絡(luò)等方面的負(fù)擔(dān)。這是霧計(jì)算的精髓所在,它是工業(yè)4.0和工業(yè)互聯(lián)網(wǎng)背景下,邊緣計(jì)算在數(shù)據(jù)分析領(lǐng)域的最新應(yīng)用。

5. 數(shù)據(jù)湖的靈活性隨用戶的需要增長(zhǎng)而擴(kuò)展

數(shù)據(jù)湖具有高度的可伸縮性和靈活性。這不需要過多的闡述,系統(tǒng)和進(jìn)程可以很容易地進(jìn)行縮放,以處理越來越多的數(shù)據(jù)。

數(shù)據(jù)湖里沒有“水怪”,有的是,,,

6. 節(jié)約企業(yè)數(shù)據(jù)倉庫資源

最后一個(gè)優(yōu)點(diǎn)是,正如上面來自PwC的說明所示,數(shù)據(jù)湖可以作為數(shù)據(jù)倉庫(EDW)的中轉(zhuǎn)區(qū)域。

然后,它僅用于將相關(guān)數(shù)據(jù)傳遞到倉庫,從而節(jié)省EDW資源。

數(shù)據(jù)湖的挑戰(zhàn)、風(fēng)險(xiǎn)和演變

大數(shù)據(jù)湖有諸多的好處,同時(shí),也有風(fēng)險(xiǎn)和挑戰(zhàn)需應(yīng)對(duì)。

如果沒有正確的戰(zhàn)略設(shè)計(jì),并考慮到必要的目標(biāo),數(shù)據(jù)湖可能成為數(shù)據(jù)沼澤。這也是為什么企業(yè)從非常傳統(tǒng)的數(shù)據(jù)湖方法轉(zhuǎn)向面向目標(biāo)和業(yè)務(wù)導(dǎo)向的方法的原因。

顯然,應(yīng)該從業(yè)務(wù)驅(qū)動(dòng)和戰(zhàn)略方針著手來處理數(shù)據(jù)湖。然而,傳統(tǒng)上,這些數(shù)據(jù)往往是從不斷上升的數(shù)據(jù)量角度和最終所有數(shù)據(jù)都具有潛在價(jià)值的觀點(diǎn)來看待的。

雖然這個(gè)價(jià)值確實(shí)是有潛力的,但相當(dāng)多的公司表現(xiàn)得像數(shù)據(jù)囤積者。此外,公司是否需要一個(gè)數(shù)據(jù)湖,如果需要,是否可以從數(shù)據(jù)湖中獲得價(jià)值。

Gartner2015年的一份報(bào)告中顯示,一些公司的Hadoop((數(shù)據(jù)湖架構(gòu)的領(lǐng)先者)是過猶不及的,技術(shù)上的差距是阻礙發(fā)展的主要原因。

大數(shù)據(jù)湖的規(guī)模

由于大數(shù)據(jù)量和大數(shù)據(jù)使用量不斷增長(zhǎng),大數(shù)據(jù)規(guī)劃的廣度、深度和包容性都在增加,因此數(shù)據(jù)湖的大小顯然也在不斷增長(zhǎng)。

一篇Dimensional Research2018年大數(shù)據(jù)趨勢(shì)和挑戰(zhàn)報(bào)告的博客文章指出,平均數(shù)據(jù)湖大小超過100太字節(jié)的組織比例從2017年的36%增長(zhǎng)到2018年的44%( 一年內(nèi)增加22%)。這種趨勢(shì)只會(huì)持續(xù)下去,而且是大數(shù)據(jù)處理向云轉(zhuǎn)變的眾多驅(qū)動(dòng)因素之一。

然而,難題依然存在:如何從所有這些數(shù)據(jù)中獲取價(jià)值。決策和行動(dòng)是市場(chǎng)如何發(fā)展的關(guān)鍵驅(qū)動(dòng)力。

確保數(shù)據(jù)湖不會(huì)變成數(shù)據(jù)沼澤

讓我們更深入地研究這些數(shù)據(jù)沼澤。如前所述,在數(shù)據(jù)湖的早期,重點(diǎn)是大數(shù)據(jù)的容量方面,許多企業(yè)實(shí)際上使用數(shù)據(jù)湖作為轉(zhuǎn)儲(chǔ)數(shù)據(jù)的地方。

這導(dǎo)致了數(shù)據(jù)沼澤的現(xiàn)象,需采取適當(dāng)?shù)姆椒ū3謹(jǐn)?shù)據(jù)湖的清潔。

數(shù)據(jù)湖里沒有“水怪”,有的是,,,

直到今天,仍然聽到一些組織提出常規(guī)性的問題,比如:“我應(yīng)該用一個(gè)數(shù)據(jù)湖來替換我的數(shù)據(jù)中心嗎?”。數(shù)據(jù)湖經(jīng)常與數(shù)據(jù)中心相比較,雖然理解這些差異很重要,但問題是使用什么,什么時(shí)候使用并不是重點(diǎn),正如咨詢師所言,你真正需要的是什么,要視情況而定。

我們的旨在通過數(shù)據(jù)倉庫、數(shù)據(jù)分析和商業(yè)智能環(huán)境來解決它們所適應(yīng)的商業(yè)智能環(huán)境的問題。

  • 數(shù)據(jù)可實(shí)現(xiàn)什么;
  • 如何從這些數(shù)據(jù)中獲得更多的價(jià)值;
  • 通過高級(jí)分析將數(shù)據(jù)貨幣化的用例有哪些;
  • 我們需要什么技能;
  • 我們的業(yè)務(wù)是如何由數(shù)據(jù)驅(qū)動(dòng)的;
  • 我們今天的處境(包括技能和文化)
  • 在法規(guī)范圍內(nèi),我們需要考慮到哪些有關(guān)敏感數(shù)據(jù)的問題;
  • 。。。

當(dāng)數(shù)據(jù)湖的數(shù)據(jù)情況變得清晰無誤時(shí),就不難確保它不會(huì)變成一個(gè)數(shù)據(jù)沼澤。這種討論已經(jīng)進(jìn)行了很長(zhǎng)時(shí)間,數(shù)據(jù)湖需要更多的策略和關(guān)注。

數(shù)據(jù)湖里沒有“水怪”,有的是,,,

改變數(shù)據(jù)湖的要素:云、分析、價(jià)值和AI/ML

當(dāng)然,數(shù)據(jù)湖也不像以前所觸及的那樣了。在早期,數(shù)據(jù)湖本質(zhì)上是添加Hadoop,并保留所有現(xiàn)有的內(nèi)容,而現(xiàn)在,我們可以更多地使用云中的數(shù)據(jù)。

最初,一個(gè)數(shù)據(jù)湖是給那些有技能和能力的用戶使用:找到他們想要的數(shù)據(jù),然后能夠使用模式在讀技術(shù)來處理這個(gè)問題。幸運(yùn)的是,SQL正在進(jìn)入數(shù)據(jù)湖,我們開始學(xué)習(xí)如何對(duì)其中的不同島嶼建模,讓用戶直接訪問數(shù)據(jù)湖中的數(shù)據(jù)。

云的增長(zhǎng)速度和它在業(yè)務(wù)中總體增長(zhǎng)速度一樣快。很明顯,數(shù)據(jù)湖的未來意味著云,盡管某些行業(yè)也會(huì)有例外,其中包括監(jiān)管問題,以及傳統(tǒng)上對(duì)公眾云采取更為謹(jǐn)慎的做法。

數(shù)據(jù)湖里沒有“水怪”,有的是,,,

一些企業(yè)顯然也從過去所犯的錯(cuò)誤中吸取了教訓(xùn),最后,隨著人工智能和機(jī)器學(xué)習(xí)變得更加重要,重點(diǎn)更多的放在結(jié)果和價(jià)值上,以及對(duì)近實(shí)時(shí)分析、高級(jí)分析和可視化的需求,人們更加關(guān)注結(jié)果和價(jià)值。

我們還看到數(shù)據(jù)湖向商業(yè)智能解決方案轉(zhuǎn)變。簡(jiǎn)單地總結(jié)一下:數(shù)據(jù)湖景觀發(fā)展迅速,其本質(zhì)仍然是將數(shù)據(jù)轉(zhuǎn)化為價(jià)值和更好地實(shí)現(xiàn)這一目標(biāo)的手段,技術(shù)前沿的大量趨勢(shì)和經(jīng)驗(yàn)教訓(xùn),使得我們很難將數(shù)據(jù)湖的過去與現(xiàn)在進(jìn)行比較,更不用說未來了。許多組織表示,它們計(jì)劃部署一個(gè)數(shù)據(jù)湖,并轉(zhuǎn)向云,這一未來看上去相當(dāng)光明。

要知道,當(dāng)數(shù)據(jù)湖變得流行時(shí),大數(shù)據(jù)仍然是一個(gè)熱門詞,至少大數(shù)據(jù)已經(jīng)變得無所不在了。大數(shù)據(jù)就是數(shù)據(jù),問題是如何處理它。總的來說,數(shù)據(jù)的成熟度已經(jīng)提高,新一代的專家知道,大數(shù)據(jù)分析是獲得價(jià)值的關(guān)鍵所在,你對(duì)待數(shù)據(jù)的方式與傳統(tǒng)數(shù)據(jù)倉庫時(shí)代不同-關(guān)于利用大數(shù)據(jù)的思維方式和文化已經(jīng)在醞釀。

【責(zé)任編輯:趙寧寧 TEL:(010)68476606】
推薦內(nèi)容