亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當前位置: 首頁 > 科技新聞 >

民主化與自動化:降低機器學習門檻的六大工具

時間:2019-11-13 01:06來源:網(wǎng)絡(luò)整理 瀏覽:
過去,機器學習這個名詞的頭上曾經(jīng)籠著科學的光環(huán),只有少數(shù)高薪數(shù)據(jù)科學家才懂得如何用數(shù)據(jù)喂養(yǎng)復(fù)雜的算法,得出有用的

過去,機器學習這個名詞的頭上曾經(jīng)籠著科學的光環(huán),只有少數(shù)高薪數(shù)據(jù)科學家才懂得如何用數(shù)據(jù)“喂養(yǎng)”復(fù)雜的算法,得出有用的分析結(jié)果。但如今隨著自動化工具的快速發(fā)展,數(shù)據(jù)的采集、結(jié)構(gòu)化和分析已經(jīng)變得更加容易,機器學習的使用門檻已經(jīng)大幅降低,即使那些不懂編程的業(yè)務(wù)人員,只要能提出正確的問題,同樣也能用機器學習工具得到想要的結(jié)果。

民主化與自動化:降低機器學習門檻的六大工具

機器學習的民主化進程正在加速,標志之一就是AutoML最近成了熱門詞匯,所謂AutoML就是給機器學習算法增加了一個自動化的meta層。過去,機器學習算法的復(fù)雜之處在于需要進行大量選項和參數(shù)設(shè)置來“微調(diào)”,而數(shù)據(jù)科學家們的精力80-99%都花在這上面。AutoML能夠自動測試并調(diào)優(yōu)大量參數(shù),不但大大降低算法使用門檻,也加快了算法調(diào)優(yōu)過程。

AutoML是云計算的天作之合,因為在云端AutoML可以調(diào)用足夠的機器算力來并行處理并返回結(jié)果,同時,AutoML也非常適合機器學習的新手循序漸進自行探索機器學習應(yīng)用。

6種工具讓機器學習不再難

以下介紹的六種機器學習工具為那些使用數(shù)字、電子表格和數(shù)據(jù)的人們打開了通向機器學習世界的大門,而且不需要他們成為編程和數(shù)據(jù)科學方面的專家。

1. Splunk的

Splunk最初是作為一種搜索工具,對Web應(yīng)用程序創(chuàng)建的大量日志文件進行搜索(或“窺探”)。如今它已經(jīng)發(fā)展成為能夠分析所有形式數(shù)據(jù)的工具,特別是時間序列和其他按順序生成的數(shù)據(jù)。Splunk能夠?qū)?shù)據(jù)分析結(jié)果顯示在一個復(fù)雜的可視化儀表板中。

最新的Splunk版本包括將數(shù)據(jù)源與TensorFlow等機器學習工具和一些優(yōu)秀Python開源工具集成的應(yīng)用程序。它們提供快速解決方案,用于檢測異常值,標記異常并生成對未來值的預(yù)測。它們經(jīng)過優(yōu)化,可以在非常大的數(shù)據(jù)集中海底撈針。

2. DataRobot

DataRobot內(nèi)部的堆棧是一些用R、Python或其他幾個平臺編寫的好用的開源機器庫的集合。DataRobot有一個Web界面,顯示用于設(shè)置管道的類似流程圖的工具。DataRobot連接到所有主要數(shù)據(jù)源,包括本地數(shù)據(jù)庫,云數(shù)據(jù)存儲和下載的文件或電子表格。您構(gòu)建的管道可以清理數(shù)據(jù),填充缺失值,然后生成標記異常值并預(yù)測未來值的模型。

DataRobot還可以嘗試提供關(guān)于為什么進行某些預(yù)測的“人性化解釋”,這是了解AI如何工作的有用功能。

它可以部署在云和本地解決方案的混合方案中。云端實施可以通過共享資源提供最大的并行性和吞吐量,而本地安裝提供更多的隱私和控制。

3. H2O

H2O對自己的定位是“無人駕駛AI”,這個自動化堆??梢杂脕硖剿鞲鞣N機器學習解決方案。它將數(shù)據(jù)源(數(shù)據(jù)庫,Hadoop,Spark等)連接在一起,并將它們提供給具有各種參數(shù)的各種算法。您可以控制分配給特定任務(wù)的時間量和計算資源,并在預(yù)算內(nèi)測試各種參數(shù)組合。你也可以通過儀表板或Jupyter筆記本來探索和審核結(jié)果。

H2O的核心機器學習算法以及與Spark等工具的集成是開源的,但所謂的“無人駕駛”選項是銷售給企業(yè)客戶的專有軟件包之一,提供技術(shù)支持。

4. RapidMiner

RapidMiner生態(tài)系統(tǒng)的核心是一個基于可視圖標進行數(shù)據(jù)分析的工作室軟件。用戶只需拖放圖標來生成一個管道,進行數(shù)據(jù)清理,然后通過各種統(tǒng)計算法運行它。如果您想使用機器學習而不是更傳統(tǒng)的數(shù)據(jù)科學,自動模型將從多種分類算法中進行選擇,并搜索各種參數(shù),直到找到最佳擬合。該工具的目標是生成數(shù)百個模型,然后確定最佳模型。

創(chuàng)建模型后,該工具可以部署它們,同時測試它們的成功率并解釋模型如何做出決策??梢允褂每梢暬ぷ髁骶庉嬈鳒y試和調(diào)整對不同數(shù)據(jù)字段的敏感度。

最近的增強功能包括更好的文本分析,用于構(gòu)建可視化儀表板的更多種類的圖表以及用于分析時間序列數(shù)據(jù)的更復(fù)雜的算法。

5. BigML

BigML儀表板提供了數(shù)據(jù)科學的常用基本工具用于識別數(shù)據(jù)相關(guān)性,這是更復(fù)雜的機器學習工作的基礎(chǔ)。例如,他們的Deepnets提供了用于測試和優(yōu)化更精細的神經(jīng)網(wǎng)絡(luò)的復(fù)雜機制??梢詫⒛P偷馁|(zhì)量與其他算法進行比較,并使用標準化的比較框架,幫助您在經(jīng)典數(shù)據(jù)科學和更復(fù)雜的機器學習之間進行選擇。

BigML的儀表板在瀏覽器中運行,其分析可以在BigML云中運行,也可以在服務(wù)器機房中運行。云版本的價格設(shè)置較低,以鼓勵早期測試; 甚至還有一個免費圖層。成本主要取決于數(shù)據(jù)集大小的限制以及可以調(diào)用的計算資源量。免費套餐將使用不超過兩個并行運行的進程分析最多16MB的數(shù)據(jù)。較小的付費賬戶的定價非常合理,每月只需30美元,但隨著資源需求的增加,成本會上升。

6. R Studio

R對于非程序員用戶來說并不友好,但它仍然是復(fù)雜統(tǒng)計分析最重要的工具之一,因為它非常受核心數(shù)據(jù)科學家的歡迎。R Studio是一個工具,為用戶提供一組菜單和點擊選項,使其更容易與內(nèi)部運行的R層交互。

通過R Studio,那些能夠處理電子表格的高級管理人員可以使用最簡單的選項來運行基本分析,甚至是一些復(fù)雜的分析。雖然R Studio的有些部分依然讓普通用戶感到困惑,但R Studio正處于開放的邊緣,每個愿意投入一些時間的人都可以訪問使用,對于想要探索尖端工具的人來說,R Studio值得一試。

【責任編輯:趙寧寧 TEL:(010)68476606】
推薦內(nèi)容