尋找頂尖人才小心你所熱衷的技能,因為不明智的選擇可能帶來毀滅性的后果。除了團隊管理不善和不必要的錄用之外,你還會看到真正的英雄辭職或接受再教育,以適應(yīng)你當(dāng)前的激勵機制。這種現(xiàn)象的一個典型例子就是分析學(xué)。
數(shù)據(jù)科學(xué)領(lǐng)域的頂尖人才很難找到,這并不奇怪:“全?!睌?shù)據(jù)科學(xué)家意味著精通機器學(xué)習(xí)、統(tǒng)計和分析。當(dāng)團隊無法得到三合一的博學(xué)者時,他們就把目光放在了吸引單一專家中最令人印象深刻的角色上。誰獲得了寵愛?
如今,數(shù)據(jù)科學(xué)的流行趨勢是,華而不實的復(fù)雜技術(shù)加上一點科幻色彩,讓人工智能和機器學(xué)習(xí)成為招聘領(lǐng)域的寵兒。挑戰(zhàn)其第一位置的其他挑戰(zhàn)者來自統(tǒng)計,這要感謝其一個世紀以來的嚴謹聲譽和數(shù)學(xué)優(yōu)勢。那分析師呢?
分析是二等公民如果你的主要技能是分析(或數(shù)據(jù)挖掘或商業(yè)智能),那么當(dāng)前面提到的那些人昂首挺胸地從你身邊走過,而就業(yè)市場又毫不避諱地告訴你需要提升自己的技能才能加入他們時,你的自信心很可能會受到打擊。
優(yōu)秀的分析師是數(shù)據(jù)工作有效的先決條件。讓他們放棄對你來說很危險,但如果你低估了他們,他們就會這么做。
外行人很少能理解的是,在數(shù)據(jù)科學(xué)的環(huán)境里,這三種職業(yè)是完全不同的。但相似之處是,他們可能使用相同的公式。優(yōu)秀的分析人員絕不是其他數(shù)據(jù)科學(xué)角色的殘缺版本,而是數(shù)據(jù)工作有效的先決條件。讓他們放棄對你來說很危險,但如果你低估了他們,他們就會這么做。
同樣受人尊敬與其要求分析師開發(fā)他們的統(tǒng)計或機器學(xué)習(xí)技能,不如考慮鼓勵他們首先尋求在自己的學(xué)科上達到一定的高度。數(shù)據(jù)科學(xué)這個東西,一個領(lǐng)域的卓越勝過兩個領(lǐng)域的平庸。
這三個數(shù)據(jù)科學(xué)學(xué)科都有自己的優(yōu)點。統(tǒng)計學(xué)家?guī)韲乐敚琈L 工程師帶來效能,分析師帶來速度。
在最高級的專業(yè)知識方面,這三個角色都同樣受人尊敬,但它們提供的服務(wù)非常不同。為了理解其中的微妙之處,讓我們來看看在每一門數(shù)據(jù)科學(xué)學(xué)科中成為真正優(yōu)秀的人意味著什么,他們能帶來什么價值,以及在每一份工作中需要具備哪些性格特征。
統(tǒng)計人員的優(yōu)秀之處:嚴謹作為在數(shù)據(jù)之外得出結(jié)論的專家,統(tǒng)計學(xué)家是避免你在一個不確定的世界里自欺欺人的最佳保護。對他們來說,草率地推斷某件事比讓你的大腦一片空白更不可取,所以我們會希望有一位優(yōu)秀的統(tǒng)計學(xué)家來抑制你的興奮。他們總是小心翼翼地關(guān)注所采用的方法是否適合問題,并為從手頭信息中推斷出的哪些結(jié)論有效而煩惱。
大多數(shù)人都沒有意識到統(tǒng)計學(xué)家本質(zhì)上是知識學(xué)家。既然沒有什么魔法能讓不確定性變成確定性,那么他們的角色就不是生產(chǎn)真理,而是將令人愉快的假設(shè)與可獲得的信息合理地結(jié)合。
結(jié)果呢?提供一個幫助領(lǐng)導(dǎo)者以風(fēng)險控制的方式做出重要決定的視角。
不出所料,許多統(tǒng)計學(xué)家對“自命不凡的人”的反應(yīng)都是尖酸而刻薄,這些人只是學(xué)習(xí)些公式,卻沒有汲取任何哲學(xué)知識。如果與統(tǒng)計學(xué)家打交道讓你感覺筋疲力盡,這里有一個快速解決方案:不要數(shù)據(jù)之外的任何結(jié)論,你也不需要他們的服務(wù)。(說起來容易做起來難,對吧?特別是如果你想做一個重要的發(fā)布決定。)
機器學(xué)習(xí)人員的優(yōu)秀之處:效能如果你對“我打賭你不能建立一個準確率 99.99999% 測試模型”的回答是“看我的。”,那么你可能是一名應(yīng)用機器學(xué)習(xí) /AI 工程師。
有了編碼能力,可以建立起可行的原型和生產(chǎn)系統(tǒng),以及延續(xù)數(shù)年每小時都失敗的強大恢復(fù)能力(如果那是必要的),機器學(xué)習(xí)專家知道,他們無法在教科書中找到完美的解決方案。相反,他們將陷入一場馬拉松式的反復(fù)試驗。對他們嘗試每一個新選項需要多長時間有良好的直覺是一個巨大的優(yōu)勢,而且比深入了解算法的工作原理更有價值(盡管兩者兼而有之也很好)。
結(jié)果呢?這個系統(tǒng)可以很好地自動化一項復(fù)雜的任務(wù),從而通過統(tǒng)計人員的嚴格測試,并提供業(yè)務(wù)領(lǐng)導(dǎo)者所要求的非常規(guī)效能。
效能不僅僅意味著明確一個度量標準——它還意味著可靠、可伸縮和易于維護的模型,這些模型在生產(chǎn)中表現(xiàn)良好。優(yōu)秀的工程設(shè)計是必須的。
廣度 vs. 深度前面兩個角色的共同點是,它們都為特定的問題提供了高質(zhì)量的解決方案。如果他們處理的問題不值得解決,你最終會浪費他們的時間和金錢。業(yè)務(wù)負責(zé)人經(jīng)常會發(fā)出這樣的嘆息:“我們的數(shù)據(jù)科學(xué)團隊毫無用處。”而問題通常在于缺少分析專家。
統(tǒng)計學(xué)家和機器學(xué)習(xí)工程師是窄而深的工作人員(順便說一句,就像兔子洞的形狀),所以為他們指出值得努力解決的問題是非常重要的。如果你的專家們正在小心地解決錯誤的問題,那么你在數(shù)據(jù)科學(xué)上的投資當(dāng)然只會獲得低回報。為了確保你可以很好地利用窄而深的專家,你需要確定你已經(jīng)有了正確的問題,或者你需要一個寬而淺的方法來找到一個問題。
分析人員的優(yōu)秀之處:速度最好的分析師是快速的程序員,他們可以快速瀏覽大量的數(shù)據(jù)集,比其他專家所說的“白板”更快地發(fā)現(xiàn)并提出潛在的見解。他們有些馬虎的編碼風(fēng)格讓傳統(tǒng)的軟件工程師感到困惑……直到把他們遠遠甩在后面。速度是其最大的優(yōu)點,其次是不忽視可能有用的東西。掌握信息的可視化表示有助于解決大腦方面的速度瓶頸:漂亮而有效的圖表讓大腦可以更快地提取信息,快速獲得潛在的見解。
在統(tǒng)計學(xué)家和 ML 人員反應(yīng)遲鈍的領(lǐng)域,分析師是決策者和其他數(shù)據(jù)科學(xué)同事的靈感旋風(fēng)。
結(jié)果是:企業(yè)摸清了脈搏,看到了以前未知的未知。這帶來了靈感,幫助決策者選擇有價值的任務(wù)并將其發(fā)送給統(tǒng)計學(xué)家和 ML 工程師,將他們從數(shù)學(xué)上令人印象深刻而又實際沒用的兔子洞中拯救出來。
草率的廢話,還是精彩的故事?“但是,”反對統(tǒng)計學(xué)家的人說,“他們大多數(shù)所謂的見解都是胡說八道?!彼麄兊囊馑际?,這些人的探究結(jié)果可能只反映噪音。也許吧,但還有更多的故事。
分析師是數(shù)據(jù)故事的講述者。他們的任務(wù)是總結(jié)有趣的事實,并小心地指出,如果沒有統(tǒng)計跟蹤,任何伴隨而來的詩意靈感都不會被認真對待。
買家注意:有很多數(shù)據(jù)騙子冒充數(shù)據(jù)科學(xué)家。沒有什么魔法能使不確定性變成確定性。
優(yōu)秀的分析師對他們職業(yè)中的一條黃金法則有著堅定不移的尊重:不要在數(shù)據(jù)之外得出結(jié)論(并阻止你的受眾這么做)。不幸的是,貨真價實的分析師相對較少——買家注意:有許多冒充數(shù)據(jù)科學(xué)家的數(shù)據(jù)騙子。他們胡言亂語,毫無章法地跳出數(shù)據(jù),“支持”一廂情愿的決定。如果你的道德標準是寬松的,也許你會把這些蛇油推銷員留在身邊,讓他們成為你的業(yè)務(wù)營銷黑魔法的一部分。就我個人而言,我寧愿不要。
優(yōu)秀的分析師對他們職業(yè)中的一條黃金法則有著堅定不移的尊重:不要在數(shù)據(jù)之外得出結(jié)論。
只要分析師堅持事實(“這里就是這個?!边@是什么意思?“只是:這里就是這個?!保?,不要對他們過于嚴肅,他們犯下的最嚴重的罪行就是浪費別人的時間。出于對他們的黃金法則的尊重,優(yōu)秀的分析師會使用溫和的、模棱兩可的語言(例如,不是“我們得出結(jié)論”,而是“我們被激發(fā)出好奇心”),通過強調(diào)對每一種見解都有多種可能的解釋,來打擊領(lǐng)導(dǎo)者的過度自信。
雖然檢驗假設(shè)需要統(tǒng)計技能,但分析人員是首先提出這些假設(shè)的最佳人選。例如,他們可能會說“這只是一種相關(guān)性,但我懷疑它可能是由……”,然后解釋為什么他們會這么想。
這需要對數(shù)據(jù)之外可能發(fā)生的事情有很強的直覺,以及將選項傳達給決策者的溝通技巧,決策者通常會決定哪些假設(shè)(許多假設(shè))足夠重要,值得統(tǒng)計學(xué)家付出努力。隨著分析師的成熟,他們將開始掌握竅門,判斷什么東西是重要的,什么東西是有價值的,從而讓決策者擺脫中間人的角色。
在這三類人中,分析師是最有可能繼承王位的人。
因為學(xué)科問題專家可以幫助你更快地發(fā)現(xiàn)數(shù)據(jù)中有趣的模式,所以最好的分析師會認真地熟悉這個領(lǐng)域。不這樣做是一個危險的信號。當(dāng)他們的好奇心促使他們對業(yè)務(wù)產(chǎn)生一種感覺時,他們的產(chǎn)出就會從一堆錯誤的警報轉(zhuǎn)變?yōu)橐惶讻Q策者更有可能關(guān)心的、精心策劃的見解。
為了避免浪費時間,分析師應(yīng)該列出他們想要講述的故事,并從多個角度進行后續(xù)調(diào)查,看看它是否站得住腳,然后再提交給決策者。如果決策者處于被一個鼓舞人心的故事驅(qū)使采取重要行動的危險之中,這是統(tǒng)計人員介入的信號,根據(jù)決策者愿意接受并承擔(dān)風(fēng)險的假設(shè),檢查(當(dāng)然是在新數(shù)據(jù)中)行動是明智的選擇。
分析師和統(tǒng)計學(xué)家的復(fù)合人才對于堅持事實的分析師來說,沒有什么會錯,只會慢。在“做正確的事情”中加入統(tǒng)計專業(yè)知識忽略了一個重要的點,特別是因為在探索性數(shù)據(jù)分析和統(tǒng)計嚴謹性之間有一個非常重要的過濾器:決策者。具有決策責(zé)任的人必須在業(yè)務(wù)影響上簽字,確認分析師的見解值得花費專家大量的時間。除非分析學(xué)家和統(tǒng)計學(xué)家的復(fù)合體同時也是一個有經(jīng)驗的決策者和業(yè)務(wù)負責(zé)人,否則他們的技能組合形式就像一個有夾層的三明治。
然而,一位填補這一缺口的分析師,其價值堪比黃金。請珍惜他們!
機器學(xué)習(xí)和 AI 分析學(xué)機器學(xué)習(xí)專家將大量潛在的數(shù)據(jù)輸入算法,調(diào)整設(shè)置,并不斷迭代,直到產(chǎn)生正確的輸出。雖然聽起來似乎這里沒有分析的角色,但在實踐中,一家企業(yè)往往有太多可能的配料,無法一下子把它們?nèi)咳M攪拌機里。
分析師是短跑運動員;他們具有幫助你快速查看和總結(jié)“是什么”的能力,而這種能力是你的流程的超能力。
有一種方法可以篩選到一個有價值的集合來嘗試,那就是領(lǐng)域?qū)<摇儐栆粋€人對事情如何運作的看法。另一種方法是通過分析。跟烹飪做個類比,機器學(xué)習(xí)工程師擅長在廚房里修修補補,但現(xiàn)在他們正站在一個巨大而黑暗的倉庫前,里面裝滿了可能的配料。他們可以隨意取一些,把它們帶回廚房,也可以先派一個帶著手電筒的短跑運動員穿過倉庫。你的分析師就是短跑運動員;他們具有幫助你快速查看和總結(jié)“這里是什么”的能力,而這種能力是你的流程的超能力。
分析師和機器學(xué)習(xí)專家復(fù)合人才分析人員可以加速機器學(xué)習(xí)項目,因此雙重技能非常有用。不幸的是,由于分析和 ML 工程之間的編碼風(fēng)格和方法差異,個人擁有最高專業(yè)知識的情況并不常見(更罕見的是,在需要的時候,他會變得遲鈍而富有哲理,這就是為什么真正的全棧數(shù)據(jù)科學(xué)家確實是一頭罕見的野獸)。
長期低估的危險一個專家分析師不是機器學(xué)習(xí)工程師的一個粗制濫造的版本,他們的編碼風(fēng)格特意針對速度做過優(yōu)化。他們也不是糟糕的統(tǒng)計學(xué)家,因為他們根本不處理不確定性,他們處理的是事實?!斑@是我們的數(shù)據(jù),我的工作不是討論現(xiàn)有數(shù)據(jù)之外的意義,但它可能會激勵決策者與統(tǒng)計學(xué)家一起探討這個問題……”
初學(xué)者沒有意識到,這項工作需要頂級分析師對數(shù)據(jù)科學(xué)的數(shù)學(xué)理解比其他任何一種角色都要好。除非這項任務(wù)非常復(fù)雜,需要發(fā)明一種新的假設(shè)檢驗或算法(這是研究人員的工作),否則統(tǒng)計學(xué)家和 ML 專家可以依賴于檢查現(xiàn)成的軟件包并檢驗它們是否適合這項工作,但他們通??梢圆槐赜H自面對這些公式。
例如,統(tǒng)計學(xué)家可能會忘記 t 檢驗的 p 值公式,因為他們是通過點擊并運行一個軟件包來得到它,但他們永遠不會忘記如何以及何時使用它,以及對結(jié)果的正確哲學(xué)解釋。另一方面,分析師們并不打算對此做出解釋。他們想要一個駭人而巨大的多維數(shù)據(jù)集。通過了解 p 值公式對數(shù)據(jù)集的切片方式,他們可以對原始數(shù)據(jù)集中的模式形成一個反向視圖,從而生成他們看到的數(shù)字。沒有對數(shù)學(xué)的理解,你就不會得到那個觀點。然而,與統(tǒng)計學(xué)家不同的是,他們并不關(guān)心 t 檢驗是否適用于數(shù)據(jù)。他們關(guān)心的是 t 檢驗?zāi)茏屗麄儗Ξ?dāng)前數(shù)據(jù)集中發(fā)生的事情有一個有用的看法。區(qū)別很細微,但很重要。
統(tǒng)計學(xué)家處理數(shù)據(jù)之外的事情,而分析師則專注于數(shù)據(jù)內(nèi)部的事情。
對于最優(yōu)秀的人員,他們都是非常數(shù)學(xué)化的,他們經(jīng)常使用相同的公式,但他們的工作是完全不同的。
類似地,分析人員經(jīng)常使用機器學(xué)習(xí)算法對數(shù)據(jù)進行切片,識別引人注目的分組,并檢查異常情況。因為他們的目標不是效能,而是靈感,所以他們的方法不同,并且對 ML 工程師來說可能顯得草率。同樣,這是在不同的工作中使用相同的工具。
用一個類比來總結(jié)一下:外科醫(yī)生、裁縫和辦公室職員都用大頭針。這并不意味著這些工作是相同的,甚至可以相提并論,鼓勵你的所有裁縫和辦公室工作人員學(xué)習(xí)外科手術(shù)來提升他們的職業(yè)生涯是危險的。
每項業(yè)務(wù)都需要的唯一角色是決策制定者和分析師。如果你失去了分析師,誰來幫你找出哪些問題值得解決?
如果你過分強調(diào)雇傭和獎勵機器學(xué)習(xí)和統(tǒng)計方面的技能,你就會失去分析師。那么誰來幫你找出哪些問題值得解決呢?你將只剩下一群可憐的專家,他們一直被要求從事毫無價值的項目或分析任務(wù),而他們并不是主動要參加這些項目或任務(wù)。你的數(shù)據(jù)將毫無用處。
關(guān)心和培養(yǎng)研究人員如果這聽起來還不夠糟糕,許多領(lǐng)導(dǎo)者試圖聘請博士,并過分強調(diào)研究——而不是應(yīng)用——統(tǒng)計學(xué)家和 ML 工程師的版本……而又沒有一個有價值的、重要的、已知算法不可能解決的問題。
只有當(dāng)你投資于一個研究部門,而且你不打算詢問你的研究人員最近為你做了什么時,這樣做才合適。為研究而研究是一項高風(fēng)險的投資,很少有公司能夠承擔(dān)得起,因為從研究中得不到任何有價值的東西是一種非?,F(xiàn)實的可能性。
只有當(dāng)你有合適的問題需要研究人員解決時,他們才不屬于研究部門——他們的技能是在現(xiàn)成的版本并不存在時從零開始創(chuàng)建新的算法和檢驗——否則他們將經(jīng)歷一個暗淡的西西弗斯螺旋(這將完全是你的錯,而不是他們的)。研究人員通常要花上 10 年多的時間進行培養(yǎng),這至少值得尊重,因為他們不必投入到完全無關(guān)的任務(wù)中去。
如果有疑問,首先雇傭分析師,而不是其他角色。
因此,在分析人員幫助你確定了一個有價值的項目,并嘗試借助應(yīng)用數(shù)據(jù)科學(xué)家來完成它,但已經(jīng)失敗之后,才應(yīng)該將他們召到一個應(yīng)用項目中。那就是你培養(yǎng)專業(yè)發(fā)明家的時候了。
小 結(jié)如果有疑問,首先雇傭分析師,而不是其他角色。感激他們并給予獎勵。鼓勵他們在他們所選擇的事業(yè)(而不是其他人的)上達到頂點。在這篇文章提到的角色中,只有決策者和分析師是每項有數(shù)據(jù)的業(yè)務(wù)都需要的角色。其他的角色只有當(dāng)你確切知道需要它們做什么的時候才有用。從分析開始,并為你的新能力感到自豪,你可以睜開眼睛,豐富和美麗的信息就在你的面前。靈感是一種強大的東西,不容忽視。
關(guān)注我并轉(zhuǎn)發(fā)此篇文章,私信我“領(lǐng)取資料”,即可免費獲得InfoQ價值4999元迷你書!