亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁 > 科技新聞 >

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

時(shí)間:2020-06-04 17:38來源:網(wǎng)絡(luò)整理 瀏覽:
作者簡介:白朔天,前滴滴算法專家。本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》你好,我白朔天,今天我們學(xué)習(xí)與機(jī)器學(xué)習(xí)相關(guān)的統(tǒng)計(jì)學(xué)相關(guān)知識,主要包

作者簡介:白朔天,前滴滴算法專家。本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》

你好,我白朔天,今天我們學(xué)習(xí)與機(jī)器學(xué)習(xí)相關(guān)的統(tǒng)計(jì)學(xué)相關(guān)知識,主要包括統(tǒng)計(jì)量、中心極限定理、均值假設(shè)檢驗(yàn)、AB 實(shí)驗(yàn)方法等內(nèi)容。

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

根據(jù)我的觀察,很多從事機(jī)器學(xué)習(xí)工作相關(guān)的人并沒有太多統(tǒng)計(jì)學(xué)的知識儲備。不得不說,缺乏統(tǒng)計(jì)學(xué)的知識,并不會阻礙你用機(jī)器學(xué)習(xí)技術(shù)去建立模型。那么為什么我還要在此強(qiáng)調(diào)統(tǒng)計(jì)學(xué)的重要性呢?甚至還專門用一個(gè)課時(shí)來說明它呢?

原因主要在于模型灰度或應(yīng)用階段的評估。我們知道,機(jī)器學(xué)習(xí)是以數(shù)據(jù)分析、預(yù)測為基礎(chǔ),來優(yōu)化業(yè)務(wù)決策的一門技術(shù)。那么,在模型灰度測試時(shí),如果你不具備基礎(chǔ)的統(tǒng)計(jì)學(xué)知識,就無法分辨模型帶來的效果提升是隨機(jī)波動還是真實(shí)收益。因此這一課時(shí),我們就來鋪墊與機(jī)器學(xué)習(xí)相關(guān)的基礎(chǔ)統(tǒng)計(jì)學(xué)知識。?

本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》

統(tǒng)計(jì)量沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

統(tǒng)計(jì)量是指用來描述一大堆數(shù)字性質(zhì)的數(shù)值,例如均值、中位數(shù)、方差、標(biāo)準(zhǔn)差,等等。假設(shè)從 1~9 這 9 個(gè)數(shù)字中進(jìn)行抽樣,得到如圖所示的結(jié)果,其中每個(gè)綠色的點(diǎn)代表一個(gè)采樣樣本。若想描述清楚這些樣本的數(shù)值性質(zhì),肯定是不能把每個(gè)樣本都說一遍的,那么就需要借助統(tǒng)計(jì)量來進(jìn)行描述了。

首先是均值,就是所有采樣值的平均值。公式為

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

接著是中位數(shù),它是按順序排列的一組數(shù)據(jù)中居于最中間位置的數(shù)。

方差是衡量一組數(shù)據(jù)離散程度的度量。計(jì)算方法是每個(gè)樣本值與均值之差平方的均值。公式為

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

最后,標(biāo)準(zhǔn)差 s。它和方差非常相似,只需要對方差開平方即可,就不再贅述其公式了。

這些統(tǒng)計(jì)量中最重要的要算均值和標(biāo)準(zhǔn)差了,會在后續(xù)頻繁使用。有了這些統(tǒng)計(jì)量,我們就可以來描述樣本的數(shù)值大小情況、樣本與均值的離散程度等統(tǒng)計(jì)上的數(shù)值信息了。

本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》

例題沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

假設(shè)有個(gè)小團(tuán)隊(duì)的 leader,他有 9 個(gè)員工?,F(xiàn)在這個(gè) leader 想以雙倍的加班工資,讓員工周六也來公司加班。但是他不確定員工對這個(gè)決策是否支持。因此,他決定調(diào)研所有的 9 名員工對這個(gè)政策的支持度。在回收到了表中的 9 份調(diào)研結(jié)果后,問題出現(xiàn)了。他如何從 9 份回答中,提取出具有代表性的結(jié)果并作出決策呢?

這時(shí),統(tǒng)計(jì)量的作用就發(fā)揮了價(jià)值。首先計(jì)算均值,9 個(gè)數(shù)值求平均數(shù),結(jié)果為 3.4。接著看一下中位數(shù)。把這 9 個(gè)數(shù)字按照大小順序排列,找到中間第 5 大的數(shù)字,得到中位數(shù)是 4。再接著,計(jì)算方差。根據(jù)公式計(jì)算得到方差為 2.7。開個(gè)根號,就得到了標(biāo)準(zhǔn)差 1.6。

經(jīng)過這些統(tǒng)計(jì)量的分析就能得到下面的結(jié)論。首先,均值 3.4 分、中位數(shù) 4 分都大于了代表無所謂的 3 分,說明更多的員工是支持這項(xiàng)決策的。然而,方差和標(biāo)準(zhǔn)差都比較大,反映出員工的支持度波動比較大。也就是說存在部分員工特別支持這個(gè)決策,同時(shí)部分員工特別抵觸這個(gè)決策。因此,決策的落地執(zhí)行風(fēng)險(xiǎn)比較大。

通過這個(gè)例子我們會發(fā)現(xiàn),在面對大量數(shù)據(jù)時(shí),你僅僅通過一些統(tǒng)計(jì)量信息,就能把大量數(shù)據(jù)背后隱藏的性質(zhì)、規(guī)律描述清楚,并形成某些結(jié)論,輔助你作出更客觀、穩(wěn)健的決策。

中心極限定理沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

從前面的例子可以發(fā)現(xiàn),只要計(jì)算出某個(gè)分布的統(tǒng)計(jì)量,就能解決統(tǒng)計(jì)學(xué)面臨的絕大多數(shù)問題。然而挑戰(zhàn)在于,在很多場景下,你根本拿不到全部的樣本數(shù)據(jù)。前面的例子比較簡單,這個(gè) leader 只有 9 個(gè)員工,全部調(diào)研一遍是完全可行的。但換個(gè)問題,情況可能完全不一樣。例如,調(diào)研全國男女人口比例是多少。難道我們要把全國 13 億人都問一遍嗎?

顯然不可能。這個(gè)時(shí)候,就需要對 13 億人進(jìn)行采樣,得到采樣集合。接著可以計(jì)算采樣集合中的統(tǒng)計(jì)量。那么問題來了,有了采樣、有了采樣集合的統(tǒng)計(jì)量,如何對總體的統(tǒng)計(jì)量進(jìn)行估計(jì)呢?此時(shí),就需要統(tǒng)計(jì)學(xué)中的圣經(jīng)級定理——中心極限定理了。

中心極限定理能解決的問題很明確,即對于一個(gè)未知的總體,如何通過某些手段計(jì)算出總體的統(tǒng)計(jì)量。

中心極限定理的內(nèi)容為,假設(shè)從均值為 μ,方差為 σ2 的任意一個(gè)總體中,抽取樣本量為 n 的樣本。當(dāng) n 充分大時(shí),樣本均值

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

的分布近似服從均值為 μ、方差為 σ2/n 的正態(tài)分布。其在統(tǒng)計(jì)學(xué)中,通常認(rèn)為 n>=30 即為大樣本。

中心極限定理有幾個(gè)要素:

它不需要總體滿足什么分布的條件,哪怕不是正態(tài)分布的任意某個(gè)分布都適用。它要求采樣 n 至少為 30。

中心極限定理的價(jià)值在于,它從統(tǒng)計(jì)量上,構(gòu)建了總體和抽樣之間的聯(lián)系。別忘了,我們的現(xiàn)實(shí)世界中,上帝視角只是理論存在,因此由“抽樣估計(jì)總體”必然是永恒的模式。

例題

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

假定現(xiàn)在我們是“上帝”,“上帝”是知道總體分布的。假設(shè)總體是在 0~9 之間均勻分布的整型隨機(jī)數(shù),那么均值就是 4.5,方差為 8.25。接著我們回歸凡人?,F(xiàn)在我們不知道這個(gè)總體是怎樣的分布;只知道,這個(gè)總體會產(chǎn)生 0~9 的某個(gè)整數(shù)。

于是,我們利用中心極限定理,去計(jì)算出總體的均值和方差?,F(xiàn)在,我們從總體里抽取 n 個(gè)數(shù),n=40 ,計(jì)算樣本均值 X ?。這樣就得到了一次抽樣的結(jié)果。中心極限定理關(guān)注的是,樣本均值 X ?_i 的均值和方差。那么,就需要多次重復(fù)上述采樣的過程。假設(shè)我們重復(fù)了 1 萬次,這樣就得到了 1 萬次采樣,每次采樣 40 個(gè)樣本的數(shù)據(jù)集。

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

由于結(jié)果有隨機(jī)性而且數(shù)據(jù)量非常大,我們嘗試用 Python 進(jìn)行仿真。這段代碼中包含了兩層循環(huán)。其中外層是 1 萬次的采樣循環(huán),內(nèi)層是每次采樣獲得 40 個(gè)樣本的循環(huán)。每次獲得 40 個(gè)樣本后,我們需要計(jì)算這 40 個(gè)樣本的均值。

打印出來后,就得到了 1 萬 個(gè)均值。經(jīng)過計(jì)算這 1 萬個(gè)均值的均值和方差,得到均值為 4.5033,方差 為 0.2058。最終,利用中心極限定理,我們可以對總體進(jìn)行估計(jì),得到總體的均值為 4.5033,總體的方差為 0.2058×40=8.2320。

均值假設(shè)檢驗(yàn)沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

計(jì)算完統(tǒng)計(jì)量是就需要去作出精準(zhǔn)的決策了。例如,前面雙倍工資加班的例子,就需要根據(jù)計(jì)算的統(tǒng)計(jì)量結(jié)果,去決策是否執(zhí)行這個(gè)政策,以及執(zhí)行風(fēng)險(xiǎn)有多大。根據(jù)統(tǒng)計(jì)量做決策就需要用到均值假設(shè)檢驗(yàn)的相關(guān)方法了。

均值假設(shè)檢驗(yàn)的目的在于,驗(yàn)證抽樣得到的均值是否顯著。顯著的意義是,結(jié)果是真實(shí)客觀的規(guī)律,并非偶然得到。那么假設(shè)檢驗(yàn)的流程是,先對均值 μ 的值提出一個(gè)假設(shè),然后利用樣本信息去檢驗(yàn)這個(gè)假設(shè)是否成立。檢驗(yàn)的方法是確定檢驗(yàn)統(tǒng)計(jì)量,并計(jì)算數(shù)值,根據(jù)數(shù)值大小查表得到顯著性 p。通常顯著性 p<0.05 為顯著性。

當(dāng)總體的標(biāo)準(zhǔn)差 σ 已知,且樣本量 n 較大,則采用 Z 統(tǒng)計(jì)量,計(jì)算公式為

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

當(dāng)總體標(biāo)準(zhǔn)差未知,可以用樣本標(biāo)準(zhǔn)差 s 代替,公式改寫為

沒有學(xué)好統(tǒng)計(jì)學(xué),從事機(jī)器學(xué)習(xí)工作會困難嗎?

本節(jié)內(nèi)容就到這里啦~關(guān)注我的公號:IT技術(shù)思維,回復(fù):123,可以免費(fèi)獲得大廠面試真題哦~

本文選自:拉勾教育《機(jī)器學(xué)習(xí)入門21講》 版權(quán)聲明:本文版權(quán)歸屬拉勾教育及該專欄作者,任何媒體、網(wǎng)站或個(gè)人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)布/發(fā)表,違者必究。

推薦內(nèi)容