亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當(dāng)前位置: 首頁(yè) > 科技新聞 >

用Python進(jìn)行相關(guān)性分析,5行代碼就夠了

時(shí)間:2019-11-12 19:27來(lái)源:網(wǎng)絡(luò)整理 瀏覽:
1.相關(guān)和因果是一回事嗎 相關(guān)性不等于因果。用x1和x2作為兩個(gè)變量進(jìn)行解釋?zhuān)嚓P(guān)意味著x1和x2是邏輯上的并列相關(guān)關(guān)系,而因果聯(lián)系可以解釋

1.相關(guān)和因果是一回事嗎

相關(guān)性不等于因果。用x1和x2作為兩個(gè)變量進(jìn)行解釋?zhuān)嚓P(guān)意味著x1和x2是邏輯上的并列相關(guān)關(guān)系,而因果聯(lián)系可以解釋為因?yàn)閤1所以x2(或因?yàn)閤2所以x1)的邏輯關(guān)系,二者是完全不同的。

用Python進(jìn)行相關(guān)性分析,5行代碼就夠了

用一個(gè)運(yùn)營(yíng)示例來(lái)說(shuō)明二者的關(guān)系:做商品促銷(xiāo)活動(dòng)時(shí),通常都會(huì)以較低的價(jià)格進(jìn)行銷(xiāo)售,以此來(lái)實(shí)現(xiàn)較高的商品銷(xiāo)量;隨著商品銷(xiāo)售的提升,也給線下物流配送體系帶來(lái)了更大的壓力,在該過(guò)程中通常會(huì)導(dǎo)致商品破損量的增加。

本案例中,商品低價(jià)與破損量增加并不是因果關(guān)系,即不能說(shuō)因?yàn)樯唐穬r(jià)格低所以商品破損量增加;二者的真實(shí)關(guān)系是都是基于促銷(xiāo)這個(gè)大背景下,低價(jià)和破損量都是基于促銷(xiāo)產(chǎn)生的。

相關(guān)性的真實(shí)價(jià)值不是用來(lái)分析“為什么”的,而是通過(guò)相關(guān)性來(lái)描述無(wú)法解釋的問(wèn)題背后真正成因的方法。相關(guān)性的真正的價(jià)值是能知道“是什么”,即無(wú)論通過(guò)何種因素對(duì)結(jié)果產(chǎn)生影響,最終出現(xiàn)的規(guī)律就是二者會(huì)一起增加或降低等。

仍然是上面的案例,通過(guò)相關(guān)性分析我們可以知道,商品價(jià)格低和破損量增加是相伴發(fā)生的,這意味著當(dāng)價(jià)格低的時(shí)候(通常是做銷(xiāo)售活動(dòng),也有可能產(chǎn)品質(zhì)量問(wèn)題、物流配送問(wèn)題、包裝問(wèn)題等),我們就想到破損量可能也會(huì)增加。但是到底由什么導(dǎo)致的破損量增加,是無(wú)法通過(guò)相關(guān)性來(lái)得到的。

2.相關(guān)系數(shù)低就是不相關(guān)嗎

R(相關(guān)系數(shù))低就是不相關(guān)嗎?其實(shí)不是。

R的取值可以為負(fù),R=-0.8代表的相關(guān)性要高于R=0.5。負(fù)相關(guān)只是意味著兩個(gè)變量的增長(zhǎng)趨勢(shì)相反,因此需要看R的絕對(duì)值來(lái)判斷相關(guān)性的強(qiáng)弱。

即使R的絕對(duì)值低,也不一定說(shuō)明變量間的相關(guān)性低,原因是相關(guān)性衡量的僅僅是變量間的線性相關(guān)關(guān)系,變量間除了線性關(guān)系外,還包括指數(shù)關(guān)系、多項(xiàng)式關(guān)系、冪關(guān)系等,這些“非線性相關(guān)”的相關(guān)性不在R(相關(guān)性分析)的衡量范圍之內(nèi)。

3.代碼實(shí)操:Python相關(guān)性分析

本示例中,將使用Numpy進(jìn)行相關(guān)性分析。源文件data5.txt位于“附件-chapter3”中。附件下載地址:

http://www.dataivy.cn/book/python_book_v2.zip

 

示例中實(shí)現(xiàn)過(guò)程如下:

 

相關(guān)性矩陣的左側(cè)和頂部都是相對(duì)的變量,從左到右、從上到下依次是列1到列9。從結(jié)果看出:

  • 第5列和第7列相關(guān)性較高,系數(shù)達(dá)到0.91。
  • 第4列和第6列相關(guān)性較高,系數(shù)達(dá)到0.88。
  • 第8列和第6列相關(guān)性較高,系數(shù)達(dá)到0.83。

為了更好地展示相關(guān)性結(jié)果,我們可以配合Matplotlib展示圖像。代碼如下:

 

上述代碼的功能都已經(jīng)在注釋中注明。有以下幾點(diǎn)需要注意:

  • 由于相關(guān)性結(jié)果中看的是絕對(duì)值的大小,因此需要對(duì)correlation_matrix做取絕對(duì)值操作,其對(duì)應(yīng)的值域會(huì)變?yōu)閇0, 1]。
  • 原始數(shù)據(jù)中由于沒(méi)有列標(biāo)題,因此這里使用列表推導(dǎo)式生成從x0到x8代表原始的9個(gè)特征。

展示結(jié)果如圖所示。

用Python進(jìn)行相關(guān)性分析,5行代碼就夠了

從圖像中配合顏色可以看出:顏色越亮(彩色顏色為越黃),則相關(guān)性結(jié)果越高,因此從左上角到右下角呈現(xiàn)一條黃色斜線;而顏色較亮的第5列和第7列、第4列和第6列及第8列和第6列分別對(duì)應(yīng)x4和x6、x3和x5、x7和x5。

上述過(guò)程中,主要需要考慮的關(guān)鍵點(diǎn)是:如何理解相關(guān)性和因果關(guān)系的差異,以及如何應(yīng)用相關(guān)性。相關(guān)性分析除了可以用來(lái)分析不同變量間的相關(guān)伴生關(guān)系以外,也可以用來(lái)做多重共線性檢驗(yàn)。

代碼實(shí)操小結(jié):本節(jié)示例中,主要用了如下幾個(gè)知識(shí)點(diǎn)。

  • 通過(guò)Numpy的loadtxt方法讀取文本數(shù)據(jù)文件,并指定分隔符;
  • 對(duì)Numpy矩陣做切塊處理;
  • 使用Numpy中的corrcoef做相關(guān)性分析;
  • 使用round方法保留2位小數(shù);
  • 使用np.abs取絕對(duì)值;
  • 使用列表推導(dǎo)式生成新列表;
  • 使用Matplotlib的熱力圖配合相關(guān)性結(jié)果做圖像展示。

【責(zé)任編輯:華軒 TEL:(010)68476606】
推薦內(nèi)容