亚洲全黄无码一级在线看_国产剧情久久久性色_无码av一区二区三区无码_亚洲成a×人片在线观看

當前位置: 首頁 > 科技新聞 >

用Python進行相關性分析,5行代碼就夠了

時間:2019-11-12 19:27來源:網絡整理 瀏覽:
1.相關和因果是一回事嗎 相關性不等于因果。用x1和x2作為兩個變量進行解釋,相關意味著x1和x2是邏輯上的并列相關關系,而因果聯系可以解釋

1.相關和因果是一回事嗎

相關性不等于因果。用x1和x2作為兩個變量進行解釋,相關意味著x1和x2是邏輯上的并列相關關系,而因果聯系可以解釋為因為x1所以x2(或因為x2所以x1)的邏輯關系,二者是完全不同的。

用Python進行相關性分析,5行代碼就夠了

用一個運營示例來說明二者的關系:做商品促銷活動時,通常都會以較低的價格進行銷售,以此來實現較高的商品銷量;隨著商品銷售的提升,也給線下物流配送體系帶來了更大的壓力,在該過程中通常會導致商品破損量的增加。

本案例中,商品低價與破損量增加并不是因果關系,即不能說因為商品價格低所以商品破損量增加;二者的真實關系是都是基于促銷這個大背景下,低價和破損量都是基于促銷產生的。

相關性的真實價值不是用來分析“為什么”的,而是通過相關性來描述無法解釋的問題背后真正成因的方法。相關性的真正的價值是能知道“是什么”,即無論通過何種因素對結果產生影響,最終出現的規(guī)律就是二者會一起增加或降低等。

仍然是上面的案例,通過相關性分析我們可以知道,商品價格低和破損量增加是相伴發(fā)生的,這意味著當價格低的時候(通常是做銷售活動,也有可能產品質量問題、物流配送問題、包裝問題等),我們就想到破損量可能也會增加。但是到底由什么導致的破損量增加,是無法通過相關性來得到的。

2.相關系數低就是不相關嗎

R(相關系數)低就是不相關嗎?其實不是。

R的取值可以為負,R=-0.8代表的相關性要高于R=0.5。負相關只是意味著兩個變量的增長趨勢相反,因此需要看R的絕對值來判斷相關性的強弱。

即使R的絕對值低,也不一定說明變量間的相關性低,原因是相關性衡量的僅僅是變量間的線性相關關系,變量間除了線性關系外,還包括指數關系、多項式關系、冪關系等,這些“非線性相關”的相關性不在R(相關性分析)的衡量范圍之內。

3.代碼實操:Python相關性分析

本示例中,將使用Numpy進行相關性分析。源文件data5.txt位于“附件-chapter3”中。附件下載地址:

http://www.dataivy.cn/book/python_book_v2.zip

 

示例中實現過程如下:

 

相關性矩陣的左側和頂部都是相對的變量,從左到右、從上到下依次是列1到列9。從結果看出:

  • 第5列和第7列相關性較高,系數達到0.91。
  • 第4列和第6列相關性較高,系數達到0.88。
  • 第8列和第6列相關性較高,系數達到0.83。

為了更好地展示相關性結果,我們可以配合Matplotlib展示圖像。代碼如下:

 

上述代碼的功能都已經在注釋中注明。有以下幾點需要注意:

  • 由于相關性結果中看的是絕對值的大小,因此需要對correlation_matrix做取絕對值操作,其對應的值域會變?yōu)閇0, 1]。
  • 原始數據中由于沒有列標題,因此這里使用列表推導式生成從x0到x8代表原始的9個特征。

展示結果如圖所示。

用Python進行相關性分析,5行代碼就夠了

從圖像中配合顏色可以看出:顏色越亮(彩色顏色為越黃),則相關性結果越高,因此從左上角到右下角呈現一條黃色斜線;而顏色較亮的第5列和第7列、第4列和第6列及第8列和第6列分別對應x4和x6、x3和x5、x7和x5。

上述過程中,主要需要考慮的關鍵點是:如何理解相關性和因果關系的差異,以及如何應用相關性。相關性分析除了可以用來分析不同變量間的相關伴生關系以外,也可以用來做多重共線性檢驗。

代碼實操小結:本節(jié)示例中,主要用了如下幾個知識點。

  • 通過Numpy的loadtxt方法讀取文本數據文件,并指定分隔符;
  • 對Numpy矩陣做切塊處理;
  • 使用Numpy中的corrcoef做相關性分析;
  • 使用round方法保留2位小數;
  • 使用np.abs取絕對值;
  • 使用列表推導式生成新列表;
  • 使用Matplotlib的熱力圖配合相關性結果做圖像展示。

【責任編輯:華軒 TEL:(010)68476606】
推薦內容