Pandas - Tương quan dữ liệu
Tìm mối quan hệ
Một khía cạnh tuyệt vời của mô-đun Pandas là phương thức corr()
.
Phương thức corr()
tính toán mối quan hệ giữa mỗi cột trong tập dữ liệu của bạn.
Các ví dụ trong trang này sử dụng tệp CSV có tên: 'data.csv'.
Tải xuống data.csv . hoặc Mở data.csv
Ví dụ
Thể hiện mối quan hệ giữa các cột:
df.corr()
Hãy tự mình thử »Kết quả
Khoảng thời gian xung Maxpulse Calo Thời lượng 1,000000 -0,155408 0,009403 0,922721 Xung -0,155408 1,000000 0,786535 0,025120 Xung tối đa 0,009403 0,786535 1,000000 0,203814 Calo 0,922721 0,025120 0,203814 1,000000
Lưu ý: Phương thức corr()
bỏ qua các cột "không phải số".
Kết quả được giải thích
Kết quả của phương thức corr()
là một bảng có rất nhiều số thể hiện mối quan hệ giữa hai cột tốt đến mức nào.
Số thay đổi từ -1 đến 1.
1 có nghĩa là có mối quan hệ 1-1 (một mối tương quan hoàn hảo) và đối với tập dữ liệu này, mỗi khi một giá trị tăng lên trong cột đầu tiên thì giá trị kia cũng tăng theo.
0,9 cũng là một mối quan hệ tốt và nếu bạn tăng một giá trị thì giá trị kia có thể cũng sẽ tăng.
-0,9 cũng có mối quan hệ tốt như 0,9, nhưng nếu bạn tăng một giá trị thì giá trị kia có thể sẽ giảm xuống.
0,2 có nghĩa là KHÔNG phải là một mối quan hệ tốt, nghĩa là nếu một giá trị tăng không có nghĩa là giá trị kia sẽ tăng.
Một mối tương quan tốt là gì? Nó phụ thuộc vào cách sử dụng, nhưng tôi nghĩ có thể an toàn khi nói rằng bạn phải có ít nhất 0.6
(hoặc -0.6
) để gọi đó là mối tương quan tốt.
Tương quan hoàn hảo:
Chúng ta có thể thấy rằng "Duration" và "Duration" có số 1.000000
, điều này rất hợp lý, mỗi cột luôn có mối quan hệ hoàn hảo với chính nó.
Tương quan tốt:
"Thời lượng" và "Calo" có mối tương quan 0.922721
, đây là mối tương quan rất tốt và chúng tôi có thể dự đoán rằng bạn tập luyện càng lâu thì bạn càng đốt cháy nhiều calo và ngược lại: nếu bạn đốt cháy nhiều calo, có lẽ bạn đã phải làm việc lâu dài.
Tương quan xấu:
"Thời lượng" và "Maxpulse" có mối tương quan 0.009403
, đây là mối tương quan rất xấu, nghĩa là chúng ta không thể dự đoán xung tối đa chỉ bằng cách nhìn vào thời lượng tập luyện và ngược lại.
Được chứng nhận!
$10 ĐĂNG KÝ