Khoa học dữ liệu - Tương quan thống kê
Tương quan
Tương quan đo lường mối quan hệ giữa hai biến.
Chúng tôi đã đề cập rằng hàm có mục đích dự đoán một giá trị bằng cách chuyển đổi đầu vào (x) thành đầu ra (f(x)). Chúng ta cũng có thể nói rằng một hàm sử dụng mối quan hệ giữa hai biến để dự đoán.
Hệ số tương quan
Hệ số tương quan đo lường mối quan hệ giữa hai biến.
Hệ số tương quan không bao giờ có thể nhỏ hơn -1 hoặc cao hơn 1.
- 1 = có mối quan hệ tuyến tính hoàn hảo giữa các biến (như Average_Pulse so với Calorie_Burnage)
- 0 = không có mối quan hệ tuyến tính giữa các biến
- -1 = có mối quan hệ tuyến tính tiêu cực hoàn hảo giữa các biến số (ví dụ: Làm việc ít giờ hơn, dẫn đến lượng calo đốt cháy cao hơn trong một buổi tập)
Ví dụ về mối quan hệ tuyến tính hoàn hảo (Hệ số tương quan = 1)
Chúng tôi sẽ sử dụng biểu đồ phân tán để trực quan hóa mối quan hệ giữa Average_Pulse và Calorie_Burnage (chúng tôi đã sử dụng bộ dữ liệu nhỏ của đồng hồ thể thao với 10 quan sát).
Lần này chúng ta muốn biểu đồ phân tán nên chúng ta đổi loại thành "phân tán":
Ví dụ
import matplotlib.pyplot as plt
health_data.plot(x ='Average_Pulse', y='Calorie_Burnage',
kind='scatter')
plt.show()
Hãy tự mình thử »Đầu ra:
Như chúng ta đã thấy trước đó, nó tồn tại một mối quan hệ tuyến tính hoàn hảo giữa Average_Pulse và Calorie_Burnage.
Ví dụ về mối quan hệ tuyến tính phủ định hoàn hảo (Hệ số tương quan = -1)
Chúng tôi đã vẽ dữ liệu hư cấu ở đây. Trục x biểu thị số giờ làm việc tại công việc của chúng ta trước một buổi đào tạo. Trục y là Calorie_Burnage.
Nếu làm việc nhiều giờ hơn, chúng ta có xu hướng đốt cháy ít calo hơn vì chúng ta đã kiệt sức trước buổi tập.
Hệ số tương quan ở đây là -1.
Ví dụ
import pandas as pd
import matplotlib.pyplot as plt
negative_corr =
{'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage':
[220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)
negative_corr.plot(x ='Hours_Work_Before_Training',
y='Calorie_Burnage', kind='scatter')
plt.show()
Hãy tự mình thử »Ví dụ về Không có mối quan hệ tuyến tính (Hệ số tương quan = 0)
Ở đây, chúng tôi đã vẽ biểu đồ Max_Pulse theo Thời lượng từ bộ full_health_data.
Như bạn có thể thấy, không có mối quan hệ tuyến tính giữa hai biến. Điều đó có nghĩa là buổi tập luyện dài hơn không dẫn đến Max_Pulse cao hơn.
Hệ số tương quan ở đây là 0.
Ví dụ
import matplotlib.pyplot as plt
full_health_data.plot(x ='Duration', y='Max_Pulse',
kind='scatter')
plt.show()
Hãy tự mình thử »