Khoa học dữ liệu - Bảng hồi quy: R-Squared
R - Bình Phương
R-Squared và Đã điều chỉnh R-Squared mô tả mức độ phù hợp của mô hình hồi quy tuyến tính với các điểm dữ liệu:
Giá trị của R-Squared luôn nằm trong khoảng từ 0 đến 1 (0% đến 100%).
- Giá trị R-Squared cao có nghĩa là nhiều điểm dữ liệu gần với đường hàm hồi quy tuyến tính.
- Giá trị R-Squared thấp có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.
Ví dụ trực quan về R thấp - Giá trị bình phương (0,00)
Mô hình hồi quy của chúng tôi hiển thị giá trị R-Squared bằng 0, có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.
Điều này có thể được hình dung khi chúng ta vẽ đồ thị hàm hồi quy tuyến tính thông qua các điểm dữ liệu Average_Pulse và Calorie_Burnage.
Ví dụ trực quan về R cao - Giá trị bình phương (0,79)
Tuy nhiên, nếu chúng ta vẽ biểu đồ Duration và Calorie_Burnage thì R-Squared sẽ tăng. Ở đây, chúng ta thấy các điểm dữ liệu gần với đường hàm hồi quy tuyến tính:
Đây là mã bằng Python:
Ví dụ
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Hãy tự mình thử »Tóm tắt - Dự đoán lượng calo_đốt cháy với Average_Pulse
Làm cách nào chúng ta có thể tóm tắt hàm hồi quy tuyến tính với Average_Pulse làm biến giải thích?
- Hệ số 0,3296, có nghĩa là Average_Pulse có ảnh hưởng rất nhỏ đến Calorie_Burnage.
- Giá trị P cao (0,824), có nghĩa là chúng ta không thể kết luận mối quan hệ giữa Average_Pulse và Calorie_Burnage.
- Giá trị R-Squared bằng 0, có nghĩa là đường hàm hồi quy tuyến tính không phù hợp với dữ liệu.