Khoa học dữ liệu - Bảng hồi quy: P-Value
"Thống kê phần hệ số" trong bảng hồi quy
Bây giờ, chúng tôi muốn kiểm tra xem các hệ số từ hàm hồi quy tuyến tính có tác động đáng kể đến biến phụ thuộc (Calorie_Burnage) hay không.
Điều này có nghĩa là chúng tôi muốn chứng minh rằng nó tồn tại mối quan hệ giữa Average_Pulse và Calorie_Burnage bằng cách sử dụng các kiểm tra thống kê.
Có bốn thành phần giải thích số liệu thống kê của các hệ số:
- lỗi std là viết tắt của Lỗi tiêu chuẩn
- t là "giá trị t" của các hệ số
- P>|t| được gọi là "giá trị P"
- [0,025 0,975] biểu thị khoảng tin cậy của các hệ số
Chúng ta sẽ tập trung tìm hiểu "giá trị P" trong mô-đun này.
Giá trị P
Giá trị P là một con số thống kê để kết luận liệu có mối quan hệ giữa Average_Pulse và Calorie_Burnage hay không.
Chúng tôi kiểm tra xem giá trị thực của hệ số có bằng 0 hay không (không có mối quan hệ). Kiểm tra thống kê cho điều này được gọi là kiểm tra giả thuyết.
- Giá trị P thấp (< 0,05) có nghĩa là hệ số có thể không bằng 0.
- Giá trị P cao (> 0,05) có nghĩa là chúng ta không thể kết luận rằng biến giải thích ảnh hưởng đến biến phụ thuộc (ở đây: nếu Average_Pulse ảnh hưởng đến Calorie_Burnage).
- Giá trị P cao còn được gọi là giá trị P không đáng kể.
Kiểm tra giả thuyết
Kiểm tra giả thuyết là một thủ tục thống kê để kiểm tra xem kết quả của bạn có hợp lệ hay không.
Trong ví dụ của chúng tôi, chúng tôi đang kiểm tra xem hệ số thực của Average_Pulse và hệ số chặn có bằng 0 hay không.
Kiểm tra giả thuyết có hai tuyên bố. Giả thuyết không và giả thuyết thay thế.
- Giả thuyết không có thể được viết ngắn gọn là H0
- Giả thuyết thay thế có thể được viết ngắn gọn là HA
Về mặt toán học được viết:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
Dấu ≠ có nghĩa là "không bằng"
Kiểm tra giả thuyết và giá trị P
Giả thuyết không có thể bị bác bỏ hoặc không.
Nếu chúng tôi bác bỏ giả thuyết khống, chúng tôi kết luận rằng nó tồn tại mối quan hệ giữa Average_Pulse và Calorie_Burnage. Giá trị P được sử dụng cho kết luận này.
Ngưỡng chung của giá trị P là 0,05.
Lưu ý: Giá trị P là 0,05 có nghĩa là trong 5% số lần chúng ta sẽ bác bỏ giả thuyết khống một cách sai lầm. Điều đó có nghĩa là chúng ta chấp nhận rằng trong 5% số trường hợp, chúng ta có thể đã kết luận sai một mối quan hệ.
Nếu giá trị P thấp hơn 0,05, chúng ta có thể bác bỏ giả thuyết khống và kết luận rằng nó tồn tại mối quan hệ giữa các biến.
Tuy nhiên, giá trị P của Average_Pulse là 0,824. Vì vậy, chúng tôi không thể kết luận mối quan hệ giữa Average_Pulse và Calorie_Burnage.
Điều đó có nghĩa là có 82,4% khả năng hệ số thực của Average_Pulse bằng 0.
Phần chặn được sử dụng để điều chỉnh khả năng dự đoán chính xác hơn của hàm hồi quy. Do đó, việc giải thích giá trị P của phần chặn là không phổ biến.