Khoa học dữ liệu - Độ lệch chuẩn thống kê
Độ lệch chuẩn
Độ lệch chuẩn là một con số mô tả mức độ phân tán của các quan sát.
Một hàm toán học sẽ gặp khó khăn trong việc dự đoán các giá trị chính xác nếu các quan sát bị “lan truyền”. Độ lệch chuẩn là thước đo độ không chắc chắn.
Độ lệch chuẩn thấp có nghĩa là hầu hết các số đều gần với giá trị trung bình (trung bình).
Độ lệch chuẩn cao có nghĩa là các giá trị được trải rộng trên phạm vi rộng hơn.
Mẹo: Độ lệch chuẩn thường được biểu thị bằng ký hiệu Sigma: σ
Chúng ta có thể sử dụng hàm std()
từ Numpy để tìm độ lệch chuẩn của một biến:
Đầu ra:
Những con số này có ý nghĩa gì?
Hệ số biến thiên
Hệ số biến thiên được sử dụng để biết độ lệch chuẩn lớn đến mức nào.
Về mặt toán học, hệ số biến thiên được định nghĩa là:
Coefficient of Variation = Standard Deviation / Mean
Chúng ta có thể thực hiện việc này bằng Python nếu chúng ta tiến hành đoạn mã sau:
Ví dụ
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
Hãy tự mình thử »Đầu ra:
Ta thấy các biến Duration, Calorie_Burnage và Hours_Work có Độ lệch chuẩn cao so với Max_Pulse, Average_Pulse và Hours_Sleep.