Khoa học dữ liệu - Phương sai thống kê
Phương sai
Phương sai là một con số khác cho biết mức độ phân tán của các giá trị.
Trên thực tế, nếu bạn lấy căn bậc hai của phương sai, bạn sẽ nhận được độ lệch chuẩn. Hoặc ngược lại, nếu bạn nhân độ lệch chuẩn với chính nó, bạn sẽ có được phương sai!
Trước tiên, chúng tôi sẽ sử dụng tập dữ liệu với 10 quan sát để đưa ra ví dụ về cách chúng tôi có thể tính phương sai:
Khoảng thời gian | Trung bình_Pulse | Max_Pulse | Calorie_Đốt cháy | Giờ_Làm việc | Giờ_Ngủ |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | số 8 | 7 |
45 | 95 | 130 | 270 | số 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | số 8 |
60 | 110 | 145 | 300 | 7 | số 8 |
60 | 115 | 145 | 310 | số 8 | số 8 |
75 | 120 | 150 | 320 | 0 | số 8 |
75 | 125 | 150 | 330 | số 8 | số 8 |
Mẹo: Phương sai thường được biểu thị bằng ký hiệu Sigma Square: σ^2
Bước 1 để tính phương sai: Tìm giá trị trung bình
Chúng tôi muốn tìm phương sai của Average_Pulse.
1. Tìm giá trị trung bình:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
Giá trị trung bình là 102,5
Bước 2: Đối với mỗi giá trị - Tìm sự khác biệt so với giá trị trung bình
2. Tìm sự khác biệt so với giá trị trung bình của từng giá trị:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Bước 3: Đối với mỗi hiệu - Tìm giá trị bình phương
3. Tìm giá trị bình phương của mỗi hiệu:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Lưu ý: Chúng ta phải bình phương các giá trị để có được tổng chênh lệch.
Bước 4: Phương sai là số trung bình của các giá trị bình phương này
4. Tính tổng các giá trị bình phương và tìm giá trị trung bình:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Phương sai là 206,25.
Sử dụng Python để tìm phương sai của health_data
Chúng ta có thể sử dụng hàm var()
từ Numpy để tìm phương sai (hãy nhớ rằng hiện tại chúng ta sử dụng tập dữ liệu đầu tiên với 10 quan sát):
Đầu ra:
Sử dụng Python để tìm phương sai của tập dữ liệu đầy đủ
Ở đây chúng tôi tính toán phương sai cho từng cột cho tập dữ liệu đầy đủ:
Đầu ra: