Học máy - Độ lệch chuẩn
Độ lệch chuẩn là gì?
Độ lệch chuẩn là một con số mô tả mức độ phân tán của các giá trị.
Độ lệch chuẩn thấp có nghĩa là hầu hết các số đều gần với giá trị trung bình (trung bình).
Độ lệch chuẩn cao có nghĩa là các giá trị được trải rộng trên phạm vi rộng hơn.
Ví dụ: Lần này ta đăng ký vận tốc của 7 xe:
speed = [86,87,88,86,87,85,86]
Độ lệch chuẩn là:
0.9
Có nghĩa là hầu hết các giá trị đều nằm trong phạm vi 0,9 so với giá trị trung bình là 86,4.
Chúng ta hãy làm tương tự với việc lựa chọn các số có phạm vi rộng hơn:
speed = [32,111,138,28,59,77,97]
Độ lệch chuẩn là:
37.85
Có nghĩa là hầu hết các giá trị đều nằm trong phạm vi 37,85 so với giá trị trung bình là 77,4.
Như bạn có thể thấy, độ lệch chuẩn cao hơn cho thấy các giá trị được trải rộng trên phạm vi rộng hơn.
Mô-đun NumPy có phương pháp tính độ lệch chuẩn:
Ví dụ
Sử dụng phương pháp NumPy std()
để tìm độ lệch chuẩn:
import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)
Hãy tự mình thử »Học cách lọc dữ liệu bằng Python như một nhà phân tích dữ liệu
Hãy thử các buổi đào tạo thực hành với sự hướng dẫn từng bước từ chuyên gia. Hãy thử dự án hướng dẫn được thực hiện với sự hợp tác của Coursera ngay bây giờ!
Bắt đầuPhương sai
Phương sai là một con số khác cho biết mức độ phân tán của các giá trị.
Trên thực tế, nếu bạn lấy căn bậc hai của phương sai, bạn sẽ nhận được độ lệch chuẩn!
Hoặc ngược lại, nếu bạn nhân độ lệch chuẩn với chính nó, bạn sẽ có được phương sai!
Để tính phương sai bạn phải làm như sau:
1. Tìm giá trị trung bình:
(32+111+138+28+59+77+97) / 7 = 77.4
2. Với mỗi giá trị: tìm hiệu của giá trị trung bình:
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138 - 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77 - 77.4 = - 0.4
97 - 77.4 = 19.6
3. Với mỗi hiệu: tìm giá trị bình phương:
(-45.4) 2 = 2061.16
(33.6) 2 = 1128.96
(60.6) 2 = 3672.36
(-49.4) 2 = 2440.36
(-18.4) 2 = 338.56
(- 0.4) 2 = 0.16
(19.6) 2 = 384.16
4. Phương sai là số trung bình của các sai phân bình phương sau:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2
May mắn thay, NumPy có một phương pháp để tính phương sai:
Ví dụ
Sử dụng phương pháp NumPy var()
để tìm phương sai:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
Hãy tự mình thử »Độ lệch chuẩn
Như chúng ta đã học, công thức tìm độ lệch chuẩn là căn bậc hai của phương sai:
√ 1432.25 = 37.85
Hoặc, như trong ví dụ trước, sử dụng NumPy để tính độ lệch chuẩn:
Ví dụ
Sử dụng phương pháp NumPy std()
để tìm độ lệch chuẩn:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
Hãy tự mình thử »Biểu tượng
Độ lệch chuẩn thường được biểu thị bằng ký hiệu Sigma: σ
Phương sai thường được biểu thị bằng ký hiệu Sigma Squared: σ 2
Tóm tắt chương
Độ lệch chuẩn và Phương sai là những thuật ngữ thường được sử dụng trong Machine Learning, vì vậy điều quan trọng là phải hiểu cách lấy chúng và khái niệm đằng sau chúng.