Thống kê - Độ lệch chuẩn
Độ lệch chuẩn là thước đo biến thiên được sử dụng phổ biến nhất, mô tả mức độ phân tán của dữ liệu.
Độ lệch chuẩn
Độ lệch chuẩn (σ) đo lường khoảng cách giữa một quan sát 'điển hình' so với mức trung bình của dữ liệu (μ).
Độ lệch chuẩn rất quan trọng đối với nhiều phương pháp thống kê.
Dưới đây là biểu đồ về độ tuổi của tất cả 934 người đoạt giải Nobel tính đến năm 2020, cho thấy độ lệch chuẩn :
Mỗi đường chấm trong biểu đồ hiển thị sự dịch chuyển thêm một độ lệch chuẩn.
Nếu dữ liệu được phân phối bình thường:
- Khoảng 68,3% dữ liệu nằm trong khoảng 1 độ lệch chuẩn so với mức trung bình (từ μ-1σ đến μ+1σ)
- Khoảng 95,5% dữ liệu nằm trong khoảng 2 độ lệch chuẩn so với mức trung bình (từ μ-2σ đến μ+2σ)
- Khoảng 99,7% dữ liệu nằm trong khoảng 3 độ lệch chuẩn so với mức trung bình (từ μ-3σ đến μ+3σ)
Lưu ý: Phân phối chuẩn có dạng hình chuông và trải đều ở cả hai bên.
Tính độ lệch chuẩn
Bạn có thể tính độ lệch chuẩn cho cả tổng thể và mẫu .
Các công thức gần như giống nhau và sử dụng các ký hiệu khác nhau để chỉ độ lệch chuẩn (\(\sigma\)) và độ lệch chuẩn mẫu (\(s\)).
Việc tính độ lệch chuẩn (\(\sigma\)) được thực hiện theo công thức sau:
\(\displaystyle \sigma = \sqrt{\frac{\sum (x_{i}-\mu)^2}{n}}\)
Việc tính toán độ lệch chuẩn mẫu (\(s\)) được thực hiện theo công thức sau:
\(\displaystyle s = \sqrt{\frac{\sum (x_{i}-\bar{x})^2}{n-1}}\)
\(n\) là tổng số quan sát.
\(\sum \) là ký hiệu để cộng một danh sách các số lại với nhau.
\(x_{i}\) là danh sách các giá trị trong dữ liệu: \(x_{1}, x_{2}, x_{3}, \ldots \)
\(\mu\) là giá trị trung bình của tổng thể và \(\bar{x}\) là giá trị trung bình mẫu (giá trị trung bình).
\( (x_{i} - \mu ) \) và \( (x_{i} - \bar{x} ) \) là sự khác biệt giữa các giá trị của các quan sát (\(x_{i}\)) và nghĩa.
Mỗi sự khác biệt được bình phương và cộng lại với nhau.
Sau đó, tổng được chia cho \(n\) hoặc (\( n - 1 \)) và sau đó chúng ta tìm căn bậc hai.
Sử dụng 4 giá trị mẫu này để tính độ lệch chuẩn của tổng thể :
4, 11, 7, 14
Đầu tiên chúng ta phải tìm giá trị trung bình :
\(\displaystyle \mu = \frac{\sum x_{i}}{n} = \frac{4 + 11 + 7 + 14}{4} = \frac{36}{4} = \underline{9} \)
Sau đó, chúng tôi tìm thấy sự khác biệt giữa mỗi giá trị và giá trị trung bình \( (x_{i}- \mu)\):
- \( 4-9 \; \:= -5 \)
- \( 11-9 = 2 \)
- \( 7-9 \; \:= -2 \)
- \( 14-9 = 5 \)
Sau đó, mỗi giá trị được bình phương hoặc nhân với chính nó \( ( x_{i}- \mu )^2\):
- \( (-5)^2 = (-5)(-5) = 25 \)
- \( 2^2 \; \; \; \; \; \, = 2*2 \; \; \; \; \; \; \; \: = 4 \)
- \( (-2)^2 = (-2)(-2) = 4 \)
- \( 5^2 \; \; \; \; \; \, = 5*5 \; \; \; \; \; \; \; \: = 25 \)
Sau đó, tất cả các hiệu bình phương sẽ được cộng lại với nhau \( \sum (x_{i} -\mu )^2\):
\( 25 + 4 + 4 + 25 = 58\)
Sau đó, tổng được chia cho tổng số quan sát, \( n \):
\( \displaystyle \frac{58}{4} = 14.5\)
Cuối cùng, chúng ta lấy căn bậc hai của số này:
\( \sqrt{14.5} \approx \underline{3.81} \)
Vì vậy, độ lệch chuẩn của các giá trị ví dụ là khoảng: \(3.81 \)
Tính độ lệch chuẩn bằng lập trình
Độ lệch chuẩn có thể dễ dàng được tính toán bằng nhiều ngôn ngữ lập trình.
Việc sử dụng phần mềm và lập trình để tính toán số liệu thống kê phổ biến hơn đối với các tập hợp dữ liệu lớn hơn vì việc tính toán bằng tay trở nên khó khăn.
Độ lệch tiêu chuẩn dân số
Ví dụ
Với Python sử dụng phương thức std()
của thư viện NumPy để tìm độ lệch chuẩn của các giá trị 4,11,7,14:
import numpy
values = [4,11,7,14]
x = numpy.std(values)
print(x)
Hãy tự mình thử »Ví dụ
Sử dụng công thức R để tìm độ lệch chuẩn của các giá trị 4,11,7,14:
values <- c(4,7,11,14)
sqrt(mean((values-mean(values))^2))
Hãy tự mình thử »Độ lệch chuẩn mẫu
Ví dụ
Với Python sử dụng phương thức std()
của thư viện NumPy để tìm độ lệch chuẩn mẫu của các giá trị 4,11,7,14:
import numpy
values = [4,11,7,14]
x = numpy.std(values, ddof=1)
print(x)
Hãy tự mình thử »Ví dụ
Sử dụng hàm R sd()
để tìm độ lệch chuẩn mẫu của các giá trị 4,11,7,14:
values <- c(4,7,11,14)
sd(values)
Hãy tự mình thử »Tham khảo ký hiệu thống kê
Symbol | Description |
---|---|
\( \sigma \) | Population standard deviation. Pronounced 'sigma'. |
\( s \) | Sample standard deviation. |
\( \mu \) | The population mean. Pronounced 'mu'. |
\( \bar{x} \) | The sample mean. Pronounced 'x-bar'. |
\( \sum \) | The summation operator, 'capital sigma'. |
\( x \) | The variable 'x' we are calculating the average for. |
\( i \) | The index 'i' of the variable 'x'. This identifies each observation for a variable. |
\( n \) | The number of observations. |