Thống kê - Ước tính tỷ lệ dân số
Tỷ lệ dân số là tỷ lệ dân số thuộc một thể loại cụ thể.
Khoảng tin cậy được sử dụng để ước tính tỷ lệ dân số.
Ước tính tỷ lệ dân số
Một thống kê từ một mẫu được sử dụng để ước tính một tham số của tổng thể.
Giá trị có khả năng xảy ra nhất cho một tham số là ước tính điểm .
Ngoài ra, chúng ta có thể tính toán giới hạn dưới và giới hạn trên cho tham số ước tính.
Biên độ sai số là sự khác biệt giữa giới hạn dưới và giới hạn trên so với ước tính điểm.
Cùng với nhau, giới hạn dưới và giới hạn trên xác định khoảng tin cậy .
Tính khoảng tin cậy
Các bước sau đây được sử dụng để tính khoảng tin cậy:
- Kiểm tra các điều kiện
- Tìm ước lượng điểm
- Quyết định mức độ tin cậy
- Tính toán giới hạn sai số
- Tính khoảng tin cậy
Ví dụ:
- Dân số : Người đoạt giải Nobel
- Thể loại :Sinh ra ở Hoa Kỳ
Chúng ta có thể lấy mẫu và xem có bao nhiêu người trong số họ sinh ra ở Mỹ.
Dữ liệu mẫu được sử dụng để ước tính tỷ lệ tất cả những người đoạt giải Nobel sinh ra ở Hoa Kỳ.
Bằng cách chọn ngẫu nhiên 30 người đoạt giải Nobel, chúng ta có thể thấy rằng:
6 out of 30 Nobel Prize winners in the sample were born in the US
Từ dữ liệu này, chúng ta có thể tính toán khoảng tin cậy bằng các bước bên dưới.
1. Kiểm tra các điều kiện
Điều kiện để tính khoảng tin cậy của một tỷ lệ là:
- Mẫu được chọn ngẫu nhiên
- Chỉ có hai lựa chọn:
- Nằm trong danh mục
- Không thuộc danh mục
- Mẫu cần ít nhất:
- 5 thành viên trong danh mục
- 5 thành viên không có trong danh mục
Trong ví dụ của chúng tôi, chúng tôi chọn ngẫu nhiên 6 người sinh ra ở Mỹ.
Những người còn lại không sinh ra ở Mỹ nên có 24 người thuộc nhóm khác.
Các điều kiện được đáp ứng trong trường hợp này.
Lưu ý: Có thể tính khoảng tin cậy mà không cần có 5 của mỗi loại. Nhưng cần có những điều chỉnh đặc biệt.
2. Tìm ước tính điểm
Ước tính điểm là tỷ lệ mẫu (\(\hat{p}\)).
Công thức tính tỷ lệ mẫu là số lần xuất hiện (\(x\)) chia cho cỡ mẫu (\(n\)):
\(\displaystyle \hat{p} =\frac{x}{n}\)
Trong ví dụ của chúng tôi, 6 trong số 30 người sinh ra ở Hoa Kỳ: \(x\) là 6 và \(n\) là 30.
Vì vậy ước tính điểm cho tỷ lệ này là:
\(\displaystyle \hat{p} = \frac{x}{n} = \frac{6}{30} = \underline{0.2} = 20\%\)
Vì vậy, 20% mẫu được sinh ra ở Mỹ.
3. Quyết định mức độ tin cậy
Mức độ tin cậy được biểu thị bằng phần trăm hoặc số thập phân.
Ví dụ: nếu mức độ tin cậy là 95% hoặc 0,95:
Khi đó xác suất còn lại (\(\alpha\)) là: 5%, hoặc 1 - 0,95 = 0,05.
Mức độ tin cậy thường được sử dụng là:
- 90% với \(\alpha\) = 0,1
- 95% với \(\alpha\) = 0,05
- 99% với \(\alpha\) = 0,01
Lưu ý: Mức tin cậy 95% có nghĩa là nếu chúng ta lấy 100 mẫu khác nhau và tạo khoảng tin cậy cho mỗi mẫu:
Tham số thực sẽ nằm trong khoảng tin cậy 95 trên 100 lần đó.
Chúng tôi sử dụng phân phối chuẩn chuẩn để tìm giới hạn sai số cho khoảng tin cậy.
Các xác suất còn lại (\(\alpha\)) được chia làm hai sao cho một nửa nằm ở mỗi vùng đuôi của phân bố.
Các giá trị trên trục giá trị z ngăn cách vùng đuôi với phần giữa được gọi là giá trị z tới hạn .
Dưới đây là các biểu đồ về phân phối chuẩn chuẩn hiển thị các vùng đuôi (\(\alpha\)) cho các mức độ tin cậy khác nhau.
4. Tính biên độ sai số
Biên độ sai số là sự khác biệt giữa ước tính điểm và giới hạn dưới và giới hạn trên.
Biên độ sai số (\(E\)) cho một tỷ lệ được tính toán với giá trị z tới hạn và sai số chuẩn :
\(\displaystyle E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \)
Giá trị z tới hạn \(Z_{\alpha/2} \) được tính từ phân phối chuẩn chuẩn hóa và mức độ tin cậy.
Sai số chuẩn \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \) được tính từ ước tính điểm (\(\hat{p}\)) và cỡ mẫu (\(n\)).
Trong ví dụ của chúng tôi với 6 người đoạt giải Nobel sinh ra ở Mỹ trong số 30 mẫu, sai số chuẩn là:
\(\displaystyle \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.2(1-0.2)}{30}} = \sqrt {\frac{0.2 \cdot 0.8}{30}} = \sqrt{\frac{0.16}{30}} = \sqrt{0.00533..} \approx \underline{0.073}\)
Nếu chúng tôi chọn mức độ tin cậy là 95% thì \(\alpha\) là 0,05.
Vì vậy, chúng ta cần tìm giá trị z tới hạn \(Z_{0.05/2} = Z_{0.025}\)
Giá trị z quan trọng có thể được tìm thấy bằng cách sử dụng bảng Z hoặc bằng hàm ngôn ngữ lập trình:
Ví dụ
Với Python, hãy sử dụng hàm norm.ppf()
của thư viện Scipy Stats để tìm giá trị Z cho \(\alpha\)/2 = 0,025
import scipy.stats as stats
print(stats.norm.ppf(1-0.025))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm qnorm()
tích hợp để tìm giá trị Z cho \(\alpha\)/2 = 0,025
qnorm(1-0.025)
Hãy tự mình thử »Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị Z tới hạn \( Z_{\alpha/2} \) là \(\approx \underline{1.96} \)
Lỗi tiêu chuẩn \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) là \( \approx \underline{0.073}\)
Vì vậy, biên độ sai số (\(E\)) là:
\(\displaystyle E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \approx 1,96 \cdot 0,073 = \underline{ 0,143}\)
5. Tính khoảng tin cậy
Giới hạn dưới và giới hạn trên của khoảng tin cậy được tìm thấy bằng cách trừ và cộng biên độ sai số (\(E\)) từ ước tính điểm (\(\hat{p}\)).
Trong ví dụ của chúng tôi, điểm ước tính là 0,2 và sai số là 0,143, khi đó:
Giới hạn dưới là:
\(\hat{p} - E = 0,2 - 0,143 = \underline{0,057} \)
Giới hạn trên là:
\(\hat{p} + E = 0.2 + 0.143 = \underline{0.343} \)
Khoảng tin cậy là:
\([0,057, 0,343]\) hoặc \([5,7 \%, 34,4 \%]\)
Và chúng ta có thể tóm tắt khoảng tin cậy bằng cách nêu:
The 95% confidence interval for the proportion of Nobel Prize winners born in the US is between 5.7% and 34.4%
Tính khoảng tin cậy bằng lập trình
Khoảng tin cậy có thể được tính bằng nhiều ngôn ngữ lập trình.
Việc sử dụng phần mềm và lập trình để tính toán số liệu thống kê phổ biến hơn đối với các tập hợp dữ liệu lớn hơn vì việc tính toán thủ công trở nên khó khăn.
Ví dụ
Với Python, hãy sử dụng thư viện scipy và math để tính khoảng tin cậy cho tỷ lệ ước tính.
Ở đây, cỡ mẫu là 30 và số lần xuất hiện là 6.
import scipy.stats as stats
import math
# Specify sample occurrences (x), sample size (n) and confidence level
x = 6
n = 30
confidence_level = 0.95
# Calculate the point estimate, alpha, the critical z-value, the
standard error, and the margin of error
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = stats.norm.ppf(1-alpha/2)
standard_error = math.sqrt((point_estimate*(1-point_estimate)/n))
margin_of_error = critical_z * standard_error
# Calculate the lower and upper bound of the confidence interval
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error
# Print the results
print("Point Estimate: {:.3f}".format(point_estimate))
print("Critical Z-value: {:.3f}".format(critical_z))
print("Margin of Error: {:.3f}".format(margin_of_error))
print("Confidence Interval: [{:.3f},{:.3f}]".format(lower_bound,upper_bound))
print("The {:.1%} confidence interval for the population proportion is:".format(confidence_level))
print("between {:.3f} and {:.3f}".format(lower_bound,upper_bound))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng các hàm thống kê và toán học tích hợp để tính khoảng tin cậy cho tỷ lệ ước tính.
Ở đây, cỡ mẫu là 30 và số lần xuất hiện là 6.
# Specify sample occurrences (x), sample size (n) and confidence level
x = 6
n = 30
confidence_level = 0.95
# Calculate the point estimate, alpha, the critical z-value, the standard error, and the margin of error
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = qnorm(1-alpha/2)
standard_error = sqrt(point_estimate*(1-point_estimate)/n)
margin_of_error = critical_z * standard_error
# Calculate the lower and upper bound of the confidence interval
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error
# Print the results
sprintf("Point Estimate: %0.3f", point_estimate)
sprintf("Critical Z-value: %0.3f", critical_z)
sprintf("Margin of Error: %0.3f", margin_of_error)
sprintf("Confidence Interval: [%0.3f,%0.3f]", lower_bound, upper_bound)
sprintf("The %0.1f%% confidence interval for the population proportion is:", confidence_level*100)
sprintf("between %0.4f and %0.4f", lower_bound, upper_bound)
Hãy tự mình thử »