Thống kê - Ước tính phương tiện dân số
Giá trị trung bình của tổng thể là giá trị trung bình của một biến tổng thể bằng số .
Khoảng tin cậy được sử dụng để ước tính giá trị trung bình của tổng thể.
Ước tính dân số trung bình
Một thống kê từ một mẫu được sử dụng để ước tính một tham số của tổng thể.
Giá trị có khả năng xảy ra nhất cho một tham số là ước tính điểm .
Ngoài ra, chúng ta có thể tính toán giới hạn dưới và giới hạn trên cho tham số ước tính.
Biên độ sai số là sự khác biệt giữa giới hạn dưới và giới hạn trên so với ước tính điểm.
Cùng với nhau, giới hạn dưới và giới hạn trên xác định khoảng tin cậy .
Tính khoảng tin cậy
Các bước sau đây được sử dụng để tính khoảng tin cậy:
- Kiểm tra các điều kiện
- Tìm ước lượng điểm
- Quyết định mức độ tin cậy
- Tính toán giới hạn sai số
- Tính khoảng tin cậy
Ví dụ:
- Dân số : Người đoạt giải Nobel
- Biến : Tuổi khi họ nhận được giải Nobel
Chúng ta có thể lấy một mẫu và tính giá trị trung bình cũng như độ lệch chuẩn của mẫu đó.
Dữ liệu mẫu được sử dụng để ước tính độ tuổi trung bình của tất cả những người đoạt giải Nobel.
Bằng cách chọn ngẫu nhiên 30 người đoạt giải Nobel, chúng ta có thể thấy rằng:
The mean age in the sample is 62.1
The standard deviation of age in the sample is 13.46
Từ dữ liệu này, chúng ta có thể tính toán khoảng tin cậy bằng các bước bên dưới.
1. Kiểm tra các điều kiện
Điều kiện để tính khoảng tin cậy của giá trị trung bình là:
- Mẫu được chọn ngẫu nhiên
- Và một trong hai:
- Dữ liệu dân số thường được phân phối
- Cỡ mẫu đủ lớn
Cỡ mẫu lớn vừa phải, như 30, thường là đủ lớn.
Trong ví dụ, cỡ mẫu là 30 và được chọn ngẫu nhiên nên các điều kiện được đáp ứng.
Lưu ý: Việc kiểm tra xem dữ liệu có được phân phối bình thường hay không có thể được thực hiện bằng các bài kiểm tra thống kê chuyên dụng.
2. Tìm ước tính điểm
Ước tính điểm là giá trị trung bình mẫu (\(\bar{x}\)).
Công thức tính giá trị trung bình mẫu là tổng của tất cả các giá trị \(\sum x_{i}\) chia cho cỡ mẫu (\(n\)):
\(\displaystyle \bar{x} = \frac{\sum x_{i}}{n}\)
Trong ví dụ của chúng tôi, độ tuổi trung bình trong mẫu là 62,1.
3. Quyết định mức độ tin cậy
Mức độ tin cậy được biểu thị bằng phần trăm hoặc số thập phân.
Ví dụ: nếu mức độ tin cậy là 95% hoặc 0,95:
Khi đó xác suất còn lại (\(\alpha\)) là: 5%, hoặc 1 - 0,95 = 0,05.
Mức độ tin cậy thường được sử dụng là:
- 90% với \(\alpha\) = 0,1
- 95% với \(\alpha\) = 0,05
- 99% với \(\alpha\) = 0,01
Lưu ý: Mức tin cậy 95% có nghĩa là nếu chúng ta lấy 100 mẫu khác nhau và tạo khoảng tin cậy cho mỗi mẫu:
Tham số thực sẽ nằm trong khoảng tin cậy 95 trên 100 lần đó.
Chúng tôi sử dụng phân phối t của học sinh để tìm sai số cho khoảng tin cậy.
Phân phối t được điều chỉnh theo cỡ mẫu với 'bậc tự do' (df).
Bậc tự do là cỡ mẫu (n) - 1, nên trong ví dụ này là 30 - 1 = 29
Các xác suất còn lại (\(\alpha\)) được chia làm hai sao cho một nửa nằm ở mỗi vùng đuôi của phân bố.
Các giá trị trên trục giá trị t ngăn cách vùng đuôi với phần giữa được gọi là giá trị t tới hạn .
Dưới đây là các biểu đồ về phân phối chuẩn chuẩn hiển thị các vùng đuôi (\(\alpha\)) cho các mức độ tin cậy khác nhau ở 29 bậc tự do (df).
4. Tính biên độ sai số
Biên độ sai số là sự khác biệt giữa ước tính điểm và giới hạn dưới và giới hạn trên.
Biên độ sai số (\(E\)) cho một tỷ lệ được tính toán với giá trị t tới hạn và sai số chuẩn :
\(\displaystyle E = t_{\alpha/2}(df) \cdot \frac{s}{\sqrt{n}} \)
Giá trị t tới hạn \(t_{\alpha/2}(df) \) được tính từ phân phối chuẩn chuẩn hóa và mức độ tin cậy.
Sai số chuẩn \(\frac{s}{\sqrt{n}} \) được tính từ độ lệch chuẩn mẫu (\(s\)) và cỡ mẫu (\(n\)).
Trong ví dụ của chúng tôi với độ lệch chuẩn mẫu (\(s\)) là 13,46 và cỡ mẫu là 30 thì sai số chuẩn là:
\(\displaystyle \frac{s}{\sqrt{n}} = \frac{13.46}{\sqrt{30}} \approx \frac{13.46}{5.477} = \underline{2.458}\)
Nếu chúng tôi chọn mức độ tin cậy là 95% thì \(\alpha\) là 0,05.
Vì vậy, chúng ta cần tìm giá trị t tới hạn \(t_{0.05/2}(29) = t_{0.025}(29)\)
Giá trị t quan trọng có thể được tìm thấy bằng cách sử dụng bảng t hoặc bằng hàm ngôn ngữ lập trình:
Ví dụ
Với Python, hãy sử dụng hàm t.ppf()
của thư viện Scipy Stats để tìm giá trị t cho \(\alpha\)/2 = 0,025 và 29 bậc tự do.
import scipy.stats as stats
print(stats.t.ppf(1-0.025, 29))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm qt()
tích hợp để tìm giá trị t cho \(\alpha\)/2 = 0,025 và 29 bậc tự do.
qt(1-0.025, 29)
Hãy tự mình thử »Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị t tới hạn \(t_{\alpha/2}(df)\) là \(\approx \underline{2.05} \)
Lỗi tiêu chuẩn \(\frac{s}{\sqrt{n}}\) là \( \approx \underline{2.458}\)
Vì vậy, biên độ sai số (\(E\)) là:
\(\displaystyle E = t_{\alpha/2}(df) \cdot \frac{s}{\sqrt{n}} \approx 2,05 \cdot 2.458 = \underline{5.0389}\)
5. Tính khoảng tin cậy
Giới hạn dưới và giới hạn trên của khoảng tin cậy được tìm thấy bằng cách trừ và cộng biên độ sai số (\(E\)) từ ước tính điểm (\(\bar{x}\)).
Trong ví dụ của chúng tôi, điểm ước tính là 0,2 và sai số là 0,143, khi đó:
Giới hạn dưới là:
\(\bar{x} - E = 62.1 - 5.0389 \approx \underline{57.06} \)
Giới hạn trên là:
\(\bar{x} + E = 62.1 + 5.0389 \approx \underline{67.14} \)
Khoảng tin cậy là:
\([57.06, 67.14]\)
Và chúng ta có thể tóm tắt khoảng tin cậy bằng cách nêu:
The 95% confidence interval for the mean age of Nobel Prize winners is between 57.06 and 67.14 years
Tính khoảng tin cậy bằng lập trình
Khoảng tin cậy có thể được tính bằng nhiều ngôn ngữ lập trình.
Việc sử dụng phần mềm và lập trình để tính toán số liệu thống kê phổ biến hơn đối với các tập hợp dữ liệu lớn hơn vì việc tính toán thủ công trở nên khó khăn.
Lưu ý: Kết quả sử dụng mã lập trình sẽ chính xác hơn do làm tròn giá trị khi tính toán bằng tay.
Ví dụ
Với Python, hãy sử dụng thư viện scipy và math để tính khoảng tin cậy cho tỷ lệ ước tính.
Ở đây, cỡ mẫu là 30, trung bình mẫu là 62,1 và độ lệch chuẩn mẫu là 13,46.
import scipy.stats as stats
import math
# Specify sample mean (x_bar), sample standard deviation (s), sample size (n) and confidence level
x_bar = 62.1
s = 13.46
n = 30
confidence_level = 0.95
# Calculate alpha, degrees of freedom (df), the critical t-value, and the margin of error
alpha = (1-confidence_level)
df = n - 1
standard_error = s/math.sqrt(n)
critical_t = stats.t.ppf(1-alpha/2, df)
margin_of_error = critical_t * standard_error
# Calculate the lower and upper bound of the confidence interval
lower_bound = x_bar - margin_of_error
upper_bound = x_bar + margin_of_error
# Print the results
print("Critical t-value: {:.3f}".format(critical_t))
print("Margin of Error: {:.3f}".format(margin_of_error))
print("Confidence Interval: [{:.3f},{:.3f}]".format(lower_bound,upper_bound))
print("The {:.1%} confidence interval for the population mean is:".format(confidence_level))
print("between {:.3f} and {:.3f}".format(lower_bound,upper_bound))
Hãy tự mình thử »Ví dụ
R có thể sử dụng các hàm toán học và thống kê tích hợp để tính khoảng tin cậy cho một tỷ lệ ước tính.
Ở đây, cỡ mẫu là 30, trung bình mẫu là 62,1 và độ lệch chuẩn mẫu là 13,46.
# Specify sample mean (x_bar), sample standard deviation (s), sample size (n) and confidence level
x_bar = 62.1
s = 13.46
n = 30
confidence_level = 0.95
# Calculate alpha, degrees of freedom (df), the critical t-value, and the margin of error
alpha = (1-confidence_level)
df = n - 1
standard_error = s/sqrt(n)
critical_t = qt(1-alpha/2, 29)
margin_of_error = critical_t * standard_error
# Calculate the lower and upper bound of the confidence interval
lower_bound = x_bar - margin_of_error
upper_bound = x_bar + margin_of_error
# Print the results
sprintf("Critical t-value: %0.3f", critical_t)
sprintf("Margin of Error: %0.3f", margin_of_error)
sprintf("Confidence Interval: [%0.3f,%0.3f]", lower_bound, upper_bound)
sprintf("The %0.1f%% confidence interval for the population mean is:", confidence_level*100)
sprintf("between %0.4f and %0.4f", lower_bound, upper_bound)
Hãy tự mình thử »Lưu ý: R cũng có chức năng tích hợp để tính khoảng tin cậy cho giá trị trung bình của tổng thể.
Ví dụ
R có thể sử dụng hàm t.test()
tích hợp để tính khoảng tin cậy cho giá trị trung bình ước tính.
Ở đây, mẫu là 30 giá trị được tạo ngẫu nhiên với giá trị trung bình là 60 và độ lệch chuẩn là 12,5 bằng cách sử dụng hàm rnorm()
để tạo mẫu.
# Specify sample size (n) and confidence level
n = 30
confidence_level = 0.95
# Set random seed and generate sample data with mean of 60 and standard deviation of 12.5
set.seed(3)
sample <- rnorm(n, 60, 12.5)
# t.test function for sample data, confidence level, and selecting the $conf.int option
t.test(sample, conf.level = confidence_level)$conf.int
Hãy tự mình thử »