Thống kê - Kiểm tra giả thuyết một tỷ lệ
Tỷ lệ dân số là tỷ lệ dân số thuộc một thể loại cụ thể.
Kiểm tra giả thuyết được sử dụng để kiểm tra tuyên bố về quy mô của tỷ lệ dân số đó.
Kiểm tra giả thuyết một tỷ lệ
Các bước sau đây được sử dụng để kiểm tra giả thuyết:
- Kiểm tra các điều kiện
- Xác định các yêu cầu bồi thường
- Xác định mức ý nghĩa
- Tính toán thống kê kiểm tra
- Phần kết luận
Ví dụ:
- Dân số : Người đoạt giải Nobel
- Thể loại :Sinh ra ở Hoa Kỳ
Và chúng tôi muốn kiểm tra xác nhận quyền sở hữu:
" More than 20% of Nobel Prize winners were born in the US"
Bằng cách lấy mẫu ngẫu nhiên 40 người đoạt giải Nobel, chúng ta có thể thấy rằng:
10 out of 40 Nobel Prize winners in the sample were born in the US
Khi đó tỷ lệ mẫu sẽ là: \(\displaystyle \frac{10}{40} = 0,25\) hoặc 25%.
Từ dữ liệu mẫu này, chúng tôi kiểm tra xác nhận quyền sở hữu bằng các bước bên dưới.
1. Kiểm tra các điều kiện
Điều kiện để tính khoảng tin cậy của một tỷ lệ là:
- Mẫu được chọn ngẫu nhiên
- Chỉ có hai lựa chọn:
- Nằm trong danh mục
- Không thuộc danh mục
- Mẫu cần ít nhất:
- 5 thành viên trong danh mục
- 5 thành viên không có trong danh mục
Trong ví dụ của chúng tôi, chúng tôi chọn ngẫu nhiên 10 người sinh ra ở Mỹ.
Những người còn lại không sinh ra ở Mỹ nên có 30 người thuộc loại khác.
Các điều kiện được đáp ứng trong trường hợp này.
Lưu ý: Có thể thực hiện kiểm tra giả thuyết mà không cần có 5 loại cho mỗi loại. Nhưng cần có những điều chỉnh đặc biệt.
2. Xác định các yêu cầu bồi thường
Chúng ta cần xác định một giả thuyết không (\(H_{0}\)) và một giả thuyết thay thế (\(H_{1}\)) dựa trên khẳng định mà chúng ta đang kiểm tra.
Yêu cầu bồi thường là:
" More than 20% of Nobel Prize winners were born in the US"
Trong trường hợp này, tham số là tỷ lệ người đoạt giải Nobel sinh ra ở Hoa Kỳ (\(p\)).
Giả thuyết không và giả thuyết thay thế là:
Null hypothesis : 20% of Nobel Prize winners were born in the US.
Alternative hypothesis : More than 20% of Nobel Prize winners were born in the US.
Điều này có thể được biểu diễn bằng các ký hiệu như sau:
\(H_{0}\): \(p = 0.20 \)
\(H_{1}\): \(p > 0.20 \)
Đây là một thử nghiệm 'đuôi phải ', bởi vì giả thuyết thay thế cho rằng tỷ lệ này lớn hơn trong giả thuyết không.
Nếu dữ liệu ủng hộ giả thuyết thay thế, chúng tôi bác bỏ giả thuyết khống và chấp nhận giả thuyết thay thế.
3. Quyết định mức ý nghĩa
Mức ý nghĩa (\(\alpha\)) là độ không chắc chắn mà chúng tôi chấp nhận khi bác bỏ giả thuyết không trong kiểm tra giả thuyết.
Mức ý nghĩa là xác suất phần trăm của việc vô tình đưa ra kết luận sai.
Mức ý nghĩa điển hình là:
- \(\alpha = 0,1\) (10%)
- \(\alpha = 0,05\) (5%)
- \(\alpha = 0,01\) (1%)
Mức ý nghĩa thấp hơn có nghĩa là bằng chứng trong dữ liệu cần phải mạnh mẽ hơn để bác bỏ giả thuyết không.
Không có mức ý nghĩa "chính xác" - nó chỉ nêu mức độ không chắc chắn của kết luận.
Lưu ý: Mức ý nghĩa 5% có nghĩa là khi chúng ta bác bỏ giả thuyết không:
Chúng tôi hy vọng sẽ bác bỏ giả thuyết không đúng 5 trên 100 lần.
4. Tính thống kê kiểm tra
Thống kê kiểm tra được sử dụng để quyết định kết quả của việc kiểm tra giả thuyết.
Thống kê kiểm tra là một giá trị tiêu chuẩn được tính toán từ mẫu.
Công thức tính thống kê kiểm định (TS) của một tỷ lệ dân số là:
\(\displaystyle \frac{\hat{p} - p}{\sqrt{p(1-p)}} \cdot \sqrt{n} \)
\(\hat{p}-p\) là sự khác biệt giữa tỷ lệ mẫu (\(\hat{p}\)) và tỷ lệ dân số được yêu cầu (\(p\)).
\(n\) là kích thước mẫu.
Trong ví dụ của chúng tôi:
The claimed (\(H_{0}\)) population proportion (\(p\)) was \( 0.20 \)
The sample proportion (\(\hat{p}\)) was 10 out of 40, or: \(\displaystyle \frac{10}{40} = 0.25\)
The sample size (\(n\)) was \(40\)
Vì vậy, thống kê kiểm tra (TS) là:
\(\displaystyle \frac{0.25-0.20}{\sqrt{0.2(1-0.2)}} \cdot \sqrt{40} = \frac{0.05}{\sqrt{0.2(0.8)}} \cdot \sqrt {40} = \frac{0,05}{\sqrt{0.16}} \cdot \sqrt{40} \approx \frac{0,05}{0.4} \cdot 6.325 = \underline{0.791}\)
Bạn cũng có thể tính toán thống kê kiểm tra bằng các hàm ngôn ngữ lập trình:
Ví dụ
Với Python, hãy sử dụng thư viện scipy và math để tính toán thống kê kiểm tra theo tỷ lệ.
import scipy.stats as stats
import math
# Specify the number of occurrences (x), the sample size (n), and the proportion claimed in the null-hypothesis (p)
x = 10
n = 40
p = 0.2
# Calculate the sample proportion
p_hat = x/n
# Calculate and print the test statistic
print((p_hat-p)/(math.sqrt((p*(1-p))/(n))))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm prop.test()
tích hợp để tính toán thống kê kiểm tra cho một tỷ lệ.
# Specify the sample occurrences (x), the sample size (n), and the null-hypothesis claim (p)
x <- 10
n <- 40
p <- 0.20
# Calculate the sample proportion
p_hat = x/n
# Calculate and print the test statistic
(p_hat-p)/(sqrt((p*(1-p))/(n)))
Hãy tự mình thử »5. Kết luận
Có hai cách tiếp cận chính để đưa ra kết luận của một bài kiểm tra giả thuyết:
- Phương pháp giá trị tới hạn so sánh thống kê kiểm định với giá trị tới hạn của mức ý nghĩa.
- Phương pháp giá trị P so sánh giá trị P của thống kê kiểm tra và với mức ý nghĩa.
Lưu ý: Hai cách tiếp cận này chỉ khác nhau ở cách trình bày kết luận.
Phương pháp tiếp cận giá trị quan trọng
Đối với cách tiếp cận giá trị tới hạn, chúng ta cần tìm giá trị tới hạn (CV) của mức ý nghĩa (\(\alpha\)).
Đối với thử nghiệm tỷ lệ dân số, giá trị tới hạn (CV) là giá trị Z từ phân phối chuẩn chuẩn .
Giá trị Z tới hạn (CV) này xác định vùng loại bỏ cho thử nghiệm.
Vùng bác bỏ là vùng xác suất ở phần đuôi của phân phối chuẩn chuẩn hóa.
Vì khẳng định rằng tỷ lệ dân số lớn hơn 20% nên vùng bác bỏ nằm ở đuôi bên phải:
Kích thước của vùng loại bỏ được quyết định bởi mức ý nghĩa (\(\alpha\)).
Chọn mức ý nghĩa (\(\alpha\)) là 0,05 hoặc 5%, chúng ta có thể tìm thấy giá trị Z quan trọng từ bảng Z hoặc bằng chức năng ngôn ngữ lập trình:
Lưu ý: Các hàm tìm giá trị Z cho một khu vực từ phía bên trái.
Để tìm giá trị Z cho đuôi bên phải, chúng ta cần sử dụng hàm trên diện tích bên trái của đuôi (1-0,05 = 0,95).
Ví dụ
Với Python, hãy sử dụng hàm norm.ppf()
của thư viện Scipy Stats để tìm giá trị Z cho \(\alpha\) = 0,05 ở đuôi bên phải.
import scipy.stats as stats
print(stats.norm.ppf(1-0.05))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm qnorm()
tích hợp để tìm giá trị Z cho \(\alpha\) = 0,05 ở đuôi bên phải.
qnorm(1-0.05)
Hãy tự mình thử »Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị Z quan trọng là \(\approx \underline{1.6449}\)
Đối với thử nghiệm đuôi phải, chúng ta cần kiểm tra xem thống kê kiểm tra (TS) có lớn hơn giá trị tới hạn (CV) hay không.
Nếu thống kê kiểm tra lớn hơn giá trị tới hạn thì thống kê kiểm tra nằm trong vùng bị loại bỏ .
Khi thống kê kiểm tra nằm trong vùng bị bác bỏ, chúng tôi bác bỏ giả thuyết khống (\(H_{0}\)).
Ở đây, thống kê kiểm tra (TS) là \(\approx \underline{0.791}\) và giá trị tới hạn là \(\approx \underline{1.6449}\)
Dưới đây là minh họa của bài kiểm tra này trong biểu đồ:
Vì thống kê kiểm định nhỏ hơn giá trị tới hạn nên chúng tôi không bác bỏ giả thuyết không.
Điều này có nghĩa là dữ liệu mẫu không ủng hộ giả thuyết thay thế.
Và chúng ta có thể tóm tắt kết luận nêu rõ:
The sample data does not support the claim that "more than 20% of Nobel Prize winners were born in the US" at a 5% significance level .
Phương pháp tiếp cận giá trị P
Đối với phương pháp giá trị P, chúng ta cần tìm giá trị P của thống kê kiểm tra (TS).
Nếu giá trị P nhỏ hơn mức ý nghĩa (\(\alpha\)), chúng tôi bác bỏ giả thuyết khống (\(H_{0}\)).
Thống kê kiểm tra được tìm thấy là \( \approx \underline{0.791} \)
Đối với kiểm tra tỷ lệ dân số, thống kê kiểm tra là Giá trị Z từ phân phối chuẩn chuẩn .
Vì đây là thử nghiệm đuôi phải nên chúng ta cần tìm giá trị P của giá trị Z lớn hơn 0,791.
Chúng ta có thể tìm thấy giá trị P bằng cách sử dụng bảng Z hoặc bằng hàm ngôn ngữ lập trình:
Lưu ý: Các hàm tìm giá trị P (diện tích) ở phía bên trái của giá trị Z.
Để tìm giá trị P cho đuôi bên phải, chúng ta cần lấy tổng diện tích trừ đi diện tích bên trái: 1 - đầu ra của hàm.
Ví dụ
Với Python, hãy sử dụng hàm norm.cdf()
của thư viện Scipy Stats để tìm giá trị P của giá trị Z lớn hơn 0,791:
import scipy.stats as stats
print(1-stats.norm.cdf(0.791))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm pnorm()
tích hợp để tìm giá trị P của giá trị Z lớn hơn 0,791:
1-pnorm(0.791)
Hãy tự mình thử »Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị P là \(\approx \underline{0.2145}\)
Điều này cho chúng ta biết rằng mức ý nghĩa (\(\alpha\)) cần phải lớn hơn 0,2145, hay 21,45%, để bác bỏ giả thuyết khống.
Dưới đây là minh họa của bài kiểm tra này trong biểu đồ:
Giá trị P này lớn hơn bất kỳ mức ý nghĩa chung nào (10%, 5%, 1%).
Vì vậy giả thuyết không được giữ ở tất cả các mức ý nghĩa này.
Và chúng ta có thể tóm tắt kết luận nêu rõ:
The sample data does not support the claim that "more than 20% of Nobel Prize winners were born in the US" at a 10%, 5%, or 1% significance level .
Lưu ý: Có thể vẫn đúng khi tỷ lệ dân số thực tế lớn hơn 20%.
Nhưng không có bằng chứng đủ mạnh để hỗ trợ nó với mẫu này.
Tính giá trị P cho bài kiểm tra giả thuyết bằng lập trình
Nhiều ngôn ngữ lập trình có thể tính giá trị P để quyết định kết quả của việc kiểm tra giả thuyết.
Việc sử dụng phần mềm và lập trình để tính toán số liệu thống kê phổ biến hơn đối với các tập hợp dữ liệu lớn hơn vì việc tính toán thủ công trở nên khó khăn.
Giá trị P được tính ở đây sẽ cho chúng ta biết mức ý nghĩa thấp nhất có thể mà giả thuyết không có thể bị bác bỏ.
Ví dụ
Với Python, hãy sử dụng thư viện scipy và math để tính giá trị P cho bài kiểm tra giả thuyết đuôi phải cho một tỷ lệ.
Ở đây, cỡ mẫu là 40, số lần xuất hiện là 10 và thử nghiệm dành cho tỷ lệ lớn hơn 0,20.
import scipy.stats as stats
import math
# Specify the number of occurrences (x), the sample size (n), and the proportion claimed in the null-hypothesis (p)
x = 10
n = 40
p = 0.2
# Calculate the sample proportion
p_hat = x/n
# Calculate the test statistic
test_stat = (p_hat-p)/(math.sqrt((p*(1-p))/(n)))
# Output the p-value of the test statistic (right tailed test)
print(1-stats.norm.cdf(test_stat))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm prop.test()
tích hợp để tìm giá trị P cho phép kiểm tra giả thuyết đuôi phải cho một tỷ lệ.
Ở đây, cỡ mẫu là 40, số lần xuất hiện là 10 và thử nghiệm dành cho tỷ lệ lớn hơn 0,20.
# Specify the sample occurrences (x), the sample size (n), and the null-hypothesis claim (p)
x <- 10
n <- 40
p <- 0.20
# P-value from right-tail proportion test at 0.05 significance level
prop.test(x, n, p, alternative = c("greater"), conf.level = 0.95, correct = FALSE)$p.value
Hãy tự mình thử » Lưu ý: conf.level
trong mã R là đảo ngược của mức ý nghĩa.
Ở đây, mức ý nghĩa là 0,05 hoặc 5%, do đó mức conf.level là 1-0,05 = 0,95 hoặc 95%.
Kiểm tra đuôi trái và hai đuôi
Đây là một ví dụ về thử nghiệm đuôi phải , trong đó giả thuyết thay thế cho rằng tham số lớn hơn tuyên bố giả thuyết không.
Bạn có thể xem hướng dẫn từng bước tương đương cho các loại khác tại đây: