Thống kê - Kiểm tra giả thuyết về một tỷ lệ (Hai đuôi)
Tỷ lệ dân số là tỷ lệ dân số thuộc một thể loại cụ thể.
Kiểm tra giả thuyết được sử dụng để kiểm tra tuyên bố về quy mô của tỷ lệ dân số đó.
Kiểm tra giả thuyết một tỷ lệ
Các bước sau đây được sử dụng để kiểm tra giả thuyết:
- Kiểm tra các điều kiện
- Xác định các yêu cầu bồi thường
- Xác định mức ý nghĩa
- Tính toán thống kê kiểm tra
- Phần kết luận
Ví dụ:
- Dân số : Người đoạt giải Nobel
- thể loại : Phụ nữ
Và chúng tôi muốn kiểm tra xác nhận quyền sở hữu:
"The share of Nobel Prize winners that are women is not 50%"
Bằng cách lấy mẫu ngẫu nhiên 100 người đoạt giải Nobel, chúng ta có thể thấy rằng:
10 out of 100 Nobel Prize winners in the sample were women
Khi đó tỷ lệ mẫu sẽ là: \(\displaystyle \frac{10}{100} = 0,1\) hoặc 10%.
Từ dữ liệu mẫu này, chúng tôi kiểm tra xác nhận quyền sở hữu bằng các bước bên dưới.
1. Kiểm tra các điều kiện
Điều kiện để tính khoảng tin cậy của một tỷ lệ là:
- Mẫu được chọn ngẫu nhiên
- Chỉ có hai lựa chọn:
- Nằm trong danh mục
- Không thuộc danh mục
- Mẫu cần ít nhất:
- 5 thành viên trong danh mục
- 5 thành viên không có trong danh mục
Trong ví dụ của chúng tôi, chúng tôi chọn ngẫu nhiên 10 người là phụ nữ.
Những người còn lại không phải là phụ nữ, vì vậy có 90 người thuộc loại khác.
Các điều kiện được đáp ứng trong trường hợp này.
Lưu ý: Có thể thực hiện kiểm tra giả thuyết mà không cần có 5 loại cho mỗi loại. Nhưng cần có những điều chỉnh đặc biệt.
2. Xác định các yêu cầu bồi thường
Chúng ta cần xác định một giả thuyết không (\(H_{0}\)) và một giả thuyết thay thế (\(H_{1}\)) dựa trên khẳng định mà chúng ta đang kiểm tra.
Yêu cầu bồi thường là:
"The share of Nobel Prize winners that are women is not 50%"
Trong trường hợp này, tham số là tỷ lệ người đoạt giải Nobel là phụ nữ (\(p\)).
Giả thuyết không và giả thuyết thay thế là:
Null hypothesis : 50% of Nobel Prize winners were women.
Alternative hypothesis : The share of Nobel Prize winners that are women is not 50%
Điều này có thể được biểu diễn bằng các ký hiệu như sau:
\(H_{0}\): \(p = 0.50 \)
\(H_{1}\): \(p \neq 0.50 \)
Đây là một thử nghiệm ' hai đuôi ', vì giả thuyết thay thế khẳng định rằng tỷ lệ này khác (lớn hơn hoặc nhỏ hơn) so với giả thuyết không.
Nếu dữ liệu ủng hộ giả thuyết thay thế, chúng tôi bác bỏ giả thuyết khống và chấp nhận giả thuyết thay thế.
3. Quyết định mức ý nghĩa
Mức ý nghĩa (\(\alpha\)) là độ không chắc chắn mà chúng tôi chấp nhận khi bác bỏ giả thuyết không trong kiểm tra giả thuyết.
Mức ý nghĩa là xác suất phần trăm của việc vô tình đưa ra kết luận sai.
Mức ý nghĩa điển hình là:
- \(\alpha = 0,1\) (10%)
- \(\alpha = 0,05\) (5%)
- \(\alpha = 0,01\) (1%)
Mức ý nghĩa thấp hơn có nghĩa là bằng chứng trong dữ liệu cần phải mạnh mẽ hơn để bác bỏ giả thuyết không.
Không có mức ý nghĩa "chính xác" - nó chỉ nêu mức độ không chắc chắn của kết luận.
Lưu ý: Mức ý nghĩa 5% có nghĩa là khi chúng ta bác bỏ giả thuyết không:
Chúng tôi hy vọng sẽ bác bỏ giả thuyết không đúng 5 trên 100 lần.
4. Tính thống kê kiểm tra
Thống kê kiểm tra được sử dụng để quyết định kết quả của việc kiểm tra giả thuyết.
Thống kê kiểm tra là một giá trị tiêu chuẩn được tính toán từ mẫu.
Công thức tính thống kê kiểm định (TS) của một tỷ lệ dân số là:
\(\displaystyle \frac{\hat{p} - p}{\sqrt{p(1-p)}} \cdot \sqrt{n} \)
\(\hat{p}-p\) là sự khác biệt giữa tỷ lệ mẫu (\(\hat{p}\)) và tỷ lệ dân số được yêu cầu (\(p\)).
\(n\) là kích thước mẫu.
Trong ví dụ của chúng tôi:
The claimed (\(H_{0}\)) population proportion (\(p\)) was \( 0.50 \)
The sample proportion (\(\hat{p}\)) was 10 out of 100, or: \(\displaystyle \frac{10}{100} = 0.10\)
The sample size (\(n\)) was \(100\)
Vì vậy, thống kê kiểm tra (TS) là:
\(\displaystyle \frac{0.1-0.5}{\sqrt{0.5(1-0.5)}} \cdot \sqrt{100} = \frac{-0.4}{\sqrt{0.5(0.5)}} \cdot \ sqrt{100} = \frac{-0.4}{\sqrt{0.25}} \cdot \sqrt{100} = \frac{-0.4}{0.5} \cdot 10 = \underline{-8}\)
Bạn cũng có thể tính toán thống kê kiểm tra bằng các hàm ngôn ngữ lập trình:
Ví dụ
Với Python, hãy sử dụng thư viện scipy và math để tính toán thống kê kiểm tra theo tỷ lệ.
import scipy.stats as stats
import math
# Specify the number of occurrences (x), the sample size (n), and the proportion claimed in the null-hypothesis (p)
x = 10
n = 100
p = 0.5
# Calculate the sample proportion
p_hat = x/n
# Calculate and print the test statistic
print((p_hat-p)/(math.sqrt((p*(1-p))/(n))))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng các hàm toán học có sẵn để tính toán thống kê kiểm tra cho một tỷ lệ.
# Specify the sample occurrences (x), the sample size (n), and the null-hypothesis claim (p)
x <- 10
n <- 100
p <- 0.5
# Calculate the sample proportion
p_hat = x/n
# Calculate and output the test statistic
(p_hat-p)/(sqrt((p*(1-p))/(n)))
Hãy tự mình thử »5. Kết luận
Có hai cách tiếp cận chính để đưa ra kết luận của một bài kiểm tra giả thuyết:
- Phương pháp giá trị tới hạn so sánh thống kê kiểm định với giá trị tới hạn của mức ý nghĩa.
- Phương pháp giá trị P so sánh giá trị P của thống kê kiểm tra và với mức ý nghĩa.
Lưu ý: Hai cách tiếp cận này chỉ khác nhau ở cách trình bày kết luận.
Phương pháp tiếp cận giá trị quan trọng
Đối với cách tiếp cận giá trị tới hạn, chúng ta cần tìm giá trị tới hạn (CV) của mức ý nghĩa (\(\alpha\)).
Đối với thử nghiệm tỷ lệ dân số, giá trị tới hạn (CV) là giá trị Z từ phân phối chuẩn chuẩn .
Giá trị Z tới hạn (CV) này xác định vùng loại bỏ cho thử nghiệm.
Vùng bác bỏ là vùng xác suất ở phần đuôi của phân phối chuẩn chuẩn hóa.
Vì khẳng định rằng tỷ lệ quần thể khác 50% nên vùng bác bỏ được chia thành cả đuôi trái và đuôi phải:
Kích thước của vùng loại bỏ được quyết định bởi mức ý nghĩa (\(\alpha\)).
Chọn mức ý nghĩa (\(\alpha\)) là 0,01 hoặc 1%, chúng ta có thể tìm thấy giá trị Z quan trọng từ bảng Z hoặc bằng chức năng ngôn ngữ lập trình:
Lưu ý: Vì đây là bài kiểm tra hai đuôi nên diện tích đuôi (\(\alpha\)) cần được chia đôi (chia cho 2).
Ví dụ
Với Python, hãy sử dụng hàm norm.ppf()
của thư viện Scipy Stats để tìm giá trị Z cho \(\alpha\)/2 = 0,005 ở đuôi bên trái.
import scipy.stats as stats
print(stats.norm.ppf(0.005))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm qnorm()
tích hợp để tìm giá trị Z cho \(\alpha\) = 0,005 ở đuôi bên trái.
qnorm(0.005)
Hãy tự mình thử »Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị Z quan trọng ở đuôi bên trái là \(\approx \underline{-2.5758}\)
Vì phân phối chuẩn i đối xứng, nên chúng ta biết rằng giá trị Z tới hạn ở đuôi bên phải sẽ có cùng số, chỉ dương: \(\underline{2.5758}\)
Đối với thử nghiệm hai đuôi, chúng ta cần kiểm tra xem thống kê kiểm tra (TS) có nhỏ hơn giá trị tới hạn âm (-CV) hay lớn hơn giá trị tới hạn dương (CV).
Nếu thống kê kiểm tra nhỏ hơn giá trị tới hạn âm thì thống kê kiểm tra nằm trong vùng bị loại bỏ .
Nếu thống kê kiểm tra lớn hơn giá trị tới hạn dương thì thống kê kiểm tra nằm trong vùng bị loại bỏ .
Khi thống kê kiểm tra nằm trong vùng bị bác bỏ, chúng tôi bác bỏ giả thuyết khống (\(H_{0}\)).
Ở đây, thống kê kiểm tra (TS) là \(\approx \underline{-8}\) và giá trị tới hạn là \(\approx \underline{-2.5758}\)
Dưới đây là minh họa của bài kiểm tra này trong biểu đồ:
Vì thống kê kiểm định nhỏ hơn giá trị tới hạn âm nên chúng tôi bác bỏ giả thuyết không.
Điều này có nghĩa là dữ liệu mẫu ủng hộ giả thuyết thay thế.
Và chúng ta có thể tóm tắt kết luận nêu rõ:
The sample data supports the claim that "The share of Nobel Prize winners that are women is not 50%" at a 1% significance level .
Phương pháp tiếp cận giá trị P
Đối với phương pháp giá trị P, chúng ta cần tìm giá trị P của thống kê kiểm tra (TS).
Nếu giá trị P nhỏ hơn mức ý nghĩa (\(\alpha\)), chúng tôi bác bỏ giả thuyết khống (\(H_{0}\)).
Thống kê kiểm tra được tìm thấy là \( \approx \underline{-8} \)
Đối với kiểm tra tỷ lệ dân số, thống kê kiểm tra là Giá trị Z từ phân phối chuẩn chuẩn .
Vì đây là thử nghiệm hai đuôi nên chúng ta cần tìm giá trị P của giá trị Z nhỏ hơn -8 và nhân nó với 2 .
Chúng ta có thể tìm thấy giá trị P bằng cách sử dụng bảng Z hoặc bằng hàm ngôn ngữ lập trình:
Ví dụ
Với Python, hãy sử dụng hàm norm.cdf()
của thư viện Scipy Stats để tìm giá trị P của giá trị Z nhỏ hơn -8 cho bài kiểm tra hai đuôi:
import scipy.stats as stats
print(2*stats.norm.cdf(-8))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm pnorm()
tích hợp để tìm giá trị P của giá trị Z nhỏ hơn -8 cho thử nghiệm hai đuôi:
2*pnorm(-8)
Hãy tự mình thử »Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị P là \(\approx \underline{1.25 \cdot 10^{-15}}\) hoặc \(0,000000000000000125\)
Điều này cho chúng ta biết rằng mức ý nghĩa (\(\alpha\)) sẽ cần phải lớn hơn 0,000000000000125% để bác bỏ giả thuyết khống.
Dưới đây là minh họa của bài kiểm tra này trong biểu đồ:
Giá trị P này nhỏ hơn bất kỳ mức ý nghĩa chung nào (10%, 5%, 1%).
Vì vậy giả thuyết không bị bác bỏ ở tất cả các mức ý nghĩa này.
Và chúng ta có thể tóm tắt kết luận nêu rõ:
The sample data supports the claim that "The share of Nobel Prize winners that are women is not 50%" at a 10%, 5%, and 1% significance level .
Tính giá trị P cho bài kiểm tra giả thuyết bằng lập trình
Nhiều ngôn ngữ lập trình có thể tính giá trị P để quyết định kết quả của việc kiểm tra giả thuyết.
Việc sử dụng phần mềm và lập trình để tính toán số liệu thống kê phổ biến hơn đối với các tập hợp dữ liệu lớn hơn vì việc tính toán thủ công trở nên khó khăn.
Giá trị P được tính ở đây sẽ cho chúng ta biết mức ý nghĩa thấp nhất có thể mà giả thuyết không có thể bị bác bỏ.
Ví dụ
Với Python, hãy sử dụng thư viện scipy và math để tính giá trị P cho thử nghiệm giả thuyết hai đuôi cho một tỷ lệ.
Ở đây, cỡ mẫu là 100, số lần xuất hiện là 10 và thử nghiệm dành cho tỷ lệ khác 0,50.
import scipy.stats as stats
import math
# Specify the number of occurrences (x), the sample size (n), and the proportion claimed in the null-hypothesis (p)
x = 10
n = 100
p = 0.5
# Calculate the sample proportion
p_hat = x/n
# Calculate the test statistic
test_stat = (p_hat-p)/(math.sqrt((p*(1-p))/(n)))
# Output the p-value of the test statistic (two-tailed test)
print(2*stats.norm.cdf(test_stat))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm prop.test()
tích hợp để tìm giá trị P cho phép kiểm tra giả thuyết đuôi trái cho một tỷ lệ.
Ở đây, cỡ mẫu là 100, số lần xuất hiện là 10 và thử nghiệm dành cho tỷ lệ khác 0,50.
# Specify the sample occurrences (x), the sample size (n), and the null-hypothesis claim (p)
x <- 10
n <- 100
p <- 0.5
# P-value from left-tail proportion test at 0.01 significance level
prop.test(x, n, p, alternative = c("two.sided"), conf.level = 0.99, correct = FALSE)$p.value
Hãy tự mình thử » Lưu ý: conf.level
trong mã R là đảo ngược của mức ý nghĩa.
Ở đây, mức ý nghĩa là 0,01 hoặc 1%, do đó conf.level là 1-0,01 = 0,99 hoặc 99%.
Kiểm tra đuôi trái và hai đuôi
Đây là một ví dụ về thử nghiệm hai đuôi, trong đó giả thuyết thay thế khẳng định rằng tham số khác với khẳng định giả thuyết không.
Bạn có thể xem hướng dẫn từng bước tương đương cho các loại khác tại đây: