Thống kê - Phân phối chuẩn chuẩn
Phân phối chuẩn chuẩn là phân phối chuẩn trong đó giá trị trung bình bằng 0 và độ lệch chuẩn là 1.
Phân phối chuẩn chuẩn
Dữ liệu phân phối chuẩn có thể được chuyển đổi thành phân phối chuẩn chuẩn.
Việc chuẩn hóa dữ liệu được phân phối thông thường giúp việc so sánh các bộ dữ liệu khác nhau trở nên dễ dàng hơn.
Phân phối chuẩn chuẩn được sử dụng cho:
- Tính khoảng tin cậy
- Kiểm tra giả thuyết
Dưới đây là biểu đồ phân phối chuẩn chuẩn với các giá trị xác suất (giá trị p) giữa các độ lệch chuẩn:
Tiêu chuẩn hóa giúp tính toán xác suất dễ dàng hơn.
Các hàm tính xác suất rất phức tạp và khó tính bằng tay.
Thông thường, xác suất được tìm thấy bằng cách tra cứu các bảng giá trị được tính toán trước hoặc bằng cách sử dụng phần mềm và lập trình.
Phân phối chuẩn chuẩn hóa còn được gọi là 'phân phối Z' và các giá trị được gọi là 'giá trị Z' (hoặc điểm Z).
Giá trị Z
Giá trị Z biểu thị độ lệch chuẩn so với giá trị trung bình của một giá trị.
Công thức tính giá trị Z là:
\(\displaystyle Z = \frac{x-\mu}{\sigma}\)
\(x\) là giá trị chúng tôi đang chuẩn hóa, \(\mu\) là giá trị trung bình và \(\sigma\) là độ lệch chuẩn.
Ví dụ: nếu chúng ta biết rằng:
The mean height of people in Germany is 170 cm (\(\mu\))
The standard deviation of the height of people in Germany is 10 cm (\(\sigma\))
Bob is 200 cm tall (\(x\))
Bob cao hơn người bình thường ở Đức 30 cm.
30 cm là 3 lần 10 cm. Vậy chiều cao của Bob lớn hơn chiều cao trung bình 3 lần so với chiều cao trung bình ở Đức.
Sử dụng công thức:
\(\displaystyle Z = \frac{x-\mu}{\sigma} = \frac{200-170}{10} = \frac{30}{10} = \underline{3} \)
Giá trị Z của chiều cao của Bob (200 cm) là 3.
Tìm giá trị P của Giá trị Z
Sử dụng bảng Z hoặc lập trình, chúng ta có thể tính toán có bao nhiêu người Đức thấp hơn Bob và bao nhiêu người cao hơn.
Ví dụ
Với Python, hãy sử dụng hàm norm.cdf()
của thư viện Scipy Stats để tìm xác suất nhận được ít hơn giá trị Z là 3:
import scipy.stats as stats
print(stats.norm.cdf(3))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm pnorm()
tích hợp để tìm xác suất nhận được nhỏ hơn giá trị Z là 3:
pnorm(3)
Hãy tự mình thử »Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng xác suất là \(\khoảng 0,9987\) hoặc \( 99,87\% \)
Điều đó có nghĩa là Bob cao hơn 99,87% người dân ở Đức.
Dưới đây là biểu đồ phân phối chuẩn chuẩn và giá trị Z bằng 3 để trực quan hóa xác suất:
Các phương pháp này tìm giá trị p lên đến giá trị z cụ thể mà chúng ta có.
Để tìm giá trị p trên giá trị z, chúng ta có thể tính 1 trừ đi xác suất.
Vì vậy, trong ví dụ của Bob, chúng ta có thể tính 1 - 0,9987 = 0,0013 hoặc 0,13%.
Điều đó có nghĩa là chỉ có 0,13% người Đức cao hơn Bob.
Tìm giá trị P giữa các giá trị Z
Thay vào đó, nếu chúng ta muốn biết có bao nhiêu người cao từ 155 cm đến 165 cm ở Đức bằng cách sử dụng ví dụ tương tự:
The mean height of people in Germany is 170 cm (\(\mu\))
The standard deviation of the height of people in Germany is 10 cm (\(\sigma\))
Bây giờ chúng ta cần tính giá trị Z cho cả 155 cm và 165 cm:
\(\displaystyle Z = \frac{x-\mu}{\sigma} = \frac{155-170}{10} = \frac{-15}{10} = \underline{-1.5} \)
Giá trị Z của 155 cm là -1,5
\(\displaystyle Z = \frac{x-\mu}{\sigma} = \frac{165-170}{10} = \frac{-5}{10} = \underline{-0.5} \)
Giá trị Z của 165 cm là -0,5
Sử dụng bảng Z hoặc lập trình, chúng ta có thể thấy rằng giá trị p cho hai giá trị z:
- Xác suất giá trị z nhỏ hơn -0,5 (ngắn hơn 165 cm) là 30,85%
- Xác suất giá trị z nhỏ hơn -1,5 (ngắn hơn 155 cm) là 6,68%
Trừ 6,68% từ 30,85% để tìm xác suất nhận được giá trị z giữa chúng.
30,85% - 6,68% = 24,17%
Dưới đây là một tập hợp các biểu đồ minh họa quá trình:
Tìm giá trị Z của Giá trị P
Bạn cũng có thể sử dụng giá trị p (xác suất) để tìm giá trị z.
Ví dụ:
"How tall are you if you are taller than 90% of Germans?"
Giá trị p là 0,9 hoặc 90%.
Sử dụng bảng Z hoặc lập trình, chúng ta có thể tính giá trị z:
Ví dụ
Với Python, hãy sử dụng hàm norm.ppf()
của thư viện Scipy Stats, tìm giá trị z tách 10% trên cùng khỏi 90% dưới cùng:
import scipy.stats as stats
print(stats.norm.ppf(0.9))
Hãy tự mình thử »Ví dụ
Với R, hãy sử dụng hàm qnorm()
tích hợp để tìm giá trị z ngăn cách 10% trên cùng với 90% dưới cùng:
qnorm(0.9)
Hãy tự mình thử »Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị Z là \(\khoảng 1,281\)
Có nghĩa là một người cao hơn 1,281 độ lệch chuẩn so với chiều cao trung bình của người Đức thì cao hơn 90% người Đức.
Sau đó, chúng tôi sử dụng công thức để tính chiều cao (\(x\)) dựa trên giá trị trung bình (\(\mu\)) là 170 cm và độ lệch chuẩn (\(\sigma\)) là 10 cm:
\(\displaystyle Z = \frac{x-\mu}{\sigma} \)
\(\displaystyle 1.281 = \frac{x-170}{10} \)
\(1.281 \cdot 10 = x-170 \)
\(12,81 = x - 170 \)
\(12,81 + 170 = x \)
\(\gạch chân{182.81} = x \)
Vì vậy chúng ta có thể kết luận rằng:
"You have to be at least 182.81 cm tall to be taller than 90% of Germans"