Học máy - Phân phối dữ liệu thông thường
Phân phối dữ liệu thông thường
Trong chương trước chúng ta đã học cách tạo một mảng hoàn toàn ngẫu nhiên, có kích thước cho trước và giữa hai giá trị cho trước.
Trong chương này chúng ta sẽ học cách tạo một mảng trong đó các giá trị tập trung xung quanh một giá trị nhất định.
Trong lý thuyết xác suất, loại phân phối dữ liệu này được gọi là phân phối dữ liệu chuẩn hoặc phân phối dữ liệu Gaussian , theo tên nhà toán học Carl Friedrich Gauss, người đã đưa ra công thức phân phối dữ liệu này.
Ví dụ
Một phân phối dữ liệu bình thường điển hình:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()
Kết quả:
Chạy ví dụ »Lưu ý: Đồ thị phân phối chuẩn còn được gọi là đường cong hình chuông vì nó có hình dạng đặc trưng của một chiếc chuông.
Giải thích biểu đồ
Chúng tôi sử dụng mảng từ phương thức numpy.random.normal()
, với 100000 giá trị, để vẽ biểu đồ có 100 thanh.
Chúng tôi chỉ định rằng giá trị trung bình là 5,0 và độ lệch chuẩn là 1,0.
Có nghĩa là các giá trị phải tập trung ở khoảng 5,0 và hiếm khi cách xa giá trị trung bình hơn 1,0.
Và như bạn có thể thấy từ biểu đồ, hầu hết các giá trị đều nằm trong khoảng từ 4,0 đến 6,0, với đỉnh ở khoảng 5,0.