Học máy - Phân phối dữ liệu
Phân phối dữ liệu
Trước đó trong hướng dẫn này, chúng ta đã làm việc với lượng dữ liệu rất nhỏ trong các ví dụ của mình, chỉ để hiểu các khái niệm khác nhau.
Trong thế giới thực, các tập dữ liệu lớn hơn nhiều, nhưng có thể khó thu thập dữ liệu trong thế giới thực, ít nhất là ở giai đoạn đầu của dự án.
Làm thế nào chúng ta có thể có được bộ dữ liệu lớn?
Để tạo các tập dữ liệu lớn để thử nghiệm, chúng tôi sử dụng mô-đun Python NumPy, đi kèm với một số phương pháp để tạo các tập dữ liệu ngẫu nhiên, ở mọi kích thước.
Ví dụ
Tạo một mảng chứa 250 số float ngẫu nhiên trong khoảng từ 0 đến 5:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
Hãy tự mình thử »Biểu đồ
Để trực quan hóa tập dữ liệu, chúng ta có thể vẽ biểu đồ với dữ liệu chúng tôi đã thu thập.
Chúng tôi sẽ sử dụng mô-đun Python Matplotlib để vẽ biểu đồ.
Tìm hiểu về mô-đun Matplotlib trong Hướng dẫn Matplotlib của chúng tôi.
Ví dụ
Vẽ biểu đồ:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
Kết quả:
Chạy ví dụ »Giải thích biểu đồ
Chúng tôi sử dụng mảng từ ví dụ trên để vẽ biểu đồ có 5 thanh.
Thanh đầu tiên biểu thị số lượng giá trị trong mảng nằm trong khoảng từ 0 đến 1.
Thanh thứ hai biểu thị số lượng giá trị nằm trong khoảng từ 1 đến 2.
Vân vân.
Điều này cho chúng ta kết quả này:
- 52 giá trị nằm trong khoảng từ 0 đến 1
- 48 giá trị nằm trong khoảng từ 1 đến 2
- 49 giá trị nằm trong khoảng từ 2 đến 3
- 51 giá trị nằm trong khoảng từ 3 đến 4
- 50 giá trị nằm trong khoảng từ 4 đến 5
Lưu ý: Các giá trị mảng là số ngẫu nhiên và sẽ không hiển thị kết quả chính xác trên máy tính của bạn.
Phân phối dữ liệu lớn
Một mảng chứa 250 giá trị không được coi là lớn lắm, nhưng bây giờ bạn đã biết cách tạo một tập hợp các giá trị ngẫu nhiên và bằng cách thay đổi các tham số, bạn có thể tạo tập dữ liệu lớn như bạn muốn.
Ví dụ
Tạo một mảng có 100000 số ngẫu nhiên và hiển thị chúng bằng biểu đồ có 100 thanh:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()
Chạy ví dụ »