Phân phối Zipf
Phân phối Zipf được sử dụng để lấy mẫu dữ liệu dựa trên luật của zipf.
Định luật Zipf: Trong một tập hợp, số hạng chung thứ n bằng 1/n lần số hạng phổ biến nhất. Ví dụ: từ phổ biến thứ 5 trong tiếng Anh xuất hiện với tần suất gần gấp 1/5 lần so với từ phổ biến nhất.
Nó có hai tham số:
a
- tham số phân phối.
size
- Hình dạng của mảng trả về.
Ví dụ
Vẽ ra mẫu phân phối zipf với tham số phân phối 2 với kích thước 2x3:
from numpy import random
x = random.zipf(a=2, size=(2, 3))
print(x)
Hãy tự mình thử »Trực quan hóa phân phối Zipf
Lấy mẫu 1000 điểm nhưng chỉ vẽ những điểm có giá trị < 10 để có biểu đồ có ý nghĩa hơn.
Ví dụ
from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns
x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)
plt.show()