Khoa học dữ liệu - Python DataFrame
Tạo DataFrame với Pandas
Khung dữ liệu là một biểu diễn có cấu trúc của dữ liệu.
Hãy xác định khung dữ liệu có 3 cột và 5 hàng với các số hư cấu:
Ví dụ
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9,
5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
Hãy tự mình thử »Ví dụ giải thích
- Nhập thư viện Pandas dưới dạng pd
- Xác định dữ liệu với cột và hàng trong một biến có tên d
- Tạo khung dữ liệu bằng hàm pd.DataFrame()
- Khung dữ liệu chứa 3 cột và 5 hàng
- In đầu ra khung dữ liệu bằng hàm print()
Chúng tôi viết pd. trước DataFrame() để cho Python biết rằng chúng ta muốn kích hoạt hàm DataFrame() từ thư viện Pandas.
Hãy nhận biết chữ D và F viết hoa trong DataFrame!
Giải thích đầu ra
Đây là đầu ra:
Chúng ta thấy rằng "col1", "col2" và "col3" là tên của các cột.
Đừng nhầm lẫn về các số dọc nằm trong khoảng từ 0-4. Họ cho chúng tôi biết thông tin về vị trí của các hàng.
Trong Python, việc đánh số hàng bắt đầu bằng 0.
Bây giờ, chúng ta có thể sử dụng Python để đếm số cột và số hàng.
Chúng ta có thể sử dụng df.shape[1] để tìm số cột:
Chúng ta có thể sử dụng df.shape[0] để tìm số hàng:
Tại sao chúng ta không thể tự mình đếm số hàng và số cột?
Nếu chúng ta làm việc với các tập dữ liệu lớn hơn có nhiều cột và hàng thì việc tự mình đếm sẽ rất khó hiểu. Bạn có nguy cơ đếm sai. Nếu chúng tôi sử dụng chính xác các hàm dựng sẵn trong Python, chúng tôi đảm bảo rằng số đếm là chính xác.