Pandas - Phân tích DataFrames
Xem dữ liệu
Một trong những phương pháp được sử dụng nhiều nhất để có cái nhìn tổng quan nhanh về DataFrame là phương thức head()
.
Phương thức head()
trả về các tiêu đề và số hàng được chỉ định, bắt đầu từ trên cùng.
Ví dụ
Nhận tổng quan nhanh bằng cách in 10 hàng đầu tiên của DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
Hãy tự mình thử »Trong ví dụ của chúng tôi, chúng tôi sẽ sử dụng tệp CSV có tên 'data.csv'.
Tải xuống data.csv hoặc mở data.csv trong trình duyệt của bạn.
Lưu ý: nếu số lượng hàng không được chỉ định, phương thức head()
sẽ trả về 5 hàng trên cùng.
Ví dụ
In 5 hàng đầu tiên của DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Hãy tự mình thử » Ngoài ra còn có phương thức tail()
để xem các hàng cuối cùng của DataFrame.
Phương thức tail()
trả về các tiêu đề và số hàng được chỉ định, bắt đầu từ dưới cùng.
Được chứng nhận!
$10 ĐĂNG KÝ
Thông tin về dữ liệu
Đối tượng DataFrames có một phương thức được gọi là info()
, cung cấp cho bạn thêm thông tin về tập dữ liệu.
Ví dụ
In thông tin về dữ liệu:
print(df.info())
Kết quả
<lớp 'pandas.core.frame.DataFrame'> RangeIndex: 169 mục, 0 đến 168 Cột dữ liệu (tổng cộng 4 cột): # Cột Dtype không có giá trị rỗng --- ------ -------------- ----- 0 Thời lượng 169 không null int64 1 Xung 169 không null int64 2 Maxpulse 169 không null int64 3 Calo 164 không null64 dtypes: float64(1), int64(3) sử dụng bộ nhớ: 5,4 KB Không có
Kết quả được giải thích
Kết quả cho chúng ta biết có 169 hàng và 4 cột:
RangeIndex: 169 mục, 0 đến 168 Cột dữ liệu (tổng cộng 4 cột):
Và tên từng cột, kèm theo kiểu dữ liệu:
# Cột Dtype không có giá trị rỗng --- ------ -------------- ----- 0 Thời lượng 169 không null int64 1 Xung 169 không null int64 2 Maxpulse 169 không null int64 3 Calo 164 không null64
Giá trị rỗng
Phương thức info()
cũng cho chúng ta biết có bao nhiêu giá trị Không Null trong mỗi cột và trong tập dữ liệu của chúng ta, có vẻ như có 164 trong số 169 giá trị Không Null trong cột "Calo".
Điều đó có nghĩa là có 5 hàng không có giá trị nào trong cột "Calo", vì bất kỳ lý do gì.
Các giá trị trống hoặc giá trị Null có thể không tốt khi phân tích dữ liệu và bạn nên cân nhắc việc xóa các hàng có giá trị trống. Đây là một bước tiến tới cái được gọi là làm sạch dữ liệu và bạn sẽ tìm hiểu thêm về điều đó trong các chương tiếp theo.