Menu
×

Được chứng nhận

Ghi lại kiến ​​thức của bạn

Đăng nhập Đăng ký

Tạo Tài khoản Example.com.vn miễn phí để cải thiện trải nghiệm học tập của bạn

Người tìm đường và việc học của tôi

Theo dõi tiến độ học tập của bạn tại Example.com.vn và thu thập phần thưởng

Nâng cấp

Trở thành người dùng PLUS và mở khóa các tính năng mạnh mẽ (không có quảng cáo, lưu trữ, hỗ trợ, ..)

Bắt đầu từ đâu

Bạn không chắc chắn muốn bắt đầu từ đâu? Đi theo con đường được hướng dẫn của chúng tôi

Trình chỉnh sửa mã (Dùng thử)

Với trình chỉnh sửa mã trực tuyến của chúng tôi, bạn có thể chỉnh sửa mã và xem kết quả trong trình duyệt của mình

Video

Tìm hiểu những điều cơ bản về HTML qua video hướng dẫn thú vị và hấp dẫn

Mẫu

Chúng tôi đã tạo một loạt mẫu trang web đáp ứng mà bạn có thể sử dụng - miễn phí!

Web hosting

Lưu trữ trang web của riêng bạn và chia sẻ nó với mọi người với Example.com.vn Spaces

Tạo một máy chủ

Tạo máy chủ của riêng bạn bằng Python, PHP, React.js, Node.js, Java, C#, v.v.

Làm thế nào để

Bộ sưu tập lớn các đoạn mã cho HTML, CSS và JavaScript

Khung CSS

Xây dựng các trang web nhanh và phản hồi nhanh bằng cách sử dụng khung W3.CSS miễn phí của chúng tôi

Thống kê trình duyệt

Đọc xu hướng dài hạn của việc sử dụng trình duyệt

Tốc độ gõ

Kiểm tra tốc độ đánh máy của bạn

Đào tạo AWS

Tìm hiểu dịch vụ web của Amazon

Bộ chọn màu

Sử dụng công cụ chọn màu của chúng tôi để tìm các màu RGB, HEX và HSL khác nhau. Bánh xe màu hình tròn thể hiện sự chuyển màu trong quang phổ

Trò chơi mã

Trò chơi mã hóa W3Schools! Giúp linh miêu thu thập nón thông Logo Lynx

Đặt mục tiêu

Nhận hành trình học tập được cá nhân hóa dựa trên các kỹ năng và mục tiêu hiện tại của bạn

Bản tin

Tham gia bản tin của chúng tôi và có quyền truy cập vào nội dung độc quyền mỗi tháng

Việc làm

Thuê những tài năng công nghệ hàng đầu. Hợp lý hóa quy trình tuyển dụng của bạn để có đội ngũ phù hợp hoàn hảo

Lớp học

Hãy liên hệ để sử dụng Example.com.vn Plus và các chứng chỉ với tư cách là một tổ chức giáo dục

×
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP CÁCH W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS AN NINH MẠNG DỮ LIỆU KHOA HỌC

Khoa học dữ liệu - Chuẩn bị dữ liệu


Trước khi phân tích dữ liệu, Nhà khoa học dữ liệu phải trích xuất dữ liệu và làm cho dữ liệu trở nên rõ ràng và có giá trị.


Trích xuất và đọc dữ liệu với Pandas

Trước khi dữ liệu có thể được phân tích, nó phải được nhập/trích xuất.

Trong ví dụ bên dưới, chúng tôi chỉ cho bạn cách nhập dữ liệu bằng Pandas trong Python.

Chúng tôi sử dụng hàm read_csv() để nhập tệp CSV có dữ liệu sức khỏe:

Ví dụ

import pandas as pd

health_data = pd.read_csv("data.csv", header=0, sep=",")

print(health_data)
Hãy tự mình thử »

Ví dụ giải thích

  • Nhập thư viện Pandas
  • Đặt tên khung dữ liệu là health_data .
  • header=0 có nghĩa là tiêu đề cho tên biến sẽ được tìm thấy ở hàng đầu tiên (lưu ý rằng 0 có nghĩa là hàng đầu tiên trong Python)
  • sep="," có nghĩa là "," được sử dụng làm dấu phân cách giữa các giá trị. Điều này là do chúng tôi đang sử dụng loại tệp .csv (các giá trị được phân tách bằng dấu phẩy)

Mẹo: Nếu có tệp CSV lớn, bạn có thể sử dụng hàm head() để chỉ hiển thị 5 hàng trên cùng:

Ví dụ

import pandas as pd

health_data = pd.read_csv("data.csv", header=0, sep=",")

print(health_data.head())
Hãy tự mình thử »

Làm sạch dữ liệu

Nhìn vào dữ liệu đã nhập. Như bạn có thể thấy, dữ liệu "bẩn" với các giá trị sai hoặc chưa được đăng ký:

Dữ liệu bẩn
  • Có một số trường trống
  • Không thể có xung trung bình 9 000
  • 9 000 sẽ được coi là không phải số vì có dấu cách
  • Một quan sát xung tối đa được ký hiệu là "AF", điều này không có ý nghĩa

Vì vậy, chúng ta phải làm sạch dữ liệu để thực hiện phân tích.


Xóa hàng trống

Chúng tôi thấy rằng các giá trị không phải là số (9 000 và AF) nằm trong cùng một hàng với các giá trị bị thiếu.

Giải pháp: Chúng tôi có thể xóa các hàng bị thiếu quan sát để khắc phục sự cố này.

Khi chúng tôi tải tập dữ liệu bằng Pandas, tất cả các ô trống sẽ tự động được chuyển đổi thành giá trị "NaN".

Vì vậy, việc loại bỏ các ô NaN mang lại cho chúng ta một tập dữ liệu sạch có thể phân tích được.

Chúng ta có thể sử dụng hàm dropna() để loại bỏ NaN. axis=0 có nghĩa là chúng tôi muốn xóa tất cả các hàng có giá trị NaN:

Ví dụ

health_data.dropna(axis=0,inplace=True)

print(health_data)
Hãy tự mình thử »

Kết quả là một tập dữ liệu không có hàng NaN:

Dữ liệu đã được làm sạch

Danh mục dữ liệu

Để phân tích dữ liệu, chúng ta cũng cần biết loại dữ liệu chúng ta đang xử lý.

Dữ liệu có thể được chia thành ba loại chính:

  1. Số - Chứa các giá trị số. Có thể chia thành hai loại:
    • Rời rạc: Các số được tính là "toàn bộ". Ví dụ: Bạn không thể tập 2,5 buổi mà là 2 hoặc 3 buổi
    • Liên tục: Các số có thể có độ chính xác vô hạn. Ví dụ: bạn có thể ngủ trong 7 giờ, 30 phút và 20 giây hoặc 7,533 giờ
  2. Phân loại - Chứa các giá trị không thể đo lường được với nhau. Ví dụ: Màu sắc hoặc loại hình đào tạo
  3. Thứ tự - Chứa dữ liệu phân loại có thể được đo lường với nhau. Ví dụ: Điểm trường A tốt hơn B, v.v.

Khi biết loại dữ liệu của mình, bạn sẽ có thể biết nên sử dụng kỹ thuật nào khi phân tích chúng.


Loại dữ liệu

Chúng ta có thể sử dụng hàm info() để liệt kê các loại dữ liệu trong tập dữ liệu của mình:

Ví dụ

print(health_data.info())
Hãy tự mình thử »

Kết quả:

Kiểu dữ liệu float và đối tượng

Chúng tôi thấy rằng tập dữ liệu này có hai loại dữ liệu khác nhau:

  • Phao64
  • Sự vật

Chúng ta không thể sử dụng các đối tượng để tính toán và thực hiện phân tích ở đây. Chúng ta phải chuyển đổi đối tượng kiểu thành float64 (float64 là một số có số thập phân trong Python).

Chúng ta có thể sử dụng hàm astype() để chuyển đổi dữ liệu thành float64.

Ví dụ sau chuyển đổi "Average_Pulse" và "Max_Pulse" thành kiểu dữ liệu float64 (các biến khác đã có kiểu dữ liệu float64):

Ví dụ

health_data["Average_Pulse"] = health_data['Average_Pulse'].astype(float)
health_data["Max_Pulse"] = health_data["Max_Pulse"].astype(float)

print (health_data.info())
Hãy tự mình thử »

Kết quả:

Kiểu dữ liệu nổi

Bây giờ, tập dữ liệu chỉ có kiểu dữ liệu float64.


Phân tích dữ liệu

Khi đã làm sạch tập dữ liệu, chúng ta có thể bắt đầu phân tích dữ liệu.

Chúng ta có thể sử dụng hàm describe() trong Python để tóm tắt dữ liệu:

Ví dụ

print(health_data.describe())
Hãy tự mình thử »

Kết quả:

Khoảng thời gian Trung bình_Pulse Max_Pulse Calorie_Đốt cháy Giờ_Làm việc Giờ_Ngủ
Đếm 10,0 10,0 10,0 10,0 10,0 10,0
Nghĩa là 51,0 102,5 137,0 285,0 6,6 7,5
tiêu chuẩn 10,49 15,4 11:35 30,28 3,63 0,53
tối thiểu 30,0 80,0 120,0 240,0 0,0 7,0
25% 45,0 91,25 130,0 262,5 7,0 7,0
50% 52,5 102,5 140,0 285,0 8,0 7,5
75% 60,0 113,75 145,0 307,5 8,0 8,0
Tối đa 60,0 125,0 150,0 330,0 10,0 8,0
  • Đếm - Đếm số lượng quan sát
  • Mean - Giá trị trung bình
  • Std - Độ lệch chuẩn (được giải thích trong chương thống kê)
  • Min - Giá trị thấp nhất
  • 25% , 50%75% là phần trăm (được giải thích trong chương thống kê)
  • Max - Giá trị cao nhất

×

Liên hệ bán hàng

Nếu bạn muốn sử dụng dịch vụ của Example.com.vn với tư cách là một tổ chức giáo dục, nhóm hoặc doanh nghiệp, hãy gửi email cho chúng tôi:
[email được bảo vệ]

Báo cáo lỗi

Nếu bạn muốn báo cáo lỗi hoặc nếu bạn muốn đưa ra đề xuất, hãy gửi email cho chúng tôi:
[email được bảo vệ]

Example.com.vn được tối ưu hóa cho việc học tập và đào tạo. Các ví dụ có thể được đơn giản hóa để cải thiện khả năng đọc và học. Các hướng dẫn, tài liệu tham khảo và ví dụ liên tục được xem xét để tránh sai sót, nhưng chúng tôi không thể đảm bảo tính chính xác hoàn toàn của mọi nội dung. Trong khi sử dụng W3Schools, bạn đồng ý đã đọc và chấp nhận các điều khoản sử dụng , chính sách cookie và quyền riêng tư của chúng tôi.

Bản quyền 1999-2024 của Refsnes Data. Đã đăng ký Bản quyền. Example.com.vn được cung cấp bởi W3.CSS .