Menu
×

Được chứng nhận

Ghi lại kiến ​​thức của bạn

Đăng nhập Đăng ký

Tạo Tài khoản Example.com.vn miễn phí để cải thiện trải nghiệm học tập của bạn

Người tìm đường và việc học của tôi

Theo dõi tiến độ học tập của bạn tại Example.com.vn và thu thập phần thưởng

Nâng cấp

Trở thành người dùng PLUS và mở khóa các tính năng mạnh mẽ (không có quảng cáo, lưu trữ, hỗ trợ, ..)

Bắt đầu từ đâu

Bạn không chắc chắn muốn bắt đầu từ đâu? Đi theo con đường được hướng dẫn của chúng tôi

Trình chỉnh sửa mã (Dùng thử)

Với trình chỉnh sửa mã trực tuyến của chúng tôi, bạn có thể chỉnh sửa mã và xem kết quả trong trình duyệt của mình

Video

Tìm hiểu những điều cơ bản về HTML qua video hướng dẫn thú vị và hấp dẫn

Mẫu

Chúng tôi đã tạo một loạt mẫu trang web đáp ứng mà bạn có thể sử dụng - miễn phí!

Web hosting

Lưu trữ trang web của riêng bạn và chia sẻ nó với mọi người với Example.com.vn Spaces

Tạo một máy chủ

Tạo máy chủ của riêng bạn bằng Python, PHP, React.js, Node.js, Java, C#, v.v.

Làm thế nào để

Bộ sưu tập lớn các đoạn mã cho HTML, CSS và JavaScript

Khung CSS

Xây dựng các trang web nhanh và phản hồi bằng cách sử dụng khung W3.CSS miễn phí của chúng tôi

Thống kê trình duyệt

Đọc xu hướng dài hạn của việc sử dụng trình duyệt

Tốc độ gõ

Kiểm tra tốc độ đánh máy của bạn

Đào tạo AWS

Tìm hiểu dịch vụ web của Amazon

Bộ chọn màu

Sử dụng công cụ chọn màu của chúng tôi để tìm các màu RGB, HEX và HSL khác nhau. Bánh xe màu hình tròn thể hiện sự chuyển màu trong quang phổ

Trò chơi mã

Trò chơi mã hóa W3Schools! Giúp linh miêu thu thập nón thông Logo Lynx

Đặt mục tiêu

Nhận hành trình học tập được cá nhân hóa dựa trên các kỹ năng và mục tiêu hiện tại của bạn

Bản tin

Tham gia bản tin của chúng tôi và có quyền truy cập vào nội dung độc quyền mỗi tháng

Việc làm

Thuê những tài năng công nghệ hàng đầu. Hợp lý hóa quy trình tuyển dụng của bạn để có đội ngũ phù hợp hoàn hảo

Lớp học

Hãy liên hệ để sử dụng Example.com.vn Plus và các chứng chỉ với tư cách là một tổ chức giáo dục

×
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP CÁCH W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS AN NINH MẠNG DỮ LIỆU KHOA HỌC

Hướng dẫn Python

Python TRANG CHỦ Python Giới thiệu Python Python Bắt đầu Cú pháp Python Bình luận Python Biến Python Các kiểu dữ liệu Python Số Python Python Casting Chuỗi Python Python Booleans Toán tử Python Danh sách Python Bộ dữ liệu Python Bộ Python Từ điển Python Python If...Else Python While Loops Python For Loops Hàm Python Python Lambda Python Mảng Python Lớp/Đối tượng Python Kế thừa Python Vòng lặp Python Đa hình Python Phạm vi Python Mô-đun Python Python Ngày tháng Toán học Python Python JSON Python RegEx Python PIP Python Thử...Ngoại trừ người dùng Python Nhập định dạng chuỗi Python

Xử lý tập tin

Xử lý tệp Python Python Đọc tệp Python Viết/Tạo tệp Python Xóa tệp

Mô-đun Python

Hướng dẫn NumPy Hướng dẫn Pandas Hướng dẫn SciPy Hướng dẫn Django

Python Matplotlib

Matplotlib Giới thiệu Matplotlib Bắt đầu Matplotlib Pyplot Matplotlib Vẽ đồ thị Matplotlib Dấu Matplotlib Dòng Matplotlib Nhãn Matplotlib Lưới Matplotlib Subplot Matplotlib Phân tán Thanh Matplotlib Matplotlib Biểu đồ Matplotlib Biểu đồ hình tròn

Học máy

Bắt đầu Chế độ trung bình trung bình Độ lệch chuẩn Phân vị phần trăm Phân phối dữ liệu Phân phối dữ liệu bình thường Phân tán Biểu đồ Hồi quy tuyến tính Hồi quy đa thức Đa hồi quy Thang đo Train/Test Cây quyết định Ma trận nhầm lẫn Phân cụm phân cấp Hồi quy logistic Tìm kiếm lưới Dữ liệu phân loại K-mean Bootstrap Tổng hợp Xác thực chéo AUC - ROC Curve K- hàng xóm gần nhất

Python MySQL

MySQL Bắt đầu MySQL Tạo cơ sở dữ liệu MySQL Tạo bảng MySQL Chèn MySQL Chọn MySQL Nơi MySQL Thứ tự theo MySQL Xóa MySQL Drop Table Cập nhật MySQL Giới hạn MySQL MySQL Tham gia

Python MongoDB

MongoDB Bắt đầu MongoDB Tạo DB Bộ sưu tập MongoDB MongoDB Chèn MongoDB Tìm Truy vấn MongoDB MongoDB Sắp xếp MongoDB Xóa Bộ sưu tập thả MongoDB Cập nhật MongoDB Giới hạn MongoDB

Tham khảo Python

Tổng quan về Python Các hàm dựng sẵn của Python Phương thức chuỗi Python Phương thức danh sách Python Phương thức từ điển Python Phương thức Tuple Python Phương thức Python Set Phương thức tệp Python Từ khóa Python Ngoại lệ Python Bảng thuật ngữ Python

Tham khảo mô-đun

Yêu cầu mô-đun ngẫu nhiên Mô-đun thống kê Mô-đun Toán học Mô-đun cMath

Python Cách thực hiện

Xóa danh sách trùng lặp Đảo ngược một chuỗi Thêm hai số

Ví dụ về Python

Ví dụ về Python Trình biên dịch Python Bài tập Python Bài kiểm tra Python Máy chủ Python Python Bootcamp Chứng chỉ Python

Tiền xử lý - Dữ liệu phân loại


Trên trang này, W3schools.com hợp tác với Học viện Khoa học Dữ liệu NYC để cung cấp nội dung đào tạo kỹ thuật số cho sinh viên của chúng tôi.


Dữ liệu phân loại

Khi dữ liệu của bạn có các danh mục được biểu thị bằng chuỗi, sẽ khó sử dụng chúng để huấn luyện các mô hình machine learning thường chỉ chấp nhận dữ liệu số.

Thay vì bỏ qua dữ liệu phân loại và loại trừ thông tin khỏi mô hình của chúng tôi, bạn có thể chuyển đổi dữ liệu để có thể sử dụng dữ liệu đó trong mô hình của mình.

Hãy xem bảng bên dưới, đây chính là tập dữ liệu mà chúng tôi đã sử dụng trong chương hồi quy bội .

Ví dụ

import pandas as pd

cars = pd.read_csv('data.csv')
print(cars.to_string())

Kết quả

             Mẫu xe Khối lượng Trọng lượng CO2
  0 Toyota Aygo 1000 790 99
  1 Mitsubishi Space Star 1200 1160 95
  2 Skoda Citigo 1000 929 95
  3 Fiat 500 900 865 90
  4 Mini Cooper 1500 1140 105
  5 VW lên! 1000 929 105
  6 Skoda Fabia 1400 1109 90
  7 Mercedes A-Class 1500 1365 92
  8 Ford Fiesta 1500 1112 98
  9 Audi A1 1600 1150 99
  10 Huyndai I20 1100 980 99
  11 Suzuki Swift 1300 990 101
  12 Ford Fiesta 1000 1112 99
  13 Honda Civic 1600 1252 94
  14 Huyndai I30 1600 1326 97
  15 Opel Astra 1600 1330 97
  16 BMW 1 1600 1365 99
  17 Mazda 3 2200 1280 104
  18 Skoda Nhanh 1600 1119 104
  19 Ford Focus 2000 1328 105
  20 Ford Mondeo 1600 1584 94
  21 Opel Phù Hiệu 2000 1428 99
  22 Mercedes C-Class 2100 1365 99
  23 Skoda Octavia 1600 1415 99
  24 Volvo S60 2000 1415 99
  25 Mercedes CLA 1500 1465 102
  26 Audi A4 2000 1490 104
  27 Audi A6 2000 1725 114
  28 Volvo V70 1600 1523 109
  29 BMW 5 2000 1705 114
  30 Mercedes E-Class 2100 1605 115
  31 Volvo XC70 2000 1746 117
  32 Ford B-Max 1600 1235 104
  33 BMW 216 1600 1390 108
  34 Opel Zafira 1600 1405 109
  35 Mercedes SLK 2500 1395 120
  


Chạy ví dụ »

Trong chương hồi quy bội, chúng tôi đã cố gắng dự đoán lượng CO2 thải ra dựa trên thể tích động cơ và trọng lượng của ô tô nhưng chúng tôi đã loại trừ thông tin về nhãn hiệu và kiểu dáng ô tô.

Thông tin về thương hiệu ô tô hoặc mẫu xe có thể giúp chúng ta dự đoán tốt hơn về lượng CO2 thải ra.


QUẢNG CÁO


Một mã hóa nóng

Chúng tôi không thể sử dụng cột Ô tô hoặc Mẫu xe trong dữ liệu của mình vì chúng không phải là số. Không thể xác định được mối quan hệ tuyến tính giữa biến phân loại, Ô tô hoặc Mẫu xe và biến số, CO2.

Để khắc phục sự cố này, chúng ta phải có biểu diễn bằng số của biến phân loại. Một cách để làm điều này là có một cột đại diện cho từng nhóm trong danh mục.

Đối với mỗi cột, các giá trị sẽ là 1 hoặc 0 trong đó 1 thể hiện sự bao gồm của nhóm và 0 thể hiện sự loại trừ. Sự chuyển đổi này được gọi là một mã hóa nóng.

Bạn không cần phải thực hiện việc này một cách thủ công, mô-đun Python Pandas có một hàm gọi là get_dummies() thực hiện một mã hóa nóng.

Tìm hiểu về mô-đun Pandas trong Hướng dẫn về Pandas của chúng tôi.

Ví dụ

Một mã hóa nóng cột ô tô:

import pandas as pd

cars = pd.read_csv('data.csv')
ohe_cars = pd.get_dummies(cars[['Car']])

print(ohe_cars.to_string())

Kết quả

      Ô tô_Ô tô Audi_Ô tô BMW_Ô tô Fiat_Ô tô Ford_Ô tô Honda_Ô tô Honda_Ô tô Huyndai_Ô tô Mazda_Ô tô Mercedes_Ô tô mini_Xe Mitsubishi_Ô tô Opel_Ô tô Skoda_Ô tô Suzuki_Ôtô Toyoty_Ô tô VW_Volvo
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
  1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
  2 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
  3 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  4 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
  5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
  6 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
  7 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
  8 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
  9 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  10 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
  11 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
  12 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
  13 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
  14 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
  15 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
  16 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  17 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
  18 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
  19 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
  20 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
  21 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
  22 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
  23 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
  24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
  25 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
  26 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  27 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  28 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
  29 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  30 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
  31 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
  32 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
  33 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  34 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
  35 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0


Chạy ví dụ »

Kết quả

Một cột được tạo cho mọi thương hiệu ô tô trong cột Ô tô.


Dự đoán CO2

Chúng tôi có thể sử dụng thông tin bổ sung này cùng với khối lượng và trọng lượng để dự đoán lượng CO2

Để kết hợp thông tin, chúng ta có thể sử dụng hàm concat() từ pandas.

Đầu tiên chúng ta sẽ cần nhập một vài mô-đun.

Chúng tôi sẽ bắt đầu với việc nhập Pandas.

import pandas

Mô-đun pandas cho phép chúng ta đọc tệp csv và thao tác với các đối tượng DataFrame:

cars = pandas.read_csv("data.csv")

Nó cũng cho phép chúng ta tạo các biến giả:

ohe_cars = pandas.get_dummies(cars[['Car']])

Sau đó chúng ta phải chọn các biến độc lập (X) và cộng các biến giả theo cột.

Đồng thời lưu trữ biến phụ thuộc trong y.

X = pandas.concat([cars[['Volume', 'Weight']], ohe_cars], axis=1)
y = cars['CO2']

Chúng ta cũng cần nhập một phương thức từ sklearn để tạo mô hình tuyến tính

Tìm hiểu về hồi quy tuyến tính .

from sklearn import linear_model

Bây giờ chúng ta có thể điều chỉnh dữ liệu theo hồi quy tuyến tính:

regr = linear_model.LinearRegression()
regr.fit(X,y)

Cuối cùng, chúng ta có thể dự đoán lượng khí thải CO2 dựa trên trọng lượng, thể tích và nhà sản xuất của ô tô.

##predict the CO2 emission of a Volvo where the weight is 2300kg, and the volume is 1300cm3:
predictedCO2 = regr.predict([[2300, 1300,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0]])

Ví dụ

import pandas
from sklearn import linear_model

cars = pandas.read_csv("data.csv")
ohe_cars = pandas.get_dummies(cars[['Car']])

X = pandas.concat([cars[['Volume', 'Weight']], ohe_cars], axis=1)
y = cars['CO2']

regr = linear_model.LinearRegression()
regr.fit(X,y)

##predict the CO2 emission of a Volvo where the weight is 2300kg, and the volume is 1300cm3:
predictedCO2 = regr.predict([[2300, 1300,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0]])

print(predictedCO2)

Kết quả

 [122.45153299]


Chạy ví dụ »

Bây giờ chúng ta có hệ số về khối lượng, trọng lượng và từng nhãn hiệu ô tô trong tập dữ liệu


làm giả

Không cần thiết phải tạo một cột cho mỗi nhóm trong danh mục của bạn. Thông tin có thể được lưu giữ bằng cách sử dụng ít hơn 1 cột so với số lượng nhóm bạn có.

Ví dụ: bạn có một cột biểu thị màu sắc và trong cột đó bạn có hai màu là đỏ và xanh.

Ví dụ

import pandas as pd

colors = pd.DataFrame({'color': ['blue', 'red']})

print(colors)

Kết quả

    màu sắc
  0 màu xanh
  1 màu đỏ


Chạy ví dụ »

Bạn có thể tạo 1 cột tên là màu đỏ trong đó 1 đại diện cho màu đỏ và 0 đại diện cho không phải màu đỏ, nghĩa là cột đó có màu xanh lam.

Để làm điều này, chúng ta có thể sử dụng cùng một hàm mà chúng ta đã sử dụng cho một mã hóa nóng, get_dummies, sau đó loại bỏ một trong các cột. Có một đối số, drop_first, cho phép chúng ta loại trừ cột đầu tiên khỏi bảng kết quả.

Ví dụ

import pandas as pd

colors = pd.DataFrame({'color': ['blue', 'red']})
dummies = pd.get_dummies(colors, drop_first=True)

print(dummies)

Kết quả

     màu đỏ
  0 0
  1 1


Chạy ví dụ »

Nếu bạn có nhiều hơn 2 nhóm thì sao? Làm thế nào nhiều nhóm có thể được biểu diễn bằng 1 cột ít hơn?

Giả sử lần này chúng ta có ba màu, đỏ, xanh dương và xanh lục. Khi chúng tôi get_dummies trong khi bỏ cột đầu tiên, chúng tôi nhận được bảng sau.

Ví dụ

import pandas as pd

colors = pd.DataFrame({'color': ['blue', 'red', 'green']})
dummies = pd.get_dummies(colors, drop_first=True)
dummies['color'] = colors['color']

print(dummies)

Kết quả

     màu_màu xanh_màu đỏ
  0 0 0 màu xanh
  1 0 1 đỏ
  2 1 0 màu xanh lá cây


Chạy ví dụ »

×

Liên hệ bán hàng

Nếu bạn muốn sử dụng dịch vụ của Example.com.vn với tư cách là một tổ chức giáo dục, nhóm hoặc doanh nghiệp, hãy gửi email cho chúng tôi:
[email được bảo vệ]

Báo cáo lỗi

Nếu bạn muốn báo cáo lỗi hoặc nếu bạn muốn đưa ra đề xuất, hãy gửi email cho chúng tôi:
[email được bảo vệ]

Example.com.vn được tối ưu hóa cho việc học tập và đào tạo. Các ví dụ có thể được đơn giản hóa để cải thiện khả năng đọc và học. Các hướng dẫn, tài liệu tham khảo và ví dụ liên tục được xem xét để tránh sai sót, nhưng chúng tôi không thể đảm bảo tính chính xác hoàn toàn của mọi nội dung. Khi sử dụng W3Schools, bạn đồng ý đã đọc và chấp nhận các điều khoản sử dụng , chính sách cookie và quyền riêng tư của chúng tôi.

Bản quyền 1999-2024 của Refsnes Data. Đã đăng ký Bản quyền. Example.com.vn được cung cấp bởi W3.CSS .