Học máy
Machine Learning đang khiến máy tính học hỏi từ việc nghiên cứu dữ liệu và số liệu thống kê.
Machine Learning là một bước đi theo hướng trí tuệ nhân tạo (AI).
Machine Learning là một chương trình phân tích dữ liệu và học cách dự đoán kết quả.
Bắt đầu từ đâu?
Trong hướng dẫn này, chúng ta sẽ quay lại toán học và nghiên cứu số liệu thống kê cũng như cách tính các số quan trọng dựa trên tập dữ liệu.
Chúng ta cũng sẽ tìm hiểu cách sử dụng các mô-đun Python khác nhau để có được câu trả lời mình cần.
Và chúng ta sẽ học cách tạo ra các hàm có thể dự đoán kết quả dựa trên những gì chúng ta đã học.
Tập dữ liệu
Trong tâm trí của máy tính, tập dữ liệu là bất kỳ tập hợp dữ liệu nào. Nó có thể là bất cứ thứ gì từ một mảng đến một cơ sở dữ liệu hoàn chỉnh.
Ví dụ về một mảng:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Ví dụ về cơ sở dữ liệu:
tên carname | Màu sắc | Tuổi | Tốc độ | Tự động vượt qua |
xe BMW | màu đỏ | 5 | 99 | Y |
Volvo | đen | 7 | 86 | Y |
VW | xám | số 8 | 87 | N |
VW | trắng | 7 | 88 | Y |
Ford | trắng | 2 | 111 | Y |
VW | trắng | 17 | 86 | Y |
Tesla | màu đỏ | 2 | 103 | Y |
xe BMW | đen | 9 | 87 | Y |
Volvo | xám | 4 | 94 | N |
Ford | trắng | 11 | 78 | N |
Toyota | xám | 12 | 77 | N |
VW | trắng | 9 | 85 | N |
Toyota | màu xanh da trời | 6 | 86 | Y |
Bằng cách nhìn vào mảng, chúng ta có thể đoán rằng giá trị trung bình có thể là khoảng 80 hoặc 90 và chúng ta cũng có thể xác định giá trị cao nhất và giá trị thấp nhất, nhưng chúng ta có thể làm gì khác?
Và bằng cách nhìn vào cơ sở dữ liệu, chúng ta có thể thấy rằng màu phổ biến nhất là màu trắng và chiếc xe lâu đời nhất là 17 năm, nhưng nếu chúng ta có thể dự đoán liệu một chiếc ô tô có AutoPass hay không, chỉ bằng cách nhìn vào các giá trị khác thì sao?
Đó chính là mục đích của Machine Learning! Phân tích dữ liệu và dự đoán kết quả!
Trong Machine Learning, người ta thường làm việc với các tập dữ liệu rất lớn. Trong hướng dẫn này, chúng tôi sẽ cố gắng làm cho việc hiểu các khái niệm khác nhau về học máy trở nên dễ dàng nhất có thể và chúng tôi sẽ làm việc với các tập dữ liệu nhỏ, dễ hiểu.
Loại dữ liệu
Để phân tích dữ liệu, điều quan trọng là phải biết loại dữ liệu chúng ta đang xử lý.
Chúng ta có thể chia các kiểu dữ liệu thành ba loại chính:
- Số
- Phân loại
- thứ tự
Dữ liệu số là các số và có thể được chia thành hai loại số:
- Dữ liệu rời rạc
- dữ liệu được tính được giới hạn ở số nguyên. Ví dụ: Số lượng ô tô đi qua. - Dữ liệu liên tục
- dữ liệu đo được có thể là số bất kỳ. Ví dụ: Giá của một mặt hàng hoặc kích thước của một mặt hàng
Dữ liệu phân loại là các giá trị không thể đo lường được với nhau. Ví dụ: giá trị màu hoặc bất kỳ giá trị có/không nào.
Dữ liệu thứ tự giống như dữ liệu phân loại nhưng có thể được so sánh với nhau. Ví dụ: điểm ở trường mà A tốt hơn B, v.v.
Khi biết loại dữ liệu của nguồn dữ liệu, bạn sẽ có thể biết nên sử dụng kỹ thuật nào khi phân tích chúng.
Bạn sẽ tìm hiểu thêm về thống kê và phân tích dữ liệu trong các chương tiếp theo.