Dữ liệu học máy
Có tới 80% dự án Machine Learning là về Thu thập dữ liệu :
- Dữ liệu nào là bắt buộc ?
- Dữ liệu nào có sẵn ?
- Làm thế nào để chọn dữ liệu?
- Làm thế nào để thu thập dữ liệu?
- Làm thế nào để làm sạch dữ liệu?
- Làm thế nào để chuẩn bị dữ liệu?
- Làm thế nào để sử dụng dữ liệu?
Dữ liệu là gì?
Dữ liệu có thể là nhiều thứ.
Với Machine Learning, dữ liệu là tập hợp các sự kiện:
Kiểu | Ví dụ |
---|---|
số | Giá cả. Ngày. |
Đo | Kích cỡ. Chiều cao. Cân nặng. |
Từ | Tên và địa điểm. |
Quan sát | Đếm xe. |
Mô tả | Trời lạnh. |
Thông tin cần dữ liệu
Trí tuệ con người cần dữ liệu:
Một nhà môi giới bất động sản cần dữ liệu về những ngôi nhà đã bán để ước tính giá.
Trí tuệ nhân tạo cũng cần dữ liệu:
Chương trình Machine Learning cần dữ liệu để ước tính giá.
Dữ liệu có thể giúp chúng ta nhìn và hiểu.
Dữ liệu có thể giúp chúng ta tìm thấy những cơ hội mới.
Dữ liệu có thể giúp chúng ta giải quyết những hiểu lầm.
Chăm sóc sức khỏe
Khoa học chăm sóc sức khỏe và đời sống thu thập dữ liệu y tế công cộng và dữ liệu bệnh nhân để tìm hiểu cách cải thiện việc chăm sóc bệnh nhân và cứu sống.
Việc kinh doanh
Các công ty thành công nhất trong nhiều lĩnh vực đều dựa trên dữ liệu. Họ sử dụng các phân tích dữ liệu phức tạp để tìm hiểu cách công ty có thể hoạt động tốt hơn.
Tài chính
Các ngân hàng và công ty bảo hiểm thu thập và đánh giá dữ liệu về khách hàng, các khoản vay và tiền gửi để hỗ trợ việc ra quyết định chiến lược.
Lưu trữ dữ liệu
Dữ liệu phổ biến nhất cần thu thập là Số và Số đo.
Thông thường dữ liệu được lưu trữ trong mảng thể hiện mối quan hệ giữa các giá trị.
Bảng này chứa giá nhà so với kích thước:
Giá | 7 | số 8 | số 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
Kích cỡ | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Định lượng và định tính
Dữ liệu định lượng là số:
- 55 ô tô
- 15 mét
- 35 đứa trẻ
Dữ liệu định tính mang tính mô tả:
- Trời lạnh
- Nó dài
- Thật là vui
Điều tra dân số hoặc lấy mẫu
Điều tra dân số là khi chúng tôi thu thập dữ liệu về mọi thành viên trong một nhóm.
Mẫu là khi chúng tôi thu thập dữ liệu về một số thành viên của một nhóm.
Nếu muốn biết có bao nhiêu người Mỹ hút thuốc lá, chúng ta có thể hỏi từng người ở Mỹ (một cuộc điều tra dân số) hoặc có thể hỏi 10.000 người (một mẫu).
Điều tra dân số chính xác nhưng khó thực hiện. Một mẫu là Không chính xác , nhưng dễ thực hiện hơn.
Điều khoản lấy mẫu
Dân số là nhóm các cá nhân (đối tượng) mà chúng tôi muốn thu thập thông tin từ đó.
Điều tra dân số là thông tin về từng cá nhân trong một quần thể.
Mẫu là thông tin về một phần dân số (Để đại diện cho tất cả).
Mẫu ngẫu nhiên
Để một mẫu đại diện cho một quần thể, nó phải được thu thập ngẫu nhiên.
Mẫu ngẫu nhiên , là mẫu trong đó mọi thành viên trong tổng thể đều có cơ hội xuất hiện trong mẫu như nhau.
Xu hướng lấy mẫu
Xu hướng lấy mẫu (Lỗi) xảy ra khi các mẫu được thu thập theo cách mà một số cá nhân có ít (hoặc nhiều hơn) khả năng được đưa vào mẫu.
Dữ liệu lớn
Dữ liệu lớn là dữ liệu mà con người không thể xử lý được nếu không có sự hỗ trợ của máy móc tiên tiến.
Dữ liệu lớn không có bất kỳ định nghĩa nào về kích thước, nhưng các bộ dữ liệu ngày càng lớn hơn khi chúng ta liên tục thu thập ngày càng nhiều dữ liệu và lưu trữ dữ liệu với chi phí ngày càng thấp.
Khai thác dữ liệu
Với dữ liệu lớn có cấu trúc dữ liệu phức tạp.
Một phần quan trọng của việc xử lý dữ liệu lớn là tinh chỉnh dữ liệu.