Cụm dữ liệu
- Các cụm là tập hợp các dữ liệu tương tự
- Phân cụm là một loại học tập không giám sát
- Hệ số tương quan mô tả sức mạnh của một mối quan hệ.
Cụm
Các cụm là tập hợp dữ liệu dựa trên sự giống nhau.
Các điểm dữ liệu được nhóm lại với nhau trong biểu đồ thường có thể được phân loại thành các cụm.
Trong biểu đồ bên dưới, chúng ta có thể phân biệt 3 cụm khác nhau:
Xác định cụm
Các cụm có thể chứa nhiều thông tin có giá trị, nhưng các cụm có đủ loại hình dạng, vậy làm thế nào chúng ta có thể nhận ra chúng?
Hai phương pháp chính là:
- Sử dụng trực quan
- Sử dụng thuật toán phân cụm
Phân cụm
Phân cụm là một loại Học tập không giám sát .
Phân cụm đang cố gắng:
- Thu thập dữ liệu tương tự trong nhóm
- Thu thập dữ liệu khác nhau trong các nhóm khác
Phương pháp phân cụm
- Phương pháp mật độ
- Phương pháp phân cấp
- Phương pháp phân vùng
- Phương pháp dựa trên lưới
Phương pháp mật độ coi các điểm trong vùng mật độ dày đặc có nhiều điểm tương đồng và khác biệt hơn so với các điểm trong vùng mật độ thấp hơn. Phương pháp mật độ có độ chính xác tốt. Nó cũng có khả năng hợp nhất các cụm.
Hai thuật toán phổ biến là DBSCAN và OPTICS.
Phương pháp phân cấp tạo thành các cụm theo cấu trúc kiểu cây. Các cụm mới được hình thành bằng cách sử dụng các cụm đã hình thành trước đó.
Hai thuật toán phổ biến là CURE và BIRCH.
Phương pháp dựa trên lưới sẽ xây dựng dữ liệu thành một số lượng ô hữu hạn tạo thành cấu trúc giống như lưới.
Hai thuật toán phổ biến là CLIQUE và STING
Phương pháp phân vùng chia các đối tượng thành k cụm và mỗi phân vùng tạo thành một cụm.
Một thuật toán phổ biến là CLARANS.
Hệ số tương quan
Hệ số tương quan (r) mô tả cường độ và hướng của mối quan hệ tuyến tính và các biến x/y trên biểu đồ phân tán.
Giá trị của r luôn nằm trong khoảng từ -1 đến +1:
-1,00 | Xuống dốc hoàn hảo | Mối quan hệ tuyến tính tiêu cực. |
-0,70 | Xuống dốc mạnh | Mối quan hệ tuyến tính tiêu cực. |
-0,50 | Xuống dốc vừa phải | Mối quan hệ tuyến tính tiêu cực. |
-0,30 | Xuống dốc yếu | Mối quan hệ tuyến tính tiêu cực. |
0 | Không có mối quan hệ tuyến tính. | |
+0,30 | Lên dốc yếu | Mối quan hệ tuyến tính tích cực. |
+0,50 | Lên dốc vừa phải | Mối quan hệ tuyến tính tích cực. |
+0,70 | Lên dốc mạnh mẽ | Mối quan hệ tuyến tính tích cực. |
+1,00 | Lên dốc hoàn hảo | Mối quan hệ tuyến tính tích cực. |
Lên dốc hoàn hảo +1,00 :
Xuống dốc hoàn hảo -1,00 :
Lên dốc mạnh +0,61 :
Không có mối quan hệ :