Unsupervised learning (Học không giám sát) là một nhánh của Machine Learning (Học máy), nơi mô hình được huấn luyện bằng cách sử dụng dữ liệu không có nhãn (unlabeled data). Mục tiêu của nó là khám phá các mẫu ẩn (hidden patterns), cấu trúc hoặc mối quan hệ tiềm ẩn trong tập dữ liệu.
1. Khái niệm và Nguyên lý hoạt động
Unsupervised learning hoạt động mà không có “giáo viên” (nhãn đầu ra đúng) hướng dẫn. Mô hình tự động phân tích dữ liệu, tự tìm cách tổ chức hoặc mô tả dữ liệu đó.
- Dữ liệu đầu vào: Chỉ có các đặc trưng đầu vào (X), không có biến đầu ra (Y) tương ứng.
- Mục tiêu: Hiểu rõ hơn về cấu trúc bên trong của dữ liệu.
- Ứng dụng: Rất hữu ích khi ta có lượng lớn dữ liệu thô (chưa được gán nhãn) và muốn khám phá những điều chưa biết về nó.
2. Các loại bài toán chính
Unsupervised learning chủ yếu được sử dụng để giải quyết ba loại bài toán sau:
Phân cụm (Clustering)
Mục tiêu là gom nhóm các điểm dữ liệu tương tự nhau vào cùng một cụm (cluster) mà không cần biết trước số lượng hay đặc điểm của các cụm đó.
- Ví dụ:
- Phân khúc khách hàng: Gom nhóm khách hàng dựa trên hành vi mua hàng, sở thích, hoặc đặc điểm nhân khẩu học.
- Phân nhóm tài liệu: Gom các bài báo có cùng chủ đề lại với nhau.
Giảm chiều dữ liệu (Dimensionality Reduction)
Mục tiêu là giảm số lượng biến (chiều) của dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng. Điều này giúp tăng tốc độ tính toán, giảm nhiễu, và trực quan hóa dữ liệu tốt hơn.
- Ví dụ:
- Tóm tắt dữ liệu: Giảm 100 đặc trưng ban đầu xuống còn 5-10 đặc trưng chính.
- Trực quan hóa: Giảm dữ liệu nhiều chiều xuống 2D hoặc 3D để dễ dàng vẽ đồ thị.
Khai thác luật kết hợp (Association Rule Mining)
Mục tiêu là tìm ra các quy tắc hay mối quan hệ giữa các biến trong tập dữ liệu lớn, thường dùng trong phân tích giỏ hàng.
- Ví dụ:
- Phát hiện ra rằng, những khách hàng mua Bánh mì thường mua kèm Bơ và Trứng.
- Query successful
Try again without apps
Unsupervised learning (Học không giám sát) là một nhánh của Machine Learning (Học máy), nơi mô hình được huấn luyện bằng cách sử dụng dữ liệu không có nhãn (unlabeled data). Mục tiêu của nó là khám phá các mẫu ẩn (hidden patterns), cấu trúc hoặc mối quan hệ tiềm ẩn trong tập dữ liệu.
1. Khái niệm và Nguyên lý hoạt động
Unsupervised learning hoạt động mà không có “giáo viên” (nhãn đầu ra đúng) hướng dẫn. Mô hình tự động phân tích dữ liệu, tự tìm cách tổ chức hoặc mô tả dữ liệu đó.
- Dữ liệu đầu vào: Chỉ có các đặc trưng đầu vào (X), không có biến đầu ra (Y) tương ứng.
- Mục tiêu: Hiểu rõ hơn về cấu trúc bên trong của dữ liệu.
- Ứng dụng: Rất hữu ích khi ta có lượng lớn dữ liệu thô (chưa được gán nhãn) và muốn khám phá những điều chưa biết về nó.
2. Các loại bài toán chính
Unsupervised learning chủ yếu được sử dụng để giải quyết ba loại bài toán sau:
Phân cụm (Clustering)
Mục tiêu là gom nhóm các điểm dữ liệu tương tự nhau vào cùng một cụm (cluster) mà không cần biết trước số lượng hay đặc điểm của các cụm đó.
- Ví dụ:
- Phân khúc khách hàng: Gom nhóm khách hàng dựa trên hành vi mua hàng, sở thích, hoặc đặc điểm nhân khẩu học.
- Phân nhóm tài liệu: Gom các bài báo có cùng chủ đề lại với nhau.
Giảm chiều dữ liệu (Dimensionality Reduction)
Mục tiêu là giảm số lượng biến (chiều) của dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng. Điều này giúp tăng tốc độ tính toán, giảm nhiễu, và trực quan hóa dữ liệu tốt hơn.
- Ví dụ:
- Tóm tắt dữ liệu: Giảm 100 đặc trưng ban đầu xuống còn 5-10 đặc trưng chính.
- Trực quan hóa: Giảm dữ liệu nhiều chiều xuống 2D hoặc 3D để dễ dàng vẽ đồ thị.
Khai thác luật kết hợp (Association Rule Mining)
Mục tiêu là tìm ra các quy tắc hay mối quan hệ giữa các biến trong tập dữ liệu lớn, thường dùng trong phân tích giỏ hàng.
- Ví dụ:
- Phát hiện ra rằng, những khách hàng mua Bánh mì thường mua kèm Bơ và Trứng.
3. Các thuật toán phổ biến
| Loại bài toán | Thuật toán phổ biến | Ứng dụng tiêu biểu |
| Phân cụm (Clustering) | K-Means, Hierarchical Clustering (HCA), DBSCAN | Phân khúc thị trường, phân nhóm hình ảnh. |
| Giảm chiều dữ liệu (Dimensionality Reduction) | Principal Component Analysis (PCA), t-SNE | Tiền xử lý dữ liệu, nén dữ liệu, trực quan hóa. |
| Khai thác luật kết hợp (Association) | Apriori, Eclat | Phân tích giỏ hàng, hệ thống gợi ý sản phẩm. |
4. So sánh với Supervised Learning
| Tiêu chí | Unsupervised Learning | Supervised Learning |
| Dữ liệu đầu vào | Không có nhãn (chỉ có X) | Có nhãn (có cặp X và Y rõ ràng) |
| Mục tiêu | Khám phá cấu trúc, mẫu ẩn trong dữ liệu. | Dự đoán đầu ra (Y) cho đầu vào mới (X). |
| Vai trò | Phân tích và khám phá dữ liệu (Descriptive Task). | Dự đoán và phân loại (Predictive Task). |
| Chi phí | Thường ít tốn kém hơn vì không cần gán nhãn dữ liệu. | Tốn kém và mất thời gian cho công đoạn gán nhãn. |
| Ví dụ | Phân cụm khách hàng. | Dự đoán giá nhà, phân loại email spam. |