Unsupervised Learning

« Back to Glossary Index

Unsupervised learning (Học không giám sát) là một nhánh của Machine Learning (Học máy), nơi mô hình được huấn luyện bằng cách sử dụng dữ liệu không có nhãn (unlabeled data). Mục tiêu của nó là khám phá các mẫu ẩn (hidden patterns), cấu trúc hoặc mối quan hệ tiềm ẩn trong tập dữ liệu.

1. Khái niệm và Nguyên lý hoạt động

Unsupervised learning hoạt động mà không có “giáo viên” (nhãn đầu ra đúng) hướng dẫn. Mô hình tự động phân tích dữ liệu, tự tìm cách tổ chức hoặc mô tả dữ liệu đó.

Dữ liệu đầu vào: Chỉ có các đặc trưng đầu vào (X), không có biến đầu ra (Y) tương ứng.
Mục tiêu: Hiểu rõ hơn về cấu trúc bên trong của dữ liệu.
Ứng dụng: Rất hữu ích khi ta có lượng lớn dữ liệu thô (chưa được gán nhãn) và muốn khám phá những điều chưa biết về nó.

2. Các loại bài toán chính

Unsupervised learning chủ yếu được sử dụng để giải quyết ba loại bài toán sau:

Phân cụm (Clustering)

Mục tiêu là gom nhóm các điểm dữ liệu tương tự nhau vào cùng một cụm (cluster) mà không cần biết trước số lượng hay đặc điểm của các cụm đó.

Ví dụ:
- Phân khúc khách hàng: Gom nhóm khách hàng dựa trên hành vi mua hàng, sở thích, hoặc đặc điểm nhân khẩu học.
- Phân nhóm tài liệu: Gom các bài báo có cùng chủ đề lại với nhau.

Giảm chiều dữ liệu (Dimensionality Reduction)

Mục tiêu là giảm số lượng biến (chiều) của dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng. Điều này giúp tăng tốc độ tính toán, giảm nhiễu, và trực quan hóa dữ liệu tốt hơn.

Ví dụ:
- Tóm tắt dữ liệu: Giảm 100 đặc trưng ban đầu xuống còn 5-10 đặc trưng chính.
- Trực quan hóa: Giảm dữ liệu nhiều chiều xuống 2D hoặc 3D để dễ dàng vẽ đồ thị.

Khai thác luật kết hợp (Association Rule Mining)

Mục tiêu là tìm ra các quy tắc hay mối quan hệ giữa các biến trong tập dữ liệu lớn, thường dùng trong phân tích giỏ hàng.

Ví dụ:
- Phát hiện ra rằng, những khách hàng mua Bánh mì thường mua kèm Bơ và Trứng.

Query successful

Try again without apps