Unsupervised Learning

« Back to Glossary Index

Unsupervised learning (Học không giám sát) là một nhánh của Machine Learning (Học máy), nơi mô hình được huấn luyện bằng cách sử dụng dữ liệu không có nhãn (unlabeled data). Mục tiêu của nó là khám phá các mẫu ẩn (hidden patterns), cấu trúc hoặc mối quan hệ tiềm ẩn trong tập dữ liệu.

1. Khái niệm và Nguyên lý hoạt động

Unsupervised learning hoạt động mà không có “giáo viên” (nhãn đầu ra đúng) hướng dẫn. Mô hình tự động phân tích dữ liệu, tự tìm cách tổ chức hoặc mô tả dữ liệu đó.

  • Dữ liệu đầu vào: Chỉ có các đặc trưng đầu vào (X), không có biến đầu ra (Y) tương ứng.
  • Mục tiêu: Hiểu rõ hơn về cấu trúc bên trong của dữ liệu.
  • Ứng dụng: Rất hữu ích khi ta có lượng lớn dữ liệu thô (chưa được gán nhãn) và muốn khám phá những điều chưa biết về nó.

2. Các loại bài toán chính

Unsupervised learning chủ yếu được sử dụng để giải quyết ba loại bài toán sau:

Phân cụm (Clustering)

Mục tiêu là gom nhóm các điểm dữ liệu tương tự nhau vào cùng một cụm (cluster) mà không cần biết trước số lượng hay đặc điểm của các cụm đó.

  • Ví dụ:
    • Phân khúc khách hàng: Gom nhóm khách hàng dựa trên hành vi mua hàng, sở thích, hoặc đặc điểm nhân khẩu học.
    • Phân nhóm tài liệu: Gom các bài báo có cùng chủ đề lại với nhau.

Giảm chiều dữ liệu (Dimensionality Reduction)

Mục tiêu là giảm số lượng biến (chiều) của dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng. Điều này giúp tăng tốc độ tính toán, giảm nhiễu, và trực quan hóa dữ liệu tốt hơn.

  • Ví dụ:
    • Tóm tắt dữ liệu: Giảm 100 đặc trưng ban đầu xuống còn 5-10 đặc trưng chính.
    • Trực quan hóa: Giảm dữ liệu nhiều chiều xuống 2D hoặc 3D để dễ dàng vẽ đồ thị.

Khai thác luật kết hợp (Association Rule Mining)

Mục tiêu là tìm ra các quy tắc hay mối quan hệ giữa các biến trong tập dữ liệu lớn, thường dùng trong phân tích giỏ hàng.

  • Ví dụ:
    • Phát hiện ra rằng, những khách hàng mua Bánh mì thường mua kèm Trứng.
  • Query successful

Try again without apps

Unsupervised learning (Học không giám sát) là một nhánh của Machine Learning (Học máy), nơi mô hình được huấn luyện bằng cách sử dụng dữ liệu không có nhãn (unlabeled data). Mục tiêu của nó là khám phá các mẫu ẩn (hidden patterns), cấu trúc hoặc mối quan hệ tiềm ẩn trong tập dữ liệu.


1. Khái niệm và Nguyên lý hoạt động

Unsupervised learning hoạt động mà không có “giáo viên” (nhãn đầu ra đúng) hướng dẫn. Mô hình tự động phân tích dữ liệu, tự tìm cách tổ chức hoặc mô tả dữ liệu đó.

  • Dữ liệu đầu vào: Chỉ có các đặc trưng đầu vào (X), không có biến đầu ra (Y) tương ứng.
  • Mục tiêu: Hiểu rõ hơn về cấu trúc bên trong của dữ liệu.
  • Ứng dụng: Rất hữu ích khi ta có lượng lớn dữ liệu thô (chưa được gán nhãn) và muốn khám phá những điều chưa biết về nó.

2. Các loại bài toán chính

Unsupervised learning chủ yếu được sử dụng để giải quyết ba loại bài toán sau:

Phân cụm (Clustering)

Mục tiêu là gom nhóm các điểm dữ liệu tương tự nhau vào cùng một cụm (cluster) mà không cần biết trước số lượng hay đặc điểm của các cụm đó.

  • Ví dụ:
    • Phân khúc khách hàng: Gom nhóm khách hàng dựa trên hành vi mua hàng, sở thích, hoặc đặc điểm nhân khẩu học.
    • Phân nhóm tài liệu: Gom các bài báo có cùng chủ đề lại với nhau.

Giảm chiều dữ liệu (Dimensionality Reduction)

Mục tiêu là giảm số lượng biến (chiều) của dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng. Điều này giúp tăng tốc độ tính toán, giảm nhiễu, và trực quan hóa dữ liệu tốt hơn.

  • Ví dụ:
    • Tóm tắt dữ liệu: Giảm 100 đặc trưng ban đầu xuống còn 5-10 đặc trưng chính.
    • Trực quan hóa: Giảm dữ liệu nhiều chiều xuống 2D hoặc 3D để dễ dàng vẽ đồ thị.

Khai thác luật kết hợp (Association Rule Mining)

Mục tiêu là tìm ra các quy tắc hay mối quan hệ giữa các biến trong tập dữ liệu lớn, thường dùng trong phân tích giỏ hàng.

  • Ví dụ:
    • Phát hiện ra rằng, những khách hàng mua Bánh mì thường mua kèm Trứng.

3. Các thuật toán phổ biến

Loại bài toánThuật toán phổ biếnỨng dụng tiêu biểu
Phân cụm (Clustering)K-Means, Hierarchical Clustering (HCA), DBSCANPhân khúc thị trường, phân nhóm hình ảnh.
Giảm chiều dữ liệu (Dimensionality Reduction)Principal Component Analysis (PCA), t-SNETiền xử lý dữ liệu, nén dữ liệu, trực quan hóa.
Khai thác luật kết hợp (Association)Apriori, EclatPhân tích giỏ hàng, hệ thống gợi ý sản phẩm.

4. So sánh với Supervised Learning

Tiêu chíUnsupervised LearningSupervised Learning
Dữ liệu đầu vàoKhông có nhãn (chỉ có X)Có nhãn (có cặp X và Y rõ ràng)
Mục tiêuKhám phá cấu trúc, mẫu ẩn trong dữ liệu.Dự đoán đầu ra (Y) cho đầu vào mới (X).
Vai tròPhân tích và khám phá dữ liệu (Descriptive Task).Dự đoán và phân loại (Predictive Task).
Chi phíThường ít tốn kém hơn vì không cần gán nhãn dữ liệu.Tốn kém và mất thời gian cho công đoạn gán nhãn.
Ví dụPhân cụm khách hàng.Dự đoán giá nhà, phân loại email spam.
« Back to Glossary Index
Scroll to Top