Supervised Learning

« Back to Glossary Index

Supervised learning (học có giám sát) là một trong những loại hình cơ bản của Machine Learning (Học máy). Nó được dùng để xây dựng một mô hình dự đoán từ một tập dữ liệu đã được gán nhãn (labeled data).

1. Khái niệm cơ bản

Supervised learning học cách ánh xạ một đầu vào (input) đến một đầu ra (output) dựa trên các cặp ví dụ đầu vào-đầu ra đã biết.

  • Tập dữ liệu đã gán nhãn (Labeled Data): Đây là thành phần cốt lõi. Mỗi điểm dữ liệu (đầu vào) đi kèm với một nhãn (label) hoặc giá trị đầu ra đúng mà mô hình cần học cách dự đoán.
    • Ví dụ: Nếu đang xây dựng mô hình phân loại hình ảnh mèo và chó, tập dữ liệu sẽ bao gồm các hình ảnh (đầu vào) và nhãn kèm theo (“Mèo” hoặc “Chó” – đầu ra đúng).
  • Quá trình học: Mô hình được “giáo viên” (các nhãn) hướng dẫn. Nó điều chỉnh các tham số của mình để giảm thiểu sự khác biệt giữa đầu ra nó dự đoán và đầu ra đúng (nhãn) được cung cấp trong dữ liệu huấn luyện.

2. Các loại bài toán chính

Supervised learning chủ yếu được sử dụng để giải quyết hai loại bài toán:

Phân loại (Classification)

Mục tiêu là dự đoán một nhãn rời rạc (discrete label) hoặc danh mục (category).

  • Ví dụ:
    • Xác định một email là spam hay không spam.
    • Phân loại một giao dịch thẻ tín dụng là gian lận hay hợp lệ.
    • Nhận dạng đối tượng trong ảnh (ví dụ: ô tô, người, cây).

Hồi quy (Regression)

Mục tiêu là dự đoán một giá trị liên tục (continuous value) hoặc số thực.

  • Ví dụ:
    • Dự đoán giá nhà dựa trên diện tích, số phòng, vị trí.
    • Dự đoán nhiệt độ ngày mai.
    • Ước tính doanh số bán hàng của một sản phẩm.

3. Các thuật toán phổ biến

Một số thuật toán Supervised learning nổi tiếng bao gồm:

  • Linear Regression (Hồi quy tuyến tính)
  • Logistic Regression (Hồi quy Logistic)
  • Support Vector Machines (SVM) (Máy vector hỗ trợ)
  • Decision Trees (Cây quyết định)
  • Random Forests (Rừng ngẫu nhiên)
  • k-Nearest Neighbors (k-NN) (k láng giềng gần nhất)
  • Neural Networks / Deep Learning (Mạng nơ-ron / Học sâu)

4. Ưu điểm và Nhược điểm

Đặc điểmƯu điểm (Pros)Nhược điểm (Cons)
Ưu điểmĐơn giản, dễ hiểu và triển khai.Đòi hỏi một lượng lớn dữ liệu đã gán nhãn, việc này tốn kém và mất thời gian.
Chất lượngDự đoán có độ chính xác cao khi được huấn luyện tốt.Hiệu suất bị giới hạn bởi chất lượng và số lượng của nhãn dữ liệu.
Ứng dụngGiải quyết nhiều bài toán thương mại phổ biến (ví dụ: dự báo thời tiết, phân tích rủi ro tín dụng).Có thể bị overfitting (quá khớp) nếu dữ liệu huấn luyện không đa dạng.
« Back to Glossary Index
Scroll to Top