Ma trận tương quan (Correlation Matrix) là một bảng (ma trận) hình vuông dùng để trình bày hệ số tương quan giữa tất cả các cặp biến số trong một bộ dữ liệu. Đây là công cụ cơ bản và thiết yếu trong phân tích thống kê và khoa học dữ liệu để nhanh chóng đánh giá các mối quan hệ tuyến tính.
1. Cấu trúc và Bản chất
- Bảng hình vuông: Ma trận có số hàng và số cột bằng nhau, mỗi hàng và cột đại diện cho một biến số (thuộc tính) trong tập dữ liệu.
- Giá trị ô: Mỗi ô trong ma trận hiển thị hệ số tương quan (r) giữa biến ở hàng đó và biến ở cột đó.
- Đường chéo chính: Các ô nằm trên đường chéo chính luôn có giá trị là 1 (hoặc 100%), vì chúng thể hiện mối tương quan của một biến với chính nó.
- Đối xứng: Ma trận là đối xứng (ví dụ: mối tương quan giữa Biến A và Biến B luôn bằng mối tương quan giữa Biến B và Biến A). Do đó, người ta thường chỉ cần hiển thị một nửa ma trận (phần tam giác trên hoặc dưới) để tiết kiệm không gian.
2. Ý nghĩa của Hệ số Tương quan (r)
Hệ số tương quan (r, thường là hệ số Pearson) có giá trị nằm trong khoảng từ −1 đến 1, cho biết cả hướng và độ mạnh của mối quan hệ tuyến tính:
| Giá trị r | Hướng Quan hệ | Độ mạnh | Ý nghĩa |
| r→1 | Dương (Thuận chiều) | Mạnh nhất | Khi một biến tăng, biến kia cũng tăng theo tỷ lệ gần như tuyệt đối. |
| r→−1 | Âm (Nghịch chiều) | Mạnh nhất | Khi một biến tăng, biến kia giảm theo tỷ lệ gần như tuyệt đối. |
| r≈0 | Không | Rất yếu | Hai biến không có mối quan hệ tuyến tính đáng kể. |
Quy tắc chung về Độ mạnh (theo giá trị tuyệt đối ∣r∣):
- ∣r∣≥0.5: Tương quan mạnh
- ∣r∣<0.3: Tương quan yếu
- 0.3≤∣r∣<0.5: Tương quan trung bình
3. Ứng dụng trong Phân tích Dữ liệu
Ma trận tương quan là một công cụ phân tích khám phá (Exploratory Data Analysis – EDA) quan trọng:
- Phát hiện mối quan hệ: Giúp nhanh chóng xác định các biến có mối quan hệ mạnh mẽ, có thể hữu ích trong việc xây dựng mô hình.
- Lựa chọn biến độc lập:
- Biến độc lập & Biến phụ thuộc: Tìm kiếm các biến độc lập có tương quan mạnh với biến phụ thuộc (mục tiêu) của bạn.
- Chẩn đoán Đa cộng tuyến (Multicollinearity): Kiểm tra xem các biến độc lập có tương quan quá mạnh với nhau hay không (∣r∣>0.7 hoặc 0.8 tùy tiêu chuẩn). Đa cộng tuyến có thể gây ra vấn đề lớn trong các mô hình hồi quy tuyến tính.
- Trực quan hóa (Heatmap): Ma trận tương quan thường được trực quan hóa bằng Biểu đồ nhiệt (Heatmap) . Màu sắc (đỏ/xanh) và cường độ màu giúp dễ dàng nhận biết các mối tương quan mạnh và hướng của chúng mà không cần đọc từng con số.