Histogram là một loại biểu đồ cột (bar chart) được sử dụng trong thống kê để trực quan hóa sự phân phối tần suất của một tập dữ liệu liên tục (quantitative continuous data).
Nó cho thấy tần suất (tức là số lần xuất hiện) của các giá trị dữ liệu nằm trong các khoảng giá trị đã được xác định trước.
Cấu Tạo và Cách Hoạt Động
Khác với biểu đồ cột thông thường (thường biểu diễn dữ liệu rời rạc hoặc phân loại), Histogram có các đặc điểm riêng:
- Trục Hoành (Trục X – Axis): Biểu thị các khoảng giá trị liên tục của dữ liệu, được gọi là bins (hoặc lớp dữ liệu). Ví dụ: khoảng tuổi từ 20-30, 30-40, v.v. Các cột trong Histogram phải liền kề nhau (không có khoảng trống) để thể hiện tính liên tục của dữ liệu.
- Trục Tung (Trục Y – Axis): Biểu thị tần suất (Frequency), tức là số lượng quan sát (điểm dữ liệu) rơi vào mỗi khoảng giá trị (bin) tương ứng. Chiều cao của cột chính là tần suất này.
- Bins (Khoảng giá trị): Là các khoảng mà dữ liệu được nhóm lại. Việc lựa chọn độ rộng của bin (bin width) là rất quan trọng, vì nó ảnh hưởng đến hình dạng của biểu đồ và cách dữ liệu được diễn giải.
Ý Nghĩa và Phân Tích
Mục đích chính của Histogram là giúp người xem nhanh chóng nắm bắt được hình dạng (shape), sự tập trung (central tendency) và độ phân tán (spread/variability) của dữ liệu.
| Hình Dạng Biểu Đồ | Mô Tả và Ý Nghĩa |
| Phân phối Chuẩn (Normal/Bell-shaped) | Dữ liệu đối xứng, tập trung cao nhất ở giữa (giá trị trung bình), giảm dần về hai phía. Đây là dạng phân phối lý tưởng. |
| Lệch Phải (Right-skewed/Positive Skew) | Phần lớn dữ liệu tập trung ở bên trái, đuôi dài kéo sang bên phải. Thường xảy ra với dữ liệu như thu nhập, thời gian chờ. |
| Lệch Trái (Left-skewed/Negative Skew) | Phần lớn dữ liệu tập trung ở bên phải, đuôi dài kéo sang bên trái. Thường xảy ra với dữ liệu như điểm thi khó, tuổi thọ. |
| Hai Đỉnh (Bimodal) | Biểu đồ có hai đỉnh riêng biệt. Thường cho thấy tập dữ liệu thực chất là sự kết hợp của hai nhóm dữ liệu khác nhau (ví dụ: chiều cao của nam và nữ được gộp chung). |
| Giá trị Ngoại Lai (Outliers) | Xuất hiện các cột nhỏ, cô lập, nằm rất xa các cột chính. Cho thấy có những điểm dữ liệu rất khác biệt so với phần còn lại. |
Ứng Dụng Phổ Biến
- Thống kê và Phân tích Dữ liệu (Data Analysis):
- Giúp nhà phân tích dữ liệu nhanh chóng kiểm tra giả định về phân phối dữ liệu trước khi áp dụng các mô hình thống kê phức tạp.
- Phát hiện các vấn đề như dữ liệu bị lệch (skewness), đa đỉnh (multimodality), hoặc sự hiện diện của giá trị ngoại lai.
- Quản lý Chất lượng (Quality Control):
- Là một trong 7 công cụ cơ bản của chất lượng (7 Basic Quality Tools).
- Được dùng để kiểm tra xem sản phẩm hoặc quy trình có đáp ứng các giới hạn kỹ thuật (Specification Limits) đã đặt ra hay không.
- Nhiếp ảnh và Chỉnh sửa Ảnh:
- Biểu đồ Histogram trong máy ảnh hoặc phần mềm chỉnh sửa ảnh biểu thị sự phân phối của độ sáng (luminance) và màu sắc (RGB) của các pixel trong ảnh.
- Giúp nhiếp ảnh gia kiểm tra xem ảnh có bị thiếu sáng (under-exposed – dồn về bên trái) hay cháy sáng (over-exposed – dồn về bên phải) hay không, từ đó điều chỉnh độ phơi sáng cho phù hợp.