Các bộ benchmark LLM phổ biến

LLM Evaluation

Table of Contents

Mở đầu

Benchmarks là các bộ kiểm tra tiêu chuẩn hóa được thiết kế để đánh giá các khả năng cụ thể của LLM. Chúng bao gồm các tập dữ liệu và các tác vụ được xác định rõ ràng, cùng với các chỉ số đo lường (metrics) để định lượng hiệu suất. Việc hiểu rõ các benchmark phổ biến giúp diễn giải kết quả từ các bảng xếp hạng và đánh giá sâu hơn về điểm mạnh, điểm yếu của từng mô hình.

Các nhóm benchmark

Nhóm benchmark về hiểu biết chung và ngôn ngữ

  • MMLU (Massive Multitask Language Understanding): Một trong những benchmark toàn diện nhất, bao gồm các câu hỏi trắc nghiệm trên 57 chủ đề khác nhau, từ STEM (khoa học, công nghệ, kỹ thuật, toán học) đến nhân văn và khoa học xã hội. MMLU kiểm tra kiến thức rộng và khả năng hiểu ngôn ngữ ở nhiều cấp độ khó khác nhau.
  • HellaSwag: Đánh giá khả năng suy luận thông thường (commonsense reasoning) của LLM bằng cách yêu cầu mô hình chọn ra phần kết hợp lý nhất cho một tình huống đã cho, từ bốn lựa chọn.
  • ARC (AI2 Reasoning Challenge): Bao gồm các câu hỏi khoa học ở cấp độ phổ thông, kiểm tra khả năng suy luận và kiến thức khoa học cơ bản.
  • Winogrande: Đánh giá khả năng suy luận thông thường thông qua các tác vụ giải quyết sự mơ hồ của đại từ trong các cặp câu gần giống nhau (Winograd schema).
  • TruthfulQA: Được thiết kế để đo lường tính trung thực của LLM, tức là khả năng tránh tạo ra các câu trả lời sai lệch hoặc gây hiểu lầm, đặc biệt đối với các câu hỏi mà con người thường có niềm tin sai lầm.
  • SuperGLUE: Một bộ benchmark khó hơn GLUE, bao gồm một tập hợp các tác vụ hiểu ngôn ngữ tự nhiên nâng cao, đòi hỏi khả năng suy luận phức tạp hơn.
  • DROP, FRAMES: Các benchmark được Credo AI đề cập, tập trung vào kiến thức và khả năng suy luận.

Nhóm benchmark về lập luận và toán học

  • GSM8K (Grade School Math 8K): Bao gồm hàng ngàn bài toán đố bằng lời ở cấp tiểu học, yêu cầu LLM thực hiện nhiều bước suy luận toán học để đi đến đáp án đúng.
  • MATH (ví dụ MATH-500): Tập hợp các bài toán khó hơn, thường ở cấp độ các kỳ thi toán học, đòi hỏi khả năng suy luận toán học sâu sắc.
  • GPQA (Graduate-Level Google-Proof Q&A): Đánh giá khả năng suy luận ở cấp độ sau đại học, với các câu hỏi được thiết kế sao cho khó có thể tìm thấy câu trả lời trực tiếp trên Google.
  • AIME (American Invitational Mathematics Examination): Một benchmark dựa trên kỳ thi toán học uy tín, đánh giá khả năng giải quyết các vấn đề toán học phức tạp.
  • CRASS (Counterfactual Reasoning Assessment): Đánh giá khả năng suy luận phản thực tế của LLM.
  • Big-Bench Hard (BBH): Một tập hợp con gồm 23 tác vụ được coi là đặc biệt thách thức từ bộ BIG-Bench lớn hơn, tập trung vào các khả năng suy luận mà các LLM trước đây gặp khó khăn.

Nhóm benchmark về lập trình

  • HumanEval: Bao gồm 164 bài toán lập trình độc đáo, được thiết kế để đánh giá khả năng tạo sinh mã nguồn (code generation) của LLM, đặc biệt là về tính đúng đắn chức năng của mã được tạo ra.
  • CodeXGLUE: Một bộ benchmark đa dạng với 14 bộ dữ liệu và 10 tác vụ khác nhau liên quan đến mã nguồn, bao gồm hoàn thành mã, dịch mã giữa các ngôn ngữ, tóm tắt mã, và tìm kiếm mã.
  • SWE-Bench: Đánh giá khả năng giải quyết các vấn đề kỹ thuật phần mềm trong thế giới thực, dựa trên 2294 vấn đề được lấy từ các pull request trên GitHub.
  • LiveCodeBench, Chatbot Arena Coding: Các benchmark khác được Credo AI đề cập cho việc đánh giá khả năng lập trình.

Nhóm benchmark về khả năng hội thoại và làm theo chỉ dẫn

  • MT-Bench: Đánh giá chất lượng của các trợ lý chat thông qua các câu hỏi mở, đa lượt. Điểm đặc biệt là MT-Bench sử dụng một LLM mạnh khác (thường là GPT-4) làm giám khảo để chấm điểm các câu trả lời.
  • IFEval (Instruction Following Eval): Đánh giá mức độ tuân thủ chính xác các chỉ dẫn phức tạp và có thể kiểm chứng được của LLM.
  • AlpacaEval: Sử dụng một hệ thống đánh giá tự động dựa trên bộ dữ liệu AlpacaFarm để đo lường hiệu suất trong các tác vụ tuân theo chỉ dẫn và hiểu ngôn ngữ.

Tổng kết

Sự chuyên môn hóa của các benchmark là một xu hướng rõ rệt. Tương tự như sự phát triển của các LLM chuyên biệt cho từng lĩnh vực, các benchmark cũng ngày càng được thiết kế để đo lường sâu hơn các năng lực cụ thể như lập trình, giải toán, hay hiệu quả của hệ thống RAG. Điều này cho phép các nhà nghiên cứu và phát triển có được những đánh giá chi tiết và chính xác hơn về điểm mạnh, điểm yếu của mô hình. 

Bên cạnh đó, việc hiểu rõ mục tiêu của từng benchmark giúp người đọc diễn giải chính xác hơn các điểm số và thứ hạng được công bố trên các bảng xếp hạng, đồng thời hỗ trợ các nhà nghiên cứu và nhà phát triển trong việc lựa chọn những công cụ đánh giá phù hợp nhất với mục đích và loại hình LLM mà họ đang làm việc.

Tài liệu tham khảo

Leave a Comment

Your email address will not be published. Required fields are marked *

Share this article
About Author

Related Posts

Scroll to Top