Phân loại các mô hình Ngôn ngữ Lớn (LLM) hiện nay

Giới thiệu

Sự phát triển nhanh chóng của các mô hình Ngôn ngữ Lớn (Large Language Model – LLM) đã tạo ra một hệ sinh thái đa dạng và phức tạp. Để có thể hiểu rõ hơn về đặc điểm, khả năng và các trường hợp sử dụng phù hợp của từng loại LLM, việc phân loại chúng một cách có hệ thống là vô cùng quan trọng. Hiện nay, có nhiều cách tiếp cận khác nhau để phân loại LLM, dựa trên các tiêu chí như kiến trúc mô hình, tính sẵn có, mức độ chuyên biệt hóa theo miền kiến thức, hoặc phương pháp huấn luyện và tinh chỉnh. Việc nắm bắt các phương pháp phân loại này sẽ giúp người dùng và nhà phát triển đưa ra lựa chọn sáng suốt khi ứng dụng LLM vào thực tiễn.

Phân loại dựa trên Kiến trúc (Architecture-based)

Kiến trúc là yếu tố nền tảng quyết định cách LLM xử lý thông tin và tạo ra ngôn ngữ, từ đó ảnh hưởng trực tiếp đến các loại tác vụ mà chúng có thể thực hiện hiệu quả. Ba loại kiến trúc chính thường được đề cập bao gồm:

1. Mô hình Tự hồi quy (Autoregressive Models)

Các mô hình tự hồi quy hoạt động bằng cách dự đoán token tiếp theo trong một chuỗi dựa trên tất cả các token đã xuất hiện trước đó. Quá trình tạo văn bản diễn ra tuần tự, token này nối tiếp token kia.

Đặc điểm: Chúng sử dụng một phân phối xác suất để lựa chọn token có khả năng xuất hiện cao nhất ở mỗi bước.
Thế mạnh: Loại mô hình này nổi trội trong việc tạo ra văn bản trôi chảy, mạch lạc và phù hợp với ngữ cảnh đã cho. Chúng rất hiệu quả cho các tác vụ như viết tiếp câu chuyện, tạo nội dung sáng tạo, hoặc trả lời câu hỏi một cách tự nhiên.
Hạn chế: Do phương pháp dự đoán tuần tự từ trái sang phải, các mô hình tự hồi quy đôi khi có thể gặp khó khăn trong việc duy trì sự nhất quán và mạch lạc trong các văn bản rất dài. Sự tập trung vào ngữ cảnh cục bộ có thể làm suy yếu khả năng nắm bắt các phụ thuộc ngữ nghĩa ở phạm vi toàn văn bản.
Ví dụ: Dòng mô hình GPT (Generative Pre-trained Transformer) của OpenAI là một ví dụ điển hình của kiến trúc tự hồi quy.

2. Mô hình Tự mã hóa (Autoencoding Models)

Khác với mô hình tự hồi quy, các mô hình tự mã hóa được thiết kế để hiểu sâu sắc ngữ cảnh của các từ trong một câu bằng cách dự đoán các token bị che đi (masked tokens) dựa trên các token xung quanh (cả bên trái và bên phải).

Đặc điểm: Chúng được huấn luyện bằng cách che đi một phần các token trong chuỗi đầu vào và yêu cầu mô hình tái tạo lại các token đó.
Thế mạnh: Các mô hình này đặc biệt mạnh mẽ trong các tác vụ đòi hỏi sự hiểu biết sâu sắc về ngữ cảnh và ngữ nghĩa của toàn bộ câu hoặc đoạn văn. Chúng thường được sử dụng cho phân tích tình cảm (sentimental analysis), trả lời câu hỏi (đặc biệt là các câu hỏi yêu cầu trích xuất thông tin từ văn bản), nhận dạng thực thể có tên (Named Entity Recognition – NER), và các tác vụ hiểu ngôn ngữ khác.
Ví dụ: BERT (Bidirectional Encoder Representations from Transformers) của Google là một ví dụ tiêu biểu cho loại mô hình này.

3. Mô hình Sequence-to-Sequence (Seq2Seq Models):

Mô hình Sequence-to-Sequence (Chuỗi sang Chuỗi) được thiết kế cho các tác vụ mà cả đầu vào và đầu ra đều là các chuỗi văn bản, có thể có độ dài khác nhau.

Đặc điểm: Chúng thường bao gồm hai thành phần chính: một bộ mã hóa (encoder) xử lý và nén thông tin từ chuỗi đầu vào thành một biểu diễn vector ngữ cảnh, và một bộ giải mã (decoder) sử dụng vector ngữ cảnh đó để tạo ra chuỗi đầu ra.
Thế mạnh: Kiến trúc này rất hiệu quả trong việc chuyển đổi một loại văn bản này sang một loại văn bản khác. Các ứng dụng phổ biến bao gồm dịch máy (machine translation), tóm tắt văn bản (text summarization), và các tác vụ tạo sinh văn bản có điều kiện khác.
Ví dụ: Mô hình T5 (Text-To-Text Transfer Transformer) của Google, với cách tiếp cận coi mọi tác vụ NLP là một bài toán “văn bản sang văn bản”, là một đại diện nổi bật của kiến trúc Seq2Seq.

Mặc dù kiến trúc Transformer là nền tảng chung, sự khác biệt trong cách các thành phần encoder và decoder được sử dụng hoặc kết hợp (ví dụ, chỉ encoder cho BERT, chỉ decoder cho GPT, cả encoder và decoder cho T5) dẫn đến sự chuyên biệt hóa cho từng nhóm tác vụ. Các mô hình tự hồi quy thường xuất sắc trong việc tạo sinh văn bản một cách tự do, trong khi các mô hình tự mã hóa lại vượt trội trong việc hiểu sâu sắc ngữ nghĩa của văn bản đã có. Mô hình Seq2Seq cung cấp một khung làm việc tổng quát cho các bài toán chuyển đổi giữa các chuỗi.

Gần đây, một xu hướng kiến trúc quan trọng khác đang nổi lên là Mixture of Experts (MoE). Các mô hình như DBRX của Databricks và Snowflake Arctic sử dụng kiến trúc MoE. Trong kiến trúc này, mô hình bao gồm nhiều “chuyên gia” (experts) – là các mạng nơ-ron nhỏ hơn – và một “cổng” (gating network) quyết định chuyên gia nào sẽ được kích hoạt để xử lý một phần đầu vào cụ thể. Điều này cho phép tăng tổng số lượng tham số của mô hình lên rất lớn (ví dụ, DBRX có 132 tỷ tham số tổng cộng) trong khi chỉ kích hoạt một phần nhỏ các tham số đó cho mỗi đầu vào (DBRX chỉ kích hoạt 36 tỷ tham số). Cách tiếp cận này nhằm mục đích cân bằng giữa việc nâng cao hiệu năng của mô hình (thông qua việc tăng tổng số tham số) và việc kiểm soát chi phí tính toán cũng như thời gian huấn luyện và suy luận. Đây được xem là một hướng đi quan trọng để tiếp tục mở rộng quy mô LLM một cách hiệu quả hơn trong tương lai.

Phân loại dựa trên Tính sẵn có (Availability-based)

Tính sẵn có của một LLM, bao gồm quyền truy cập vào mã nguồn, trọng số mô hình và dữ liệu huấn luyện, là một tiêu chí phân loại quan trọng, ảnh hưởng lớn đến cách người dùng và tổ chức có thể tiếp cận, tùy chỉnh và triển khai chúng.

1. Mô hình Mã nguồn mở (Open-Source Models)

Các mô hình mã nguồn mở được đặc trưng bởi việc công khai mã nguồn, và thường là cả trọng số mô hình đã được huấn luyện trước. Điều này cho phép bất kỳ ai cũng có thể tự do sử dụng, nghiên cứu, sửa đổi và phân phối lại mô hình, tuân theo các điều khoản của giấy phép đi kèm.

Ưu điểm:
- Minh bạch: Việc công khai mã nguồn và trọng số giúp cộng đồng hiểu rõ hơn về cách mô hình hoạt động, các quyết định thiết kế và tiềm ẩn các hạn chế.
- Linh hoạt và Tùy biến cao: Người dùng có thể tinh chỉnh (fine-tune) mô hình trên dữ liệu riêng của họ để phù hợp với các nhu cầu cụ thể, hoặc tích hợp chúng vào các ứng dụng tùy chỉnh mà không bị ràng buộc bởi nhà cung cấp.
- Cộng đồng hỗ trợ phát triển: Các dự án mã nguồn mở thường có một cộng đồng các nhà phát triển và nhà nghiên cứu tích cực đóng góp vào việc cải tiến, sửa lỗi và phát triển các tính năng mới.
- Chi phí tiềm năng thấp hơn: Mặc dù việc tự host và vận hành các LLM lớn vẫn tốn kém, việc không phải trả phí bản quyền cho chính mô hình có thể làm giảm chi phí tổng thể.
Ví dụ: Các dòng mô hình Llama của Meta AI (ví dụ Llama 2, Llama 3), BLOOM của BigScience , Falcon của TII, các mô hình từ EleutherAI như GPT-NeoX và Pythia suite là những ví dụ nổi bật về LLM mã nguồn mở.

2. Mô hình Độc quyền/Thương mại (Proprietary/Commercial Models)

Các mô hình này được phát triển và duy trì bởi các công ty hoặc tổ chức tư nhân. Mã nguồn, trọng số mô hình và thường là cả chi tiết về dữ liệu huấn luyện không được công khai. Việc truy cập và sử dụng các mô hình này thường thông qua các giao diện lập trình ứng dụng (API) có trả phí, giấy phép thương mại hoặc các dịch vụ đăng ký.

Ưu điểm:
- Hiệu năng cao và ổn định: Do được đầu tư lớn về nguồn lực và kỹ thuật, các mô hình độc quyền thường đạt hiệu năng rất cao trên nhiều benchmark và thể hiện sự ổn định trong hoạt động.
- Hỗ trợ và cập nhật chuyên nghiệp: Người dùng thường nhận được sự hỗ trợ kỹ thuật chuyên nghiệp từ nhà cung cấp, cùng với các bản cập nhật và cải tiến mô hình thường xuyên.
- Dễ dàng tích hợp (thông qua API): Việc sử dụng qua API giúp đơn giản hóa quá trình tích hợp vào các ứng dụng hiện có mà không cần lo lắng về cơ sở hạ tầng phức tạp để vận hành mô hình.
Ví dụ: Dòng mô hình GPT của OpenAI (ví dụ GPT-3.5, GPT-4), PaLM và Gemini của Google, Claude của Anthropic là những LLM độc quyền hàng đầu trên thị trường.

Sự phân chia giữa mã nguồn mở và độc quyền đang tạo ra một cuộc đua thú vị trong lĩnh vực LLM. Các mô hình mã nguồn mở ngày càng trở nên mạnh mẽ, thu hẹp khoảng cách và đôi khi vượt qua cả các mô hình độc quyền trên một số benchmark nhất định. Điều này không chỉ thúc đẩy sự đổi mới chung mà còn mang lại nhiều lựa chọn hơn cho người dùng cuối và các doanh nghiệp. Tuy nhiên, cần lưu ý rằng ngay cả với các mô hình được gọi là “mã nguồn mở”, các điều khoản giấy phép sử dụng có thể rất khác nhau. Một số giấy phép có thể hạn chế việc sử dụng cho mục đích thương mại, hoặc yêu cầu người dùng tuân thủ các chính sách sử dụng chấp nhận được (Acceptable Use Policy). Ví dụ, giấy phép của Llama yêu cầu tuân thủ chính sách sử dụng của Meta, trong khi DBRX được cấp phép cho cả mục đích nghiên cứu và thương mại. Do đó, người dùng và các tổ chức cần xem xét kỹ lưỡng các điều khoản này trước khi quyết định sử dụng một LLM cụ thể, để đảm bảo tuân thủ và tránh các rủi ro pháp lý tiềm ẩn.

Phân loại dựa trên Tính chuyên biệt theo Miền kiến thức (Knowledge domain Specificity-based)

Mức độ chuyên biệt hóa của LLM theo các miền kiến thức hoặc ngành nghề cụ thể là một tiêu chí phân loại quan trọng, ảnh hưởng đến khả năng ứng dụng và độ chính xác của mô hình trong các bối cảnh khác nhau.

Mô hình Đa năng (General-Purpose LLMs)

Đây là những LLM được thiết kế để có tính linh hoạt cao, có khả năng xử lý một loạt các tác vụ ngôn ngữ trên nhiều lĩnh vực và chủ đề khác nhau.

Đặc điểm: Chúng không được tối ưu hóa cho bất kỳ một ngành nghề hay loại kiến thức cụ thể nào.
Huấn luyện: Các mô hình này thường được huấn luyện trên các tập dữ liệu văn bản cực kỳ lớn và đa dạng, bao gồm sách, báo, trang web, mã nguồn, và nhiều loại văn bản khác từ internet. Mục tiêu là để mô hình nắm bắt được kiến thức phổ quát và các mẫu ngôn ngữ chung.
Ứng dụng: Chúng rất hữu ích cho các ứng dụng như chatbots tổng quát, trợ lý ảo, các công cụ tìm kiếm thông tin chung, phân tích văn bản đa chủ đề, và tạo nội dung sáng tạo không chuyên biệt.
Ví dụ: Hầu hết các LLM nổi tiếng ban đầu như GPT-3, Llama 2, BLOOM đều thuộc nhóm này.

Mô hình Chuyên biệt theo Miền (Domain-Specific LLMs)

Các LLM này được điều chỉnh hoặc huấn luyện đặc biệt để hoạt động hiệu quả trong các ngành hoặc lĩnh vực cụ thể, nơi mà kiến thức chuyên ngành, thuật ngữ đặc thù và sắc thái riêng của lĩnh vực đó là rất quan trọng.

Đặc điểm: Chúng được tối ưu hóa để cung cấp thông tin chính xác, phù hợp và sâu sắc hơn trong miền kiến thức chuyên biệt của mình.
Huấn luyện: Quá trình huấn luyện thường bao gồm việc sử dụng một mô hình đa năng đã được huấn luyện trước (pre-trained general-purpose model) làm nền tảng, sau đó tiếp tục tinh chỉnh (fine-tune) mô hình đó bằng các tập dữ liệu chuyên ngành. Các tập dữ liệu này có thể bao gồm sách giáo khoa, bài báo khoa học, tài liệu kỹ thuật, hồ sơ bệnh án (đã ẩn danh), báo cáo tài chính, hoặc văn bản pháp lý, tùy thuộc vào lĩnh vực mục tiêu.
Ưu điểm: So với các mô hình đa năng, LLM chuyên biệt thường mang lại kết quả chính xác hơn, phù hợp hơn với ngữ cảnh và giảm thiểu “ảo giác” (hallucinations) khi xử lý các tác vụ trong lĩnh vực chuyên môn của chúng.
Ví dụ:
- Y tế: Các mô hình như Med-PaLM được huấn luyện trên dữ liệu y khoa để hỗ trợ chẩn đoán, trả lời câu hỏi y tế. Các benchmark như MedQA được dùng để đánh giá năng lực này.
- Tài chính: BloombergGPT được huấn luyện trên dữ liệu tài chính để phân tích thị trường, tóm tắt báo cáo tài chính.
- Pháp lý: Các LLM được tinh chỉnh trên văn bản pháp lý để hỗ trợ tra cứu luật, phân tích hợp đồng. Các benchmark như LegalBench, CaseLaw, ContractLaw, TaxEval giúp đánh giá hiệu suất trong lĩnh vực này.

Việc lựa chọn giữa một LLM đa năng và một LLM chuyên biệt phụ thuộc rất nhiều vào yêu cầu cụ thể của ứng dụng. Nếu ứng dụng đòi hỏi sự linh hoạt để xử lý nhiều loại tác vụ trên các chủ đề khác nhau, một mô hình đa năng có thể là lựa chọn tốt. Ngược lại, nếu ứng dụng tập trung vào một lĩnh vực chuyên sâu, nơi độ chính xác và kiến thức chuyên môn là tối quan trọng, thì một LLM chuyên biệt sẽ mang lại hiệu quả cao hơn.

Sự thành công của các LLM chuyên biệt nhấn mạnh tầm quan trọng của dữ liệu chất lượng cao và đặc thù cho từng ngành. Để một LLM có thể thực sự “hiểu” và hoạt động hiệu quả trong một lĩnh vực chuyên sâu, việc tiếp cận và sử dụng dữ liệu huấn luyện phản ánh đúng thuật ngữ, kiến thức nền tảng và các sắc thái của lĩnh vực đó là điều kiện tiên quyết. Tuy nhiên, việc xây dựng và huấn luyện LLM chuyên biệt cũng đặt ra những thách thức riêng. Chúng có thể kém linh hoạt hơn khi được yêu cầu thực hiện các tác vụ nằm ngoài miền kiến thức đã được huấn luyện. Hơn nữa, việc thu thập, làm sạch và chuẩn bị dữ liệu chuyên ngành chất lượng cao thường tốn kém và đòi hỏi chuyên môn sâu. Do đó, quyết định phát triển hoặc sử dụng một LLM chuyên biệt cần cân nhắc kỹ lưỡng giữa lợi ích về độ chính xác và chi phí cũng như nguồn lực đầu tư.

Phân loại dựa trên Phương pháp Huấn luyện/Tinh chỉnh (Training/Tuning-based)

Cách thức một LLM được huấn luyện ban đầu hoặc được tinh chỉnh sau đó cũng là một cơ sở để phân loại, phản ánh khả năng và mục đích sử dụng của mô hình. Elastic đề xuất ba loại chính dựa trên tiêu chí này:

Mô hình Ngôn ngữ Thô/Chung (Generic/Raw Language Models):

Đây là các LLM ở dạng cơ bản nhất sau giai đoạn huấn luyện trước (pre-training).

Đặc điểm: Chúng được huấn luyện để dự đoán từ (hoặc token) tiếp theo trong một chuỗi dựa trên các mẫu ngôn ngữ học được từ tập dữ liệu huấn luyện khổng lồ. Chúng chưa được tối ưu hóa cho bất kỳ tác vụ cụ thể nào sau giai đoạn pre-training.
Chức năng chính: Các mô hình này thường phù hợp cho các tác vụ truy xuất thông tin cơ bản hoặc làm nền tảng để tiếp tục tinh chỉnh cho các mục đích khác. Chúng có thể tạo ra văn bản, nhưng văn bản đó có thể không luôn tuân theo một hướng dẫn cụ thể hoặc không phù hợp cho một cuộc hội thoại.

Mô hình Tinh chỉnh theo Hướng dẫn (Instruction-tuned Language Models)

Các mô hình này đã trải qua một giai đoạn tinh chỉnh bổ sung sau pre-training, trong đó chúng được huấn luyện để hiểu và phản hồi các hướng dẫn (instructions) được cung cấp trong đầu vào.

Đặc điểm: Chúng học cách thực hiện một loạt các tác vụ dựa trên mô tả của tác vụ đó bằng ngôn ngữ tự nhiên.
Ứng dụng: Loại mô hình này rất linh hoạt và có thể thực hiện nhiều tác vụ khác nhau như phân tích tình cảm, tạo văn bản theo yêu cầu (ví dụ: viết một bài thơ, tóm tắt một đoạn văn), tạo mã nguồn, trả lời câu hỏi, v.v..
Ví dụ: Nhiều LLM hiện đại như các phiên bản “Instruct” của GPT (ví dụ: InstructGPT), Llama-Instruct, Mistral-Instruct đều thuộc nhóm này.

Mô hình Tinh chỉnh cho Hội thoại (Dialog-tuned Language Models):

Đây là các LLM được tối ưu hóa đặc biệt cho việc tham gia vào các cuộc đối thoại tự nhiên và mạch lạc với người dùng.

Đặc điểm: Chúng được huấn luyện để hiểu ngữ cảnh của cuộc trò chuyện, duy trì sự nhất quán qua nhiều lượt trao đổi, và tạo ra các phản hồi phù hợp, mang tính tương tác cao.
Ứng dụng: Chủ yếu được sử dụng trong việc xây dựng chatbots, trợ lý ảo, và các hệ thống AI hội thoại khác.
Ví dụ: ChatGPT của OpenAI, Claude của Anthropic, và Gemini của Google là những ví dụ điển hình của các mô hình được tinh chỉnh mạnh mẽ cho hội thoại.

Sự tiến hóa trong các phương pháp tinh chỉnh đã đóng một vai trò quan trọng trong việc làm cho LLM trở nên hữu ích và dễ tiếp cận hơn. Từ những mô hình thô ban đầu chỉ có khả năng dự đoán từ tiếp theo một cách máy móc, các kỹ thuật như tinh chỉnh theo hướng dẫn (instruction tuning) và tinh chỉnh cho hội thoại (dialog tuning) đã biến LLM thành những công cụ mạnh mẽ có khả năng tương tác và thực hiện yêu cầu của người dùng một cách linh hoạt.

Kết luận

Bài viết đã trình bày một cái nhìn tổng quan và chi tiết về thế giới phức tạp của các Mô hình Ngôn ngữ Lớn (LLM). Sự đa dạng trong cách tiếp cận phân loại LLM – dựa trên kiến trúc (tự hồi quy, tự mã hóa, Seq2Seq, MoE), tính sẵn có (mã nguồn mở, độc quyền), mức độ chuyên biệt hóa theo miền kiến thức (đa năng, chuyên biệt), và phương pháp huấn luyện/tinh chỉnh (thô, theo hướng dẫn, cho hội thoại) – phản ánh sự phát triển không ngừng và các hướng ứng dụng phong phú của công nghệ này. Mỗi phương pháp phân loại cung cấp một lăng kính riêng để hiểu rõ hơn về đặc điểm và tiềm năng của từng loại LLM.

Khi LLM ngày càng được tích hợp sâu rộng vào mọi mặt của đời sống, từ giáo dục, y tế, kinh doanh đến giải trí và giao tiếp hàng ngày, việc trang bị kiến thức để đưa ra những lựa chọn sáng suốt và cân nhắc kỹ lưỡng các lợi ích cũng như rủi ro tiềm ẩn trở nên vô cùng quan trọng. Chỉ khi hiểu rõ bản chất, năng lực và giới hạn của LLM, chúng ta mới có thể khai thác tối đa tiềm năng to lớn của chúng, đồng thời đảm bảo rằng công nghệ này phục vụ mục tiêu phát triển bền vững và mang lại những giá trị tích cực cho toàn xã hội. Con đường phía trước đòi hỏi sự cẩn trọng, hợp tác và một cam kết không ngừng đối với việc học hỏi và thích ứng, để LLM thực sự trở thành một công cụ mạnh mẽ hỗ trợ con người trong kỷ nguyên số.

Tài liệu tham khảo

What are Large Language Models? | A Comprehensive LLMs Guide …, accessed May 8, 2025, https://www.elastic.co/what-is/large-language-models
Awesome-LLM: a curated list of Large Language Model – GitHub, accessed May 8, 2025, https://github.com/Hannibal046/Awesome-LLM
Types of LLMs: Classification Guide in 2025 | Label Your Data, accessed May 8, 2025, https://labelyourdata.com/articles/types-of-llms
dbrx/MODEL_CARD_dbrx_base.md at main · databricks/dbrx – GitHub, accessed May 8, 2025, https://github.com/databricks/dbrx/blob/main/MODEL_CARD_dbrx_base.md
Snowflake Arctic – LLM for Enterprise AI, accessed May 8, 2025, https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/
Llama (language model) – Wikipedia, accessed May 8, 2025, https://en.wikipedia.org/wiki/Llama_(language_model)
Releases – EleutherAI, accessed May 8, 2025, https://www.eleuther.ai/releases
Top 10 open source LLMs for 2025 – NetApp Instaclustr, accessed May 8, 2025, https://www.instaclustr.com/education/top-10-open-source-llms-for-2025/
Model Trust Scores: Evaluating AI Models with Credo AI, accessed May 8, 2025, https://www.credo.ai/model-trust-scores-ai-evaluation

JustPassion