66B là một mô hình ngôn ngữ có quy mô lớn, với 66 tỷ tham số, được thiết kế để xử lý đa nhiệm trong xử lý ngôn ngữ tự nhiên. Nó kết hợp các lớp Transformer sâu, khả năng hiểu và sinh văn bản tự nhiên, và có thể được tùy chỉnh cho nhiều tác vụ.
Mô hình dựa trên kiến trúc Transformer, thường chọn chế độ decoder-only hoặc một biến thể encoder-decoder tùy phiên bản. Với 66 tỷ tham số, hệ thống sử dụng phân tán mô hình và kỹ thuật parallelism như data parallelism và model parallelism để huấn luyện trên tập dữ liệu khổng lồ.
66B cho tốc độ suy nghĩ nhanh và khả năng trả lời có tính sáng tạo. Ứng dụng phổ biến gồm trợ lý ảo, tóm tắt văn bản, phân tích cảm xúc, sinh mã mẫu, và hỗ trợ ngôn ngữ đa dạng.
So với các mô hình lớn khác như 70B hoặc 140B, 66B có sự cân bằng giữa hiệu suất và chi phí. Các thí nghiệm cho thấy khả năng thích ứng tốt với dữ liệu domain riêng và yêu cầu tài nguyên tính toán tương đối thấp hơn.
Những đường hướng phát triển gồm tối ưu hoá huấn luyện, tăng tính bền vững và an toàn, mở rộng khả năng tri giác ngữ cảnh, và mở rộng sang tương tác đa ngôn ngữ để phục vụ cộng đồng người dùng toàn cầu.