Đừng chat với AI Agent bằng tiếng Việt nếu không muốn lãng phí token vô ích: Loại thuế ngôn ngữ này là lý do
Việc lãng phí token này càng trở nên nghiêm trọng hơn từ khi Anthropic ra mắt Opus 4.7 từ giữa tháng 4 vừa qua.
Trên diễn đàn Reddit r/ClaudeAI, một người dùng trả phí gói Pro đã chia sẻ một trải nghiệm gây sốc. Anh chạy một prompt phức tạp bằng tiếng Đức trên Claude Opus 4.7, phiên bản mới nhất của Anthropic và chứng kiến toàn bộ giới hạn token của phiên làm việc bốc hơi chỉ trong vài giây.
Cùng đúng prompt đó, Claude Sonnet xử lý bình thường trong khoảng 5 phút và chỉ tốn 28% giới hạn. Opus 4.7 chạy bằng tiếng Anh tốn 37%. Nhưng khi chuyển sang tiếng Đức, Opus 4.7 ngốn đúng 100%, từ phiên trắng đến cạn kiệt hoàn toàn, không để lại một token nào. Câu chuyện này nhanh chóng kéo theo nhiều cuộc thảo luận lớn hơn về thứ mà cộng đồng AI bắt đầu gọi là “thuế token ngôn ngữ”.
Đây không phải lỗi kỹ thuật, cũng không phải trường hợp cá biệt. Khi người dùng hỏi Claude về nguyên nhân, mô hình này giải thích thẳng: đây là cách hoạt động của tokenization – hay quá trình token hóa ngôn ngữ.
Trái với suy nghĩ phổ biến, AI không “đọc” câu chữ như con người. Trước khi xử lý thông tin, hệ thống sẽ cắt văn bản thành các đơn vị nhỏ gọi là token. Một token có thể là một từ hoàn chỉnh, một phần của từ hoặc thậm chí chỉ vài ký tự. Sau đó mô hình mới dùng các token này để phân tích và suy luận.
Với chatbot thông thường, khác biệt này đôi khi chưa quá rõ ràng vì cuộc hội thoại thường ngắn. Nhưng với AI Agent, token lại trở thành tài nguyên cực kỳ quan trọng. Các hệ thống AI Agent hiện đại không chỉ trả lời vài dòng văn bản như chatbot truyền thống.
Chúng có thể tự đọc hàng chục tài liệu, tự phân tích dữ liệu, tự tìm kiếm thông tin, tự lập kế hoạch nhiều bước, tự sửa lỗi rồi tiếp tục suy luận trong nhiều vòng liên tiếp. Mỗi bước như vậy đều tiêu tốn token. Khi lượng token bị phình ra chỉ vì khác biệt ngôn ngữ, chi phí vận hành và giới hạn sử dụng cũng tăng lên tương ứng.
Tiếng Anh được token hóa hiệu quả nhất vì phần lớn dữ liệu huấn luyện của các mô hình AI đều là tiếng Anh. Với các ngôn ngữ khác, token hóa buộc phải cắt nhỏ từ ngữ thành nhiều mảnh hơn để xử lý, và mỗi mảnh là một token riêng. Một câu tiếng Anh 10 từ có thể chỉ tốn 10 token, nhưng câu tương đương bằng ngôn ngữ khác có thể tốn 15, 20, thậm chí nhiều hơn.
Hiện tượng này được cộng đồng người dùng AI đặt tên là "thuế ngôn ngữ". Theo dữ liệu tổng hợp từ cộng đồng r/ClaudeAI và các nghiên cứu độc lập, mức chênh lệch giữa các nhóm ngôn ngữ khá rõ ràng.
Nhóm ngôn ngữ Tây Âu như tiếng Tây Ban Nha, tiếng Đức, tiếng Pháp tốn khoảng 1,2 đến 1,6 lần so với tiếng Anh. Nhóm ngôn ngữ CJK bao gồm tiếng Trung, tiếng Nhật và tiếng Hàn tốn từ 2,0 đến 3,0 lần vì bộ ký tự phức tạp buộc tokenizer phải tách mỗi ký tự thành nhiều đơn vị nhỏ hơn. Các ngôn ngữ ít tài nguyên như tiếng Ả Rập, tiếng Bengali hay tiếng Miến Điện có thể tốn từ 5 đến 15 lần.
Tiếng Việt không nằm trong danh sách các ngôn ngữ được đo lường riêng biệt, nhưng cấu trúc của nó gợi ý mức chi phí đáng kể. Không giống tiếng Trung dùng ký tự Hán, tiếng Việt sử dụng bảng chữ cái Latin, nhưng kèm theo hệ thống dấu thanh và dấu phụ dày đặc: sáu thanh điệu, các nguyên âm đặc thù như ă, â, ơ, ư, ô cùng phụ âm đ.
Token hóa được huấn luyện chủ yếu trên tiếng Anh không nhận dạng các tổ hợp này như những đơn vị có nghĩa hoàn chỉnh, dẫn đến việc tách nhỏ hơn mức cần thiết. Ước tính sơ bộ từ cộng đồng người dùng cho thấy tiếng Việt có thể rơi vào nhóm tốn từ 1,5 đến 2,5 lần so với tiếng Anh, tuy nhiên con số chính xác chưa có nghiên cứu độc lập xác nhận.
Vấn đề này trở nên nghiêm trọng hơn với sự ra mắt của Claude Opus 4.7. Anthropic chính thức xác nhận trong tài liệu hướng dẫn chuyển đổi rằng tokenizer mới của Opus 4.7 có thể làm cùng một nội dung tốn nhiều hơn khoảng 1,0 đến 1,35 lần so với Opus 4.6, ngay cả với tiếng Anh.
Thêm vào đó, mô hình mới "suy nghĩ nhiều hơn" ở các mức cao trong các tác vụ agentic nhiều bước, làm tăng thêm lượng token đầu ra. Với người dùng tiếng Việt, hai lớp bất lợi này cộng vào nhau: tokenizer nặng hơn của Opus 4.7 khuếch đại thêm mức thuế ngôn ngữ vốn đã tồn tại từ trước.
So với Anthropic, các mô hình AI của OpenAI có mức tiêu thụ token theo ngôn ngữ thấp hơn
Hệ quả thực tế là người dùng không nói tiếng Anh đang trả cùng mức phí thuê bao hàng tháng nhưng nhận được ít hơn đáng kể về lượt sử dụng thực tế. Đây không phải chính sách phân biệt đối xử có chủ ý từ phía các công ty AI mà là hệ quả cấu trúc của cách các mô hình ngôn ngữ lớn được xây dựng, với phần lớn dữ liệu huấn luyện đến từ internet tiếng Anh. Anthropic thừa nhận đây là đặc tính của token hóa, không phải lỗi có thể vá ngay.
Dĩ nhiên, điều đó không có nghĩa người dùng nên ngừng sử dụng tiếng Việt với AI. Với các tác vụ trò chuyện thông thường, khác biệt token đôi khi chưa đủ lớn để tạo ra ảnh hưởng rõ rệt. Với các tác vụ phức tạp hoặc khi làm việc với AI Agent trong các chuỗi xử lý dài nhiều bước, viết prompt bằng tiếng Anh hoàn toàn là lựa chọn tiết kiệm nhất.
Đây không phải điều người dùng Việt Nam muốn nghe, nhưng trong khi các công ty AI chưa cải thiện được khả năng tokenize các ngôn ngữ châu Á, đây vẫn là cách thực tế nhất để dùng đồng tiền thuê bao một cách hiệu quả.
NỔI BẬT TRANG CHỦ
-
LG cân nhắc bán mảng TV cho Hisense? Biểu tượng điện tử gần 60 năm đứng trước hồi kết
LG được cho là đang cân nhắc bán mảng TV cho Hisense sau nhiều năm lợi nhuận suy giảm và bị các thương hiệu Trung Quốc vượt mặt. Thương vụ có thể khép lại gần 60 năm lịch sử TV của LG.
-
Tôi không biết Apple 20 năm nữa ra sao, nhưng Samsung thì tôi biết