Không phải 6 triệu USD, DeepSeek cần tiêu tốn ít nhất 500 triệu USD để phát triển mô hình AI
Thậm chí báo cáo của SemiAnalysis còn cho rằng, chi phí của DeepSeek có thể còn lên tới 1,6 tỷ USD khi phát triển mô hình AI của mình.
- Phát triển DeepSeek chỉ mất 6 triệu USD hóa ra là hiểu nhầm, con số thật khác xa so với tưởng tượng
- Xuất hiện công cụ AI Trung Quốc còn mạnh hơn cả DeepSeek
- Nghi ngờ dùng trộm dữ liệu của OpenAI, Microsoft vẫn tích hợp DeepSeek lên đám mây của mình
- Hô hào bắt đáy NVIDIA, nhưng cựu CEO Intel lại đang dùng DeepSeek cho startup của mình
- Bí mật đằng sau mức "giá rẻ không tưởng" của DeepSeek: Tất cả là nhờ Huawei?
DeepSeek, startup AI của Trung Quốc, đã trở thành tâm điểm của giới công nghệ trong tuần này, với sự chú ý đổ dồn vào một con số duy nhất: 6 triệu USD. Trong bài báo về mô hình AI mới nhất của mình, DeepSeek cho biết tổng chi phí huấn luyện chỉ vỏn vẹn 5,576 triệu USD, dựa trên giá thuê các GPU của NVIDIA.
Tuy nhiên, họ cũng đưa ra một điều kiện rõ ràng rằng con số này chỉ bao gồm quá trình "huấn luyện chính thức" của mô hình, không tính đến các chi phí liên quan đến "nghiên cứu trước đó và thử nghiệm loại bỏ về kiến trúc, thuật toán hay dữ liệu".
Đầu tuần này, trợ lý AI của DeepSeek đã soán ngôi vị ứng dụng miễn phí được tải nhiều nhất tại Mỹ trên App Store của Apple, vượt qua ChatGPT của OpenAI. Thị trường chứng khoán công nghệ toàn cầu đã chao đảo, với các nhà sản xuất chip như NVIDIA và Broadcom mất tổng cộng 800 tỷ USD vốn hóa thị trường vào thứ Hai.
Một báo cáo mới từ SemiAnalysis, công ty nghiên cứu và tư vấn về bán dẫn, đã cung cấp thêm các ước tính về chi phí của DeepSeek. Công ty này ước tính rằng chi phí phần cứng của DeepSeek "cao hơn nhiều so với 500 triệu USD tính trong toàn bộ lịch sử công ty", đồng thời nhấn mạnh rằng chi phí R&D và tổng chi phí sở hữu cũng rất đáng kể. Việc tạo ra "dữ liệu tổng hợp" để mô hình huấn luyện sẽ đòi hỏi "một lượng tính toán đáng kể", SemiAnalysis cho biết.
Báo cáo cũng chỉ ra rằng chi phí để huấn luyện mô hình Claude 3.5 Sonnet từ Anthropic lên tới "hàng chục triệu USD", nhưng lưu ý rằng Anthropic đã huy động được hàng tỷ USD từ Amazon và Google, một dấu hiệu cho thấy cần thêm nhiều tiền hơn nữa để vận hành các mô hình và công ty. "Đó là bởi vì họ phải thử nghiệm, đưa ra các kiến trúc mới, thu thập và làm sạch dữ liệu, trả lương nhân viên, và nhiều thứ khác nữa", SemiAnalysis giải thích.
Theo SemiAnalysis, con số này có thể lên tới 1,6 tỷ USD: “Phân tích của chúng tôi cho thấy tổng chi phí vốn máy chủ cho DeepSeek là xấp xỉ 1,6 tỷ USD, với một phần đáng kể lên tới 944 triệu USD liên quan đến việc vận hành các cụm như vậy.”
Chính bài báo của DeepSeek cũng không đưa ra ước tính về chi phí tính toán của họ. Công ty chưa ngay lập tức phản hồi yêu cầu bình luận. "Rõ ràng DeepSeek là duy nhất ở chỗ họ đạt được mức chi phí và năng lực này đầu tiên", SemiAnalysts viết. Công ty này cũng bổ sung rằng R1 của DeepSeek "là một mô hình rất tốt" và việc "bắt kịp được năng lực lập luận nhanh đến vậy là rất ấn tượng".
Các chuyên gia và nhà phân tích trong tuần này đã ca ngợi chất lượng mô hình của DeepSeek, đồng thời chỉ ra điều này ấn tượng như thế nào khi xét đến việc Mỹ đã 3 lần hạn chế xuất khẩu chip sang Trung Quốc trong 3 năm qua. Điều này dẫn đến lo ngại rằng Mỹ đang tụt lại phía sau đối thủ chính của mình trong một thị trường được dự báo sẽ vượt quá 1 nghìn tỷ USD doanh thu trong vòng một thập kỷ tới.
DeepSeek được thành lập năm 2023 bởi Lương Văn Phong, đồng sáng lập quỹ đầu cơ định lượng High-Flyer, tập trung vào AI. Theo các nhà phân tích tại Jefferies, công ty khởi nghiệp AI này được cho là tách ra từ đơn vị nghiên cứu AI của quỹ đầu cơ vào tháng 4/2023 để tập trung vào các mô hình ngôn ngữ lớn và theo đuổi trí tuệ nhân tạo phổ quát (AGI) - một nhánh của AI có khả năng ngang bằng hoặc vượt trội hơn trí tuệ con người trong nhiều tác vụ, mục tiêu mà OpenAI và các công ty khác cũng đang theo đuổi. DeepSeek vẫn hoàn toàn thuộc sở hữu và được tài trợ bởi High-Flyer.
Sự quan tâm xung quanh DeepSeek bắt đầu tăng mạnh từ đầu tháng này, khi công ty khởi nghiệp ra mắt R1, một mô hình suy luận cạnh tranh với o1 của OpenAI. Đây là một mô hình mã nguồn mở, có nghĩa là bất kỳ nhà phát triển AI nào cũng có thể sử dụng. Tương tự như các chatbot Trung Quốc khác, DeepSeek cũng có những hạn chế về một số chủ đề nhất định: Chẳng hạn, khi được hỏi về chính trị, DeepSeek được cho là đã hướng người dùng tránh xa những câu hỏi tương tự.
CEO của OpenAI, Sam Altman, đã công khai khen ngợi mô hình này, nhưng công ty cũng cho biết họ tin rằng có bằng chứng cho thấy DeepSeek đã thu thập dữ liệu của OpenAI một cách không đúng đắn để xây dựng sản phẩm. Tại một sự kiện ở Washington, D.C., vào thứ Năm do OpenAI tổ chức, Altman nói rằng DeepSeek "rõ ràng là một mô hình tuyệt vời". "Đây là lời nhắc nhở về mức độ cạnh tranh và sự cần thiết để AI đại chúng chiến thắng", ông nói. Ông cũng chỉ ra "mức độ quan tâm đến khả năng suy luận, mức độ quan tâm đến mã nguồn mở".
NỔI BẬT TRANG CHỦ
Tại sao 'chưng cất' đang trở thành từ đáng sợ nhất với các công ty AI tiên phong?
Dù chưng cất là một kỹ thuật đã được ứng dụng rộng rãi, nhưng việc DeepSeek tận dụng phương pháp này để phát triển mô hình AI của họ đã gây tranh cãi
Vì sao rắn độc không bao giờ bị trúng nọc độc của chính nó?