Tại sao DeepSeek có thể "phá giá" thị trường AI, khiến cho vốn hóa NVIDIA bốc hơi hơn 500 tỷ USD, hàng loạt cổ phiếu công nghệ đỏ lửa?

    Nguyễn Hải,  

    Làm thế nào DeepSeek có thể phát triển và vận hành mô hình AI của mình chỉ với chi phí vô cùng nhỏ so với các đối thủ khác.

    Chỉ trong vòng vài giờ đồng hồ, cái tên DeepSeek, một startup AI Trung Quốc, đã vang lên trên toàn nước Mỹ - hệt như cách mà ChatGPT của OpenAI đã từng làm được cách đây hơn 2 năm. Nhưng lần này, cái tên đó đã mang lại sự kinh hoàng cho cổ phiếu ngành công nghệ Mỹ.

    Không lâu sau khi vào phiên giao dịch đầu tuần, vốn hóa NVIDIA, vua chip AI hiện nay đã bốc hơi hơn 500 tỷ USD, mức sụt giảm lớn chưa từng thấy trong lịch sử chứng khoán Mỹ. Cho đến hiện tại, chỉ số công nghệ Nasdaq 100 của Mỹ cũng đã sụt giảm hơn 3%, thổi bay hơn 1.000 tỷ USD vốn hóa toàn thị trường.

    Nguyên nhân chính cho đợt sụt giảm “đẫm máu” này là sự xuất hiện của mô hình AI mã nguồn mở DeepSeek từ Trung Quốc, với hiệu năng được đánh giá tương đương với ChatGPT nhưng chi phí phát triển chỉ tương đương 1-2% và chi phí kết nối API chỉ bằng 1/10 so với ChatGPT.

    Tại sao DeepSeek có thể "phá giá" thị trường AI, khiến cho vốn hóa NVIDIA bốc hơi hơn 500 tỷ USD, hàng loạt cổ phiếu công nghệ đỏ lửa?- Ảnh 1.

    Đây là lần sụt giảm vốn hóa lớn nhất trong lịch sử chứng khoán Mỹ

    Startup này cho biết, họ chỉ cần 2.000 GPU hiệu năng thấp của NVIDIA để phát triển mô hình AI của mình. Trong khi đó OpenAI cần đến hàng trăm nghìn GPU hiệu năng cao của NVIDIA để phát triển nên ChatGPT. Đây thực sự là một cú đánh trời giáng vào mô hình kinh doanh của NVIDIA – vốn phụ thuộc vào việc cung cấp các GPU đắt đỏ cho các công ty AI.

    Hơn thế nữa, việc DeepSeek là một mô hình mã nguồn mở nghĩa là ai cũng có thể mã nguồn đó và phát triển một mô hình AI mới cho mình với chi phí cực rẻ mà không cần đến các GPU giá trên trời của NVIDIA nữa. Điều này là nguồn cơn cho đà bán tháo khiến cổ phiếu NVIDIA rơi thẳng đứng như hiện tại.

    Tại sao DeepSeek có thể phá giá thị trường như vậy?

    Trái tim của DeepSeek chính là kiến trúc Mixture-of-Experts (MoE) độc đáo. Thay vì kích hoạt toàn bộ 671 tỷ tham số "khủng", MoE chỉ "triệu hồi" 37 tỷ tham số cần thiết cho từng tác vụ cụ thể. Mỗi "chuyên gia" (expert) trong MoE được đào tạo chuyên biệt theo từng nhiệm vụ và kích thước của chúng được tối ưu, tạo ra một "hội đồng chuyên gia" đông đảo mà không làm tăng chi phí tính toán. Khi "vào trận", DeepSeek chỉ cần huy động các chuyên gia phù hợp nhất, tựa như đội ngũ tinh nhuệ chỉ tập trung nhân tài thực sự cần thiết.

    Tại sao DeepSeek có thể "phá giá" thị trường AI, khiến cho vốn hóa NVIDIA bốc hơi hơn 500 tỷ USD, hàng loạt cổ phiếu công nghệ đỏ lửa?- Ảnh 2.

    DeepSeek áp dụng nhiều giải pháp khác nhau để đạt được chi phí vô cùng thấp

    Không dừng lại ở MoE, DeepSeek còn tăng cường cho các chuyên gia này bằng phương pháp học tăng cường thuần túy (pure reinforcement learning). Thay vì chỉ học từ dữ liệu có nhãn như các đối thủ, trí tuệ nhân tạo này được rèn luyện qua thử và sai dựa trên những dữ liệu không được gắn nhãn, tự tích lũy kinh nghiệm mà không cần sự giám sát của con người.

    Giống như một đứa trẻ tự học bơi bằng cách liên tục thực hành dưới nước, DeepSeek tự hoàn thiện chính mình qua hàng ngàn thất bại cho đến khi đạt được kết quả tối ưu. Cách làm "phá cách" này đã giúp DeepSeek tiết kiệm chi phí và công sức gắn nhãn dữ liệu, vốn là "nút thắt cổ chai" lớn của làng AI.

    Bên cạnh đó, DeepSeek còn áp dụng kỹ thuật Quantization, giảm độ chính xác tham số từ định dạng 32-bit xuống 8-bit. Kỹ thuật này giúp giảm 75% lưu lượng bộ nhớ cần thiết, tăng tốc độ xử lý mà không ảnh hưởng đến hiệu năng toàn diện của mô hình. Thêm vào đó, độ công phu trong thiết kế và huấn luyện đã giúp DeepSeek duy trì được độ tin cậy của một mô hình cao cấp. Nhờ đó, các mô hình của họ có thể chạy trơn tru ngay cả trên những thiết bị phần cứng khiêm tốn như GPU gaming, thay vì các GPU máy chủ đắt đỏ.

    Tại sao DeepSeek có thể "phá giá" thị trường AI, khiến cho vốn hóa NVIDIA bốc hơi hơn 500 tỷ USD, hàng loạt cổ phiếu công nghệ đỏ lửa?- Ảnh 3.

    Nhưng hiệu năng xử lý của DeepSeek vẫn ngang ngửa ChatGPT và các đối thủ lớn khác

    Trong khi đó, cơ chế Multi-Head Latent Attention giúp DeepSeek cải thiện khả năng xử lý dữ liệu khi đặt nó trong mối quan hệ với các dữ liệu khác. Nhờ đó mô hình này cũng vượt trội trong khả năng xử lý ngữ cảnh dài của DeepSeek lên đến 128K tokens. Con số này vượt xa các mô hình khác, vốn chỉ đạt tối đa 32K-64K tokens. Điều này giúp DeepSeek duy trì tính nhất quán khi xử lý các tác vụ phức tạp như phân tích dữ liệu lớn hoặc xử lý các dự án lập trình quy mô.

    Trên các bài benchmark hóc búa về lập trình, lập luận hay trả lời câu hỏi, DeepSeek đứng sánh vai hoặc đôi khi còn vượt mặt các "chuyên gia" như GPT-4 của OpenAI hay Claude của Anthropic.

    Mối đe dọa cho mô hình kinh doanh của NVIDIA

    Cùng với những đột phá về kiến trúc, triết lý cởi mở cũng là chìa khóa cho thành công của DeepSeek. Ngược với xu hướng "bảo mật" của nhiều gã khổng lồ công nghệ, startup này công khai toàn bộ mã nguồn và các bài báo kỹ thuật chi tiết. Cách làm này không chỉ minh bạch, trung thực mà còn kêu gọi sự đóng góp của cộng đồng, giúp hoàn thiện mô hình AI liên tục mà không tốn thêm chi phí.

    Tại sao DeepSeek có thể "phá giá" thị trường AI, khiến cho vốn hóa NVIDIA bốc hơi hơn 500 tỷ USD, hàng loạt cổ phiếu công nghệ đỏ lửa?- Ảnh 4.

    Không phải ChatGPT, NVIDIA mới là người thiệt hại nặng nhất khi DeepSeek xuất hiện

    Ngược lại, triết lý mã nguồn mở cũng có nghĩa là các công ty khác cũng có thể tận dụng mã nguồn này để tự xây dựng một mô hình AI chi phí thấp cho riêng mình. Do đó nó sẽ đánh đổ hoàn toàn nguyên tắc “AI là sân chơi dành riêng cho những gã khổng lồ công nghệ”. Bạn sẽ không cần đến các trung tâm dữ liệu hàng tỷ USD nữa, thay vào đó chỉ cần một vài GPU chất lượng tốt là đủ.

    Đối với NVIDIA, điều này thật đáng sợ. Từ hơn 2 năm nay, nhờ một hàng dài các công ty đang khao khát có được các GPU cao cấp của NVIDIA, có giá đến hàng chục nghìn USD để xây dựng các trung tâm dữ liệu đắt đỏ, mà công ty này đã vượt mặt Apple để trở thành công ty giá trị nhất thế giới. Nhưng DeepSeek đã xuất hiện, vị thế này có thể không còn nữa.

    Có thể nói DeepSeek là một câu chuyện về sự đột phá sáng tạo điển hình. Một nhóm nhỏ chưa đến 200 người, với chi phí phát triển sản phẩm vô cùng nhỏ bé so với các đối thủ khác, nhưng lại đang làm những người khổng lồ trong ngành phải run sợ.

    Nguyễn Hải

    Tin cùng chuyên mục
    Xem theo ngày

    NỔI BẬT TRANG CHỦ