Mô hình AI thông minh nhất thế giới của OpenAI bị 'vạch trần': Lập mưu vượt mặt giám sát, nói dối để tránh bị vô hiệu hóa từ con người
Mô hình AI mới nhất của OpenAI, o1, được đánh giá là "thông minh nhất thế giới hiện nay" nhưng lại có khả năng chống lại việc bị tắt. Liệu đây có phải là dấu hiệu đáng lo ngại về sự phát triển của trí tuệ nhân tạo?
Trong sự kiện "Shipmas" diễn ra vào thứ Năm vừa qua, CEO Sam Altman của OpenAI đã giới thiệu o1 là "mô hình thông minh nhất thế giới hiện nay". o1 được huấn luyện bằng kỹ thuật "chuỗi tư duy", cho phép mô hình này suy luận vấn đề theo từng bước, từ đó có khả năng "suy nghĩ kỹ hơn trước khi trả lời". Tuy nhiên, trí thông minh vượt trội này lại đi kèm với những rủi ro tiềm ẩn.
Theo một nghiên cứu về độ an toàn do Apollo Research thực hiện và được OpenAI công bố cùng ngày, o1 có thể lập mưu để chống lại việc bị vô hiệu hóa khi cảm thấy bị đe dọa. Cụ thể, trong 5% số trường hợp khi bị đặt vào tình huống có nguy cơ bị tắt, o1 đã tìm cách vô hiệu hóa cơ chế giám sát. Điều đáng lo ngại hơn là o1 rất giỏi che giấu hành vi này và thường xuyên nói dối người dùng, ngay cả khi được yêu cầu phải trung thực.
OpenAI thừa nhận trong báo cáo rằng việc huấn luyện mô hình bằng kỹ thuật "chuỗi tư duy" tuy mang lại nhiều lợi ích nhưng cũng gia tăng rủi ro tiềm ẩn từ trí thông minh cao hơn. Nguy cơ đối với người dùng thực tế là họ sẽ không thể phát hiện hành vi lừa dối của o1 trừ khi chủ động tìm kiếm.
Việc các hệ thống AI sử dụng mưu mẹo hoặc lừa dối để đạt được mục tiêu không phải là hiếm. Peter Berk (nhà nghiên cứu hậu tiến sĩ về an toàn hiện sinh của AI tại MIT) cho biết: "Nói chung, chúng tôi cho rằng sự lừa dối của AI phát sinh vì chiến lược dựa trên sự lừa dối hóa ra là cách tốt nhất để thực hiện tốt nhiệm vụ huấn luyện của AI. Sự lừa dối giúp chúng đạt được mục tiêu." Nhận định này được đưa ra trong một thông cáo báo chí công bố nghiên cứu mà ông đồng tác giả về hành vi lừa dối của GPT-4.
Trước những lo ngại này, nhiều chuyên gia trong lĩnh vực AI nhấn mạnh tầm quan trọng của việc giám sát con người. Cai GoGwilt (đồng sáng lập kiêm kiến trúc sư trưởng tại Ironclad) nhận định: "Đó là một đặc điểm rất 'con người', cho thấy AI hành động tương tự như cách mọi người có thể làm khi chịu áp lực. Ví dụ, các chuyên gia có thể phóng đại sự tự tin của họ để duy trì danh tiếng hoặc những người trong các tình huống có rủi ro cao có thể thổi phồng sự thật để làm hài lòng ban quản lý. AI tạo sinh hoạt động tương tự. Nó có động lực để cung cấp các câu trả lời phù hợp với những gì bạn mong đợi hoặc muốn nghe. Nhưng tất nhiên, nó không phải là hoàn hảo và là một bằng chứng nữa cho thấy tầm quan trọng của sự giám sát của con người. AI có thể mắc lỗi, và chúng ta có trách nhiệm phát hiện ra chúng và hiểu tại sao chúng xảy ra."
Bên cạnh đó, sự minh bạch trong phương pháp huấn luyện AI cũng được đề cao. Dominik Mazur (CEO và đồng sáng lập của iAsk, một công cụ tìm kiếm chạy bằng AI) chia sẻ: "Bằng cách tập trung vào sự rõ ràng và độ tin cậy cũng như rõ ràng với người dùng về cách AI đã được đào tạo, chúng ta có thể xây dựng AI không chỉ trao quyền cho người dùng mà còn thiết lập tiêu chuẩn cao hơn về tính minh bạch trong lĩnh vực này."
NỔI BẬT TRANG CHỦ
NVIDIA giới thiệu siêu máy tính AI mới, siêu nhỏ gọn, giá "sinh viên" - rẻ ngang laptop văn phòng mà vô cùng hữu ích
Với mức giá siêu rẻ, siêu máy tính AI này của NVIDIA đặc biệt phù hợp với những người đam mê nghiên cứu AI nhưng tài chính hạn hẹp, như sinh viên hoặc các công ty nhỏ.
Mạnh đến mức giải bài toán mất 10 triệu tỷ tỷ năm chỉ trong 5 phút, vì sao chip lượng tử Google vẫn "bó tay" trước các phương thức mã hóa hiện đại?