OpenAI ra mắt "tác nhân AI" Operator: Tại sao bạn lại cần một AI lướt web hộ mình khi chỉ cần vài cú click chuột là xong?

    Nguyễn Hải,  

    Với Operator, OpenAI đang tham gia vào một thị trường được dự báo lên tới hàng trăm tỷ USD trong vài năm tới.

    CHôm thứ Năm, OpenAI đã phát hành bản xem trước nghiên cứu về "Operator", một tác nhân AI - "AI Agent" - giúp tự động hóa web sử dụng mô hình AI mới có tên Computer-Using Agent (CUA) để điều khiển máy tính thông qua giao diện trực quan. Hệ thống thực hiện các tác vụ bằng cách xem và tương tác với các thành phần trên màn hình như nút và trường văn bản, tương tự như cách con người sử dụng.

    Operator hiện đã có sẵn cho những người đăng ký gói ChatGPT Pro với giá 200 USD/tháng tại operator.chatgpt.com. Công ty có kế hoạch mở rộng cho người dùng Plus, Team và Enterprise sau này. OpenAI dự định tích hợp các tính năng này trực tiếp vào ChatGPT và sau đó phát hành CUA thông qua API cho các nhà phát triển.

    OpenAI ra mắt "tác nhân AI" Operator: Tại sao bạn lại cần một AI lướt web hộ mình khi chỉ cần vài cú click chuột là xong?- Ảnh 1.

    Tại sao người dùng lại cần một AI lướt web hộ mình?

    Trên thực tế, có thể nhiều người vẫn chưa hình dung được tác dụng của các tác nhân AI này, cũng như tại sao nó lại đang được xem là bước phát triển mới cho tương lai trí tuệ nhân tạo tạo sinh. Theo lời quảng bá của các công ty phát triển AI, các tác nhân AI này có thể thay thế con người làm các công việc như lướt web, tạo danh sách mua sắm hoặc thêm bài hát vào playlist cũng như xử lý các bảng biểu dữ liệu – tất cả các công việc đó dường như khá đơn giản và khó có thể xem là một bước đột phá công nghệ to lớn.

    Thế nhưng có một thực tế là ngay cả các tác vụ đơn giản cũng tốn khá nhiều thời gian nếu phải lặp đi lặp lại nhiều lần. Quan trọng hơn, con người có xu hướng mắc lỗi khi làm đi làm lại một việc đơn giản nào đó, ví dụ như nhập sai thông tin, hoặc đơn giản chỉ là quên một việc nào đó như mua đồ.

    OpenAI ra mắt "tác nhân AI" Operator: Tại sao bạn lại cần một AI lướt web hộ mình khi chỉ cần vài cú click chuột là xong?- Ảnh 2.

    Ví dụ một người bận rộn công việc có thể không có thời gian để lên kế hoạch mua sắm hàng tuần, hoặc quên mất mình cần mua một món đồ nào đó. Lúc này các AI Agent có thể giúp đỡ cho họ bằng cách tự tạo danh sách mua sắm dựa trên thói quen trước đây. Ngoài ra nó cũng có thể quét email hoặc tin nhắn để phát hiện các lời nhắn mua hàng (Ví dụ: một tin nhắn có nội dung "Nhớ mua sữa cho con"). Thậm chí nó có thể tự động so sánh giá cả từ các cửa hàng online và đề xuất nơi mua hàng tiết kiệm nhất.

    Một ví dụ khác về tác dụng của AI Agent là quản lý tài chính cá nhân. Một tác nhân AI được bảo mật tốt có thể thay mặt người dùng thu thập dữ liệu trong các ứng dụng ngân hàng, ví điện tử và hóa đơn online, sau đó tự động phân loại chi tiêu và tạo báo cáo. Từ đó nó có thể đề xuất các khoản tiết kiệm hoặc cảnh báo chi tiêu khi vượt ngân sách.

    Operator hoạt động như thế nào?

    Để làm được các tác vụ này, tác nhân AI Operator của OpenAI theo dõi nội dung trên màn hình trong khi bạn sử dụng máy tính và thực hiện các tác vụ thông qua mô phỏng đầu vào bàn phím và chuột. CUA xử lý ảnh chụp màn hình để hiểu trạng thái của máy tính, sau đó đưa ra quyết định về việc nhấp chuột, gõ phím và cuộn dựa trên những quan sát của nó.

    Để sử dụng PC như bạn vẫn làm, CUA hoạt động qua nhiều bước. Đầu tiên, nó chụp ảnh màn hình để theo dõi màn hình của bạn, sau đó phân tích hình ảnh để xử lý dữ liệu pixel thô. Tiếp theo, nó xác định hành động cần thực hiện và thực hiện các thao tác đầu vào ảo để điều khiển máy tính. Thiết kế vòng lặp lặp đi lặp lại này cho phép hệ thống khắc phục lỗi và xử lý các tác vụ phức tạp trên các ứng dụng khác nhau.

    OpenAI ra mắt "tác nhân AI" Operator: Tại sao bạn lại cần một AI lướt web hộ mình khi chỉ cần vài cú click chuột là xong?- Ảnh 3.

    OpenAI cho biết Operator đạt tỷ lệ thành công 87% trên WebVoyager, bộ công cụ kiểm tra các trang web thực tế như Amazon và Google Maps. Trên WebArena, trang web offline dùng để huấn luyện các tác nhân AI, tỷ lệ thành công của Operator giảm xuống còn 58,1%. Đối với các tác vụ hệ điều hành máy tính, CUA đạt mức 38,1% trên OSWorld, vượt qua các mô hình trước đó nhưng vẫn thua hiệu suất của con người với 72,4%.

    Với bản xem trước nghiên cứu chưa hoàn hảo này, OpenAI hy vọng thu thập phản hồi của người dùng và tinh chỉnh khả năng của hệ thống. Công ty thừa nhận CUA sẽ không hoạt động đáng tin cậy trong mọi trường hợp, nhưng có kế hoạch cải thiện độ tin cậy thông qua thử nghiệm của người dùng.

    Bước đi của OpenAI diễn ra sau khi các công ty công nghệ khác đẩy mạnh vào các hệ thống AI "đại diện", có thể thực hiện hành động thay mặt người dùng. Google công bố Project Mariner vào tháng 12/2024, thực hiện các tác vụ tự động thông qua trình duyệt Chrome. Hai tháng trước đó, Anthropic ra mắt công cụ tự động hóa web "Computer Use" tập trung vào các nhà phát triển, có thể điều khiển con trỏ chuột và thực hiện các hành động trên máy tính.

    Cuộc đua phát triển tác nhân AI đang bắt đầu

    Nếu trong môi trường hoạt động vật lý, hàng loạt công ty đang chạy đua phát triển robot hình người để hỗ trợ con người trong nhiều công việc vận động khác nhau, thì các tác nhân AI chính là một loại hình "robot hình người" trên môi trường kỹ thuật số. Điều này là lý do hàng loạt công ty phát triển AI đang chạy đua với nhau để ra đời và hoàn thiện các tác nhân AI của mình - một thị trường được dự báo sẽ mang lại hàng trăm tỷ USD trong khoảng 10 năm tới.

    OpenAI ra mắt "tác nhân AI" Operator: Tại sao bạn lại cần một AI lướt web hộ mình khi chỉ cần vài cú click chuột là xong?- Ảnh 4.

    OpenAI cho biết họ đã tích hợp nhiều biện pháp kiểm soát an toàn vào Operator, yêu cầu người dùng xác nhận trước khi hoàn thành các hành động nhạy cảm như gửi email hoặc mua hàng. Operator cũng có giới hạn về những gì nó có thể duyệt, do OpenAI đặt ra, không thể truy cập một số danh mục trang web, bao gồm cờ bạc và nội dung người lớn.

    Tuy nhiên, các chuyên gia vẫn lo ngại về khả năng Operator có thể bị lừa bởi các cuộc tấn công mới. Willison, người thường xuyên đưa tin về các vấn đề bảo mật AI, cho rằng: " Tôi tưởng tượng chúng ta sẽ thấy đủ loại cuộc tấn công kiểu tiêm prompt thành công mới lạ chống lại mô hình này khi thế giới bên ngoài bắt đầu khám phá nó ."

    Về quyền riêng tư, do tất cả thông tin mà Operator nhìn thấy trên màn hình của bạn đều được gửi qua Internet đến máy chủ đám mây của OpenAI thông qua ảnh chụp màn hình định kỳ, bạn đang đặt rất nhiều niềm tin vào OpenAI. Công ty này cho biết đã triển khai một số biện pháp kiểm soát quyền riêng tư như cho phép người dùng chọn không sử dụng dữ liệu của họ để huấn luyện mô hình, xóa tất cả dữ liệu duyệt web bằng một cú nhấp chuột và đăng xuất khỏi tất cả các trang web cùng lúc.

    Tin cùng chuyên mục
    Xem theo ngày