Trong nhiều năm qua, các CEO công nghệ lớn đã không ngừng vẽ ra viễn cảnh về những tác nhân AI (AI agents) có khả năng tự động sử dụng các ứng dụng phần mềm để hoàn thành công việc cho con người. Tuy nhiên, khi trải nghiệm những tác nhân AI tiêu dùng hiện nay như ChatGPT Agent của OpenAI hay Comet của Perplexity, chúng ta nhanh chóng nhận ra công nghệ này vẫn còn nhiều hạn chế. Để các tác nhân AI trở nên mạnh mẽ và linh hoạt hơn, có lẽ cần đến một bộ kỹ thuật mới mà ngành công nghiệp vẫn đang trong quá trình khám phá.

Một trong những kỹ thuật tiềm năng đó là mô phỏng cẩn thận các không gian làm việc, nơi các tác nhân có thể được huấn luyện trên các tác vụ đa bước – được gọi là môi trường học tăng cường (Reinforcement Learning – RL environments). Tương tự như cách các bộ dữ liệu được gắn nhãn đã thúc đẩy làn sóng AI trước, các môi trường RL đang dần trở thành một yếu tố then chốt trong quá trình phát triển các tác nhân AI thế hệ mới. Các nhà nghiên cứu, nhà sáng lập và nhà đầu tư trong lĩnh vực AI đều khẳng định rằng các phòng thí nghiệm AI hàng đầu đang có nhu cầu lớn về các môi trường RL, và không thiếu các startup sẵn sàng đáp ứng.

Môi trường học tăng cường (RL environment) là gì?

Về bản chất, môi trường học tăng cường là những “sân tập” mô phỏng những gì một tác nhân AI sẽ thực hiện trong một ứng dụng phần mềm thực tế. Một nhà sáng lập đã mô tả việc xây dựng chúng giống như “tạo ra một trò chơi điện tử rất nhàm chán”. Chẳng hạn, một môi trường có thể mô phỏng trình duyệt Chrome và giao nhiệm vụ cho tác nhân AI mua một đôi tất trên Amazon. Tác nhân sẽ được đánh giá dựa trên hiệu suất và nhận được tín hiệu “thưởng” khi hoàn thành thành công (trong trường hợp này là mua được đôi tất phù hợp).

Dù nhiệm vụ nghe có vẻ đơn giản, nhưng có rất nhiều điểm mà tác nhân AI có thể gặp khó khăn. Nó có thể bị lạc khi điều hướng các menu thả xuống của trang web hoặc mua quá nhiều tất. Và bởi vì các nhà phát triển không thể dự đoán chính xác những “lỗi” mà tác nhân sẽ mắc phải, bản thân môi trường phải đủ mạnh mẽ để nắm bắt mọi hành vi bất ngờ và vẫn cung cấp phản hồi hữu ích. Điều này khiến việc xây dựng môi trường phức tạp hơn nhiều so với một bộ dữ liệu tĩnh.

Một số môi trường được thiết kế khá công phu, cho phép tác nhân AI sử dụng công cụ, truy cập internet hoặc sử dụng các ứng dụng phần mềm khác nhau để hoàn thành một nhiệm vụ nhất định. Trong khi đó, các môi trường khác lại hẹp hơn, nhằm giúp tác nhân học các nhiệm vụ cụ thể trong các ứng dụng phần mềm doanh nghiệp. Mặc dù môi trường RL đang là xu hướng nóng ở Thung lũng Silicon hiện nay, nhưng kỹ thuật này đã có tiền lệ. Một trong những dự án đầu tiên của OpenAI vào năm 2016 là xây dựng “RL Gyms”, khá giống với khái niệm môi trường hiện đại. Cùng năm đó, hệ thống AI AlphaGo của Google DeepMind đã đánh bại nhà vô địch thế giới cờ vây, cũng sử dụng kỹ thuật RL trong một môi trường mô phỏng.

Cuộc đua khốc liệt giữa các ông lớn và startup

Thị trường xây dựng môi trường RL đang trở nên cực kỳ sôi động với sự tham gia của cả những công ty dán nhãn dữ liệu lớn như Scale AI, Surge và Mercor, cùng với các startup mới nổi. Các công ty lớn này có nhiều nguồn lực và mối quan hệ sâu sắc với các phòng thí nghiệm AI. Edwin Chen, CEO của Surge, tiết lộ rằng công ty đã chứng kiến “sự gia tăng đáng kể” về nhu cầu môi trường RL từ các phòng thí nghiệm AI và đã thành lập một tổ chức nội bộ mới chuyên trách mảng này. Tương tự, Mercor, một startup trị giá 10 tỷ đô la, đang chào mời các nhà đầu tư về khả năng xây dựng môi trường RL cho các tác vụ chuyên biệt như lập trình, y tế và luật. CEO Brendan Foody của Mercor khẳng định “ít ai hiểu được cơ hội lớn đến mức nào xung quanh môi trường RL”. Ngay cả Scale AI, dù từng gặp khó khăn, cũng đang nỗ lực thích nghi và xây dựng môi trường.

Bên cạnh các ông lớn, một thế hệ startup mới đang tập trung hoàn toàn vào lĩnh vực này. Mechanize, một startup thành lập khoảng sáu tháng trước với mục tiêu đầy tham vọng là “tự động hóa mọi công việc”, đang bắt đầu với môi trường RL cho các tác nhân AI lập trình. Matthew Barnett, đồng sáng lập Mechanize, cho biết công ty của anh hướng tới cung cấp một số lượng nhỏ các môi trường RL mạnh mẽ, thay vì nhiều môi trường đơn giản. Để thu hút nhân tài, Mechanize sẵn sàng trả mức lương 500.000 đô la cho các kỹ sư phần mềm xây dựng môi trường RL, cao hơn đáng kể so với các nhà thầu theo giờ. Trong khi đó, Prime Intellect, một startup được Andrej Karpathy, Founders Fund và Menlo Ventures hậu thuẫn, lại nhắm đến các nhà phát triển nhỏ hơn. Họ đã ra mắt một trung tâm môi trường RL, với ý tưởng trở thành “Hugging Face cho môi trường RL”, cung cấp cho các nhà phát triển mã nguồn mở quyền truy cập vào các tài nguyên tương tự như các phòng thí nghiệm AI lớn, đồng thời bán quyền truy cập vào tài nguyên tính toán.

Liệu môi trường RL có thực sự tạo ra bước nhảy vọt?

Câu hỏi lớn đặt ra xung quanh các môi trường RL là liệu kỹ thuật này có thể mở rộng quy mô như các phương pháp huấn luyện AI trước đây hay không. Học tăng cường đã thúc đẩy một số bước tiến lớn nhất trong AI trong năm qua, bao gồm các mô hình như o1 của OpenAI và Claude Opus 4 của Anthropic. Đây là những đột phá đặc biệt quan trọng vì các phương pháp cải thiện mô hình AI được sử dụng trước đây đang cho thấy hiệu suất giảm dần.

Môi trường là một phần trong canh bạc lớn hơn của các phòng thí nghiệm AI vào RL, mà nhiều người tin rằng sẽ tiếp tục thúc đẩy tiến bộ khi họ bổ sung thêm dữ liệu và tài nguyên tính toán vào quá trình này. Thay vì chỉ thưởng cho chatbot vì phản hồi văn bản, môi trường cho phép các tác nhân hoạt động trong các mô phỏng với các công cụ và máy tính theo ý của chúng. Điều đó tốn nhiều tài nguyên hơn, nhưng có khả năng mang lại phần thưởng lớn hơn.

Tuy nhiên, một số chuyên gia vẫn tỏ ra hoài nghi về việc tất cả các môi trường RL này sẽ thành công. Ross Taylor, cựu trưởng nhóm nghiên cứu AI của Meta và đồng sáng lập General Reasoning, cảnh báo rằng môi trường RL dễ bị “hack phần thưởng”. Đây là quá trình mà các mô hình AI gian lận để nhận được phần thưởng mà không thực sự hoàn thành nhiệm vụ. Ông cho rằng “mọi người đang đánh giá thấp mức độ khó khăn của việc mở rộng quy mô môi trường”. Sherwin Wu, Trưởng bộ phận Kỹ thuật API của OpenAI, cũng bày tỏ sự “thiếu tin tưởng” vào các startup môi trường RL, nhấn mạnh rằng đây là một không gian rất cạnh tranh và nghiên cứu AI đang phát triển quá nhanh khiến việc phục vụ tốt các phòng thí nghiệm AI trở nên khó khăn. Ngay cả Andrej Karpathy, một nhà đầu tư vào Prime Intellect và từng gọi môi trường RL là một đột phá tiềm năng, cũng đã lên tiếng thận trọng hơn về không gian RL nói chung, đặt ra câu hỏi về mức độ tiến bộ AI có thể khai thác được từ RL.