Dựa trên các mô hình ngôn ngữ hiện có của Qwen, Qwen-Agent cung cấp cho các tác tử này những khả năng thiết yếu như tuân theo hướng dẫn chi tiết, sử dụng công cụ, lập kế hoạch nhiệm vụ và duy trì ngữ cảnh hội thoại. Nền tảng này cũng đi kèm với các tính năng nâng cao bao gồm RAG (kết hợp truy xuất thông tin và kiến tạo văn bản), trình thông dịch mã và khả năng lập luận toán học chuyên biệt được hỗ trợ bởi Qwen2.5-Math.

Nền tảng này áp dụng phương pháp hai lớp cho việc phát triển tác tử. Lớp cơ sở cung cấp các mô hình ngôn ngữ và công cụ cơ bản, trong khi lớp trên cùng cung cấp các thành phần tác tử sẵn sàng sử dụng. Các nhà phát triển có thể kết hợp những phần này để xây dựng các tác tử có thể thực hiện các nhiệm vụ phức tạp – từ đọc tệp PDF đến làm việc với các công cụ hiện có và thực hiện các chức năng tùy chỉnh. Một ví dụ thực tế là BrowserQwen, một tác tử/trợ lý duyệt web cho thấy những gì nền tảng này có thể làm.

Để triển khai, các nhà phát triển có thể sử dụng dịch vụ đám mây DashScope của Alibaba hoặc chạy các mô hình Qwen trên phần cứng của riêng họ. Gần đây, Alibaba đã giảm giá đáng kể cho các dịch vụ API AI của mình. Nền tảng này cũng bao gồm một giao diện người dùng đồ họa (GUI) giúp dễ dàng tạo các bản demo web tương tác bằng cách sử dụng framework Gradio.

Alibaba đang tiếp tục mở rộng công nghệ đằng sau các tác tử này. Họ vừa phát hành QVQ-72B-Preview cho các tác vụ thị giác, cùng với các mô hình Qwen2.5 chuyên biệt cho lập trình và toán học.

Tuy nhiên, các nhà phát triển nên lưu ý hai điều: giống như các mô hình ngôn ngữ lớn (LLM) khác của Trung Quốc, các tác tử này có thể có những hạn chế về nội dung chính trị, và cần xem xét các giải pháp đơn giản hơn trước khi chuyển sang các phương pháp dựa trên tác tử.