Phòng thí nghiệm nghiên cứu AI phi lợi nhuận Kyutai của Pháp vừa giới thiệu Moshi, một mô hình AI đa phương thức nền tảng, hoạt động theo thời gian thực. Dự án mã nguồn mở này có trợ lý AI hỗ trợ giọng nói với khả năng cạnh tranh trực tiếp với GPT-4o của OpenAI và Google Astra.

Được xây dựng dựa trên mô hình Helium 7B, Moshi tích hợp khả năng huấn luyện văn bản và âm thanh, được tối ưu hóa cho các backend CUDA, Metal và CPU với hỗ trợ lượng tử hóa 4-bit và 8-bit.

Chỉ trong vòng 6 tháng, đội ngũ 8 nhà nghiên cứu tại Kyutai đã phát triển thành công Moshi – mô hình AI đột phá có khả năng hiểu và thể hiện 70 cảm xúc và phong cách khác nhau, nói với nhiều giọng khác nhau và xử lý đồng thời hai luồng âm thanh, cho phép nó nghe và nói cùng lúc.

Những điểm nổi bật của Moshi:

  1. Tương tác thời gian thực với độ trễ end-to-end là 200 mili giây.
  2. Khả năng chạy trên phần cứng phổ thông, bao gồm cả MacBook.
  3. Hỗ trợ nhiều backend (CUDA, Metal, CPU).
  4. Đang trong quá trình phát triển tính năng Watermarking để phát hiện âm thanh do AI tạo ra.

Ông Patrick Pérez, người đứng đầu Kyutai, nhận định Moshi có tiềm năng cách mạng hóa giao tiếp giữa người và máy móc. Ông ví von: “Moshi suy nghĩ trong khi nó nói”.

Kyutai có kế hoạch phát hành đầy đủ mô hình, bao gồm codebase suy luận, mô hình 7B, codec âm thanh và ngăn xếp được tối ưu hóa.

Được thành lập vào tháng 11 năm 2023 với 300 triệu euro tiền đầu tư từ các nhà đầu tư bao gồm cả tỷ phú người Pháp Xavier Niel, Kyutai đặt mục tiêu đóng góp cho nghiên cứu mở về AI và thúc đẩy phát triển hệ sinh thái.

Cách tiếp cận của phòng thí nghiệm này thách thức các công ty AI lớn như OpenAI, vốn bị chỉ trích vì trì hoãn phát hành do lo ngại về an toàn. Đáng chú ý, OpenAI đã trì hoãn việc phát hành mô hình tạo video Sora, cũng như các tính năng Voice Engine và chế độ thoại của GPT-4o.

Sự xuất hiện của Moshi góp phần nâng cao vị thế của Pháp trong lĩnh vực AI, bên cạnh các dự án khác có nguồn gốc từ Pháp như Hugging Face và Mistral.