Một đối thủ mới trong lĩnh vực trí tuệ nhân tạo vừa xuất hiện, và bạn chắc chắn sẽ muốn biết về nó. Công ty AI Trung Quốc DeepSeek vừa ra mắt mô hình ngôn ngữ lớn mã nguồn mở mang tên DeepSeek R1.
Vượt trội trong nhiều bài kiểm tra
Theo DeepSeek, R1 vượt qua các mô hình ngôn ngữ lớn (LLM) phổ biến khác, bao gồm cả OpenAI, trong một số bài kiểm tra quan trọng, đặc biệt là về toán học, lập trình và lập luận. DeepSeek R1 là phiên bản cải tiến của DeepSeek R1 Zero, một LLM được đào tạo mà không cần phương pháp tinh chỉnh có giám sát thông thường. Điều này giúp nó có khả năng xử lý tốt một số tác vụ nhất định, nhưng theo chính DeepSeek, Zero có “khả năng đọc hiểu kém và pha trộn ngôn ngữ”. R1 đã khắc phục những vấn đề này bằng cách kết hợp “đào tạo đa giai đoạn và dữ liệu khởi động lạnh” trước khi được đào tạo bằng học tăng cường.
Mã nguồn mở, chi phí thấp, hiệu năng cao
Bỏ qua những thuật ngữ kỹ thuật phức tạp (chi tiết có sẵn trực tuyến nếu bạn quan tâm), có một số điểm quan trọng bạn cần biết về DeepSeek R1. Thứ nhất, nó là mã nguồn mở, nghĩa là các chuyên gia có thể kiểm tra kỹ lưỡng, giúp giảm bớt lo ngại về quyền riêng tư và bảo mật. Thứ hai, nó miễn phí sử dụng dưới dạng ứng dụng web, trong khi quyền truy cập API rất rẻ (0,14 đô la cho một triệu mã thông báo đầu vào, so với 7,5 đô la của OpenAI cho mô hình lập luận mạnh mẽ nhất của nó, o1).
Quan trọng nhất, mô hình này rất mạnh. Để kiểm tra, tác giả đã yêu cầu nó lập trình một ứng dụng web khá phức tạp, cần phân tích dữ liệu công khai và tạo một trang web động với thông tin du lịch và thời tiết cho khách du lịch. Đáng kinh ngạc, DeepSeek đã tạo ra mã HTML hoàn toàn chấp nhận được ngay lập tức và có thể tinh chỉnh trang web dựa trên yêu cầu đầu vào, đồng thời tự cải thiện và tối ưu hóa mã trong quá trình này. Tác giả cũng đã yêu cầu nó cải thiện kỹ năng chơi cờ vua của mình trong năm phút, và nó đã trả lời bằng một số mẹo được sắp xếp gọn gàng và rất hữu ích.
Khả năng tư duy ấn tượng
Khi được yêu cầu chứng minh sự thông minh của mình trong ba câu, DeepSeek đã đưa ra những câu trả lời phức tạp đến mức khó có thể kiểm chứng. Điều thú vị là bạn có thể thấy “quá trình suy nghĩ” của DeepSeek khi nó tìm ra câu trả lời, điều này có lẽ còn hấp dẫn hơn cả chính câu trả lời.
Chi phí đào tạo thấp, hiệu quả cao
Như ZDnet đã lưu ý, chi phí đào tạo DeepSeek thấp hơn đáng kể so với một số mô hình cạnh tranh, cũng như sử dụng chip không mạnh bằng chip mà các công ty AI của Hoa Kỳ đang sử dụng. DeepSeek cho thấy rằng AI thông minh với khả năng lập luận không nhất thiết phải tốn kém để đào tạo hoặc sử dụng.