OpenAI tuyên bố đã phát triển một mô hình ngôn ngữ có khả năng thiết kế protein biến đổi tế bào thường thành tế bào gốc, vượt trội so với khả năng của con người.
Đây là mô hình đầu tiên của OpenAI tập trung vào dữ liệu sinh học và cũng là lần đầu tiên công ty công khai khẳng định mô hình của họ có thể mang lại kết quả khoa học đột phá. Đây được xem là bước tiến quan trọng trong việc xác định liệu AI có khả năng tạo ra những khám phá thực sự hay không, một thử thách lớn trên con đường hướng tới “trí tuệ nhân tạo tổng quát” (AGI).
Tuần trước, CEO Sam Altman của OpenAI tự tin rằng công ty biết cách xây dựng AGI, đồng thời cho rằng “các công cụ siêu thông minh có thể đẩy nhanh đáng kể các khám phá và đổi mới khoa học vượt xa khả năng của con người”.
Dự án thiết kế protein này bắt đầu từ một năm trước khi Retro Biosciences, một công ty nghiên cứu trường thọ tại San Francisco, liên hệ với OpenAI để hợp tác. Sự hợp tác này không phải ngẫu nhiên. Sam Altman, CEO của OpenAI, đã đầu tư 180 triệu đô la vào Retro, theo báo cáo của MIT Technology Review năm 2023.
Mục tiêu của Retro là kéo dài tuổi thọ con người thêm 10 năm. Để đạt được điều này, họ nghiên cứu các yếu tố Yamanaka, một tập hợp protein có khả năng biến đổi tế bào da người thành tế bào gốc đa năng, loại tế bào có thể tạo ra bất kỳ mô nào trong cơ thể.
Các nhà nghiên cứu tại Retro và các công ty được tài trợ mạnh như Altos Labs, xem đây là điểm khởi đầu tiềm năng cho việc trẻ hóa động vật, xây dựng cơ quan nội tạng người hoặc cung cấp tế bào thay thế.
Tuy nhiên, quá trình “tái lập trình” tế bào này chưa hiệu quả. Mất vài tuần và chỉ dưới 1% tế bào được xử lý trong phòng thí nghiệm hoàn thành quá trình trẻ hóa.
Mô hình mới của OpenAI, có tên GPT-4b micro, được huấn luyện để đề xuất các cách tái thiết kế các yếu tố protein nhằm tăng cường chức năng của chúng. Theo OpenAI, các nhà nghiên cứu đã sử dụng các đề xuất của mô hình để thay đổi hai yếu tố Yamanaka, giúp chúng hiệu quả hơn 50 lần, ít nhất là theo một số phép đo sơ bộ.
“Nhìn chung, các protein này có vẻ tốt hơn những gì các nhà khoa học có thể tự tạo ra”, John Hallman, nhà nghiên cứu tại OpenAI, cho biết.
Hallman và Aaron Jaech của OpenAI, cùng với Rico Meinl từ Retro, là những nhà phát triển chính của mô hình này.
Các nhà khoa học bên ngoài sẽ không thể xác minh kết quả cho đến khi chúng được công bố chính thức. Mô hình này cũng chưa được sử dụng rộng rãi, nó vẫn chỉ là một bản demo chứ không phải là một sản phẩm chính thức.
“Dự án này nhằm mục đích chứng minh rằng chúng tôi nghiêm túc trong việc đóng góp cho khoa học”, Jaech nói. “Nhưng liệu những khả năng này có được đưa ra thế giới như một mô hình riêng biệt hay sẽ được tích hợp vào các mô hình lý luận chính của chúng tôi – điều đó vẫn chưa được xác định.”
Mô hình này không hoạt động giống như AlphaFold của Google, dự đoán hình dạng của protein. Vì các yếu tố Yamanaka là các protein lỏng lẻo và không có cấu trúc, OpenAI cho biết, họ đã sử dụng một phương pháp khác, phù hợp với các mô hình ngôn ngữ lớn của họ.
Mô hình được huấn luyện trên các ví dụ về chuỗi protein từ nhiều loài, cũng như thông tin về protein nào có xu hướng tương tác với nhau. Mặc dù đó là một lượng dữ liệu lớn, nhưng nó chỉ bằng một phần nhỏ so với dữ liệu huấn luyện cho các chatbot hàng đầu của OpenAI, khiến GPT-4b trở thành một ví dụ về “mô hình ngôn ngữ nhỏ” hoạt động với tập dữ liệu tập trung.
Khi các nhà khoa học Retro được cung cấp mô hình, họ đã cố gắng hướng dẫn nó đề xuất các thiết kế lại khả thi cho protein Yamanaka. Chiến thuật được sử dụng tương tự như phương pháp “few-shot”, trong đó người dùng truy vấn chatbot bằng cách cung cấp một loạt ví dụ có câu trả lời, tiếp theo là một ví dụ để bot trả lời.
Mặc dù các kỹ sư di truyền có cách để định hướng sự tiến hóa của các phân tử trong phòng thí nghiệm, nhưng họ thường chỉ có thể kiểm tra một số khả năng nhất định. Và ngay cả một protein có độ dài điển hình cũng có thể được thay đổi theo vô số cách (vì chúng được xây dựng từ hàng trăm axit amin và mỗi axit có 20 loại khác nhau).
Tuy nhiên, mô hình của OpenAI thường đưa ra các đề xuất trong đó một phần ba số axit amin trong protein đã bị thay đổi.
“Chúng tôi đã đưa mô hình này vào phòng thí nghiệm ngay lập tức và chúng tôi đã nhận được kết quả thực tế,” CEO của Retro, Joe Betts-Lacroix, cho biết. Ông nói rằng các ý tưởng của mô hình rất tốt, dẫn đến những cải tiến so với các yếu tố Yamanaka ban đầu trong một phần đáng kể các trường hợp.
OpenAI cho biết không có tiền bạc nào được trao đổi trong sự hợp tác này. Tuy nhiên, vì công trình này có thể mang lại lợi ích cho Retro—nhà đầu tư lớn nhất của Altman—nên thông báo này có thể làm dấy lên thêm những câu hỏi xung quanh các dự án phụ của CEO OpenAI.
OpenAI khẳng định Altman không tham gia trực tiếp vào công việc này và công ty không bao giờ đưa ra quyết định dựa trên các khoản đầu tư khác của Altman.