Mô hình Genie của Google tạo ra thế giới 2D tương tác từ một hình ảnh duy nhất
Genie sử dụng một mô hình AI để phân tích một hình ảnh và xây dựng một thế giới 2D
Tại thời điểm này, bất kỳ ai theo dõi AI tạo ra đều được sử dụng cho các công cụ có thể tạo nội dung thụ động, có thể tiêu thụ dưới dạng văn bản, hình ảnh, video và âm thanh. Mô hình Genie được công bố gần đây của Google DeepMind (cho "Môi trường tương tác GENerative") thực hiện một cái gì đó hoàn toàn khác, chuyển đổi hình ảnh thành "môi trường tương tác, có thể chơi được có thể dễ dàng tạo, bước vào và khám phá".
Trang thông báo Genie của DeepMind hiển thị rất nhiều GIF mẫu của các trò chơi kiểu nền tảng đơn giản được tạo từ hình ảnh bắt đầu tĩnh (bản phác thảo của trẻ em, ảnh trong thế giới thực, v.v.) hoặc thậm chí lời nhắc văn bản được truyền qua ImageGen2. Trong khi những ảnh GIF trông bóng bẩy đó che đậy một số hạn chế lớn hiện tại được thảo luận trong toàn bộ bài nghiên cứu, các nhà nghiên cứu AI vẫn vui mừng về cách "mô hình hóa thế giới nền tảng" có thể khái quát hóa của Genie có thể giúp tăng cường học máy trong tương lai.
Genie sử dụng một mô hình AI để phân tích một hình ảnh và xây dựng một thế giới 2D phản ánh chính xác về hình dạng và cấu trúc của đối tượng trong hình ảnh. Điều này cho phép người dùng tương tác với các phần của hình ảnh, thậm chí là di chuyển các đối tượng hoặc thay đổi môi trường xung quanh chúng.
Mặc dù đầu ra của Genie trông tương tự như những gì có thể đến từ một công cụ trò chơi 2D cơ bản, mô hình không thực sự vẽ các họa tiết và mã hóa một nền tảng có thể chơi được giống như cách mà một nhà phát triển trò chơi của con người có thể. Thay vào đó, hệ thống coi hình ảnh bắt đầu của nó (hoặc hình ảnh) là khung của video và tạo ra dự đoán tốt nhất về toàn bộ khung hình (hoặc khung) tiếp theo sẽ trông như thế nào khi được cung cấp một đầu vào cụ thể.
Để thiết lập mô hình đó, Genie bắt đầu với 200.000 giờ video chơi game công cộng trên Internet, được lọc xuống còn 30.000 giờ video được tiêu chuẩn hóa từ "hàng trăm trò chơi 2D". Các khung hình riêng lẻ từ những video đó sau đó được mã hóa thành mô hình 200 triệu tham số mà thuật toán học máy có thể dễ dàng làm việc.
Từ đây, hệ thống đã tạo ra một "mô hình hành động tiềm ẩn" để dự đoán loại "hành động" tương tác nào (tức là nhấn nút) có thể tạo ra loại thay đổi từng khung hình được thấy trên tất cả các mã thông báo đó. Hệ thống giới hạn các đầu vào tiềm năng trong một "không gian hành động tiềm ẩn" gồm tám đầu vào có thể có (ví dụ: bốn hướng d-pad cộng với đường chéo) trong nỗ lực "cho phép khả năng chơi của con người" (điều này có ý nghĩa, vì các video mà nó được đào tạo đều có thể chơi được).
Với mô hình hành động tiềm ẩn được thiết lập, Genie sau đó tạo ra một "mô hình động lực" có thể lấy bất kỳ số lượng khung hình tùy ý và hành động tiềm ẩn nào và tạo ra một dự đoán có giáo dục về khung hình tiếp theo sẽ trông như thế nào với bất kỳ đầu vào tiềm năng nào. Mô hình cuối cùng này kết thúc với 10,7 tỷ thông số được đào tạo trên 942 tỷ mã thông báo, mặc dù kết quả của Genie cho thấy rằng các mô hình thậm chí lớn hơn sẽ tạo ra kết quả tốt hơn.
Công việc trước đây về việc tạo ra các mô hình tương tác tương tự bằng cách sử dụng AI tạo ra đã dựa vào việc sử dụng "nhãn hành động sự thật cơ bản" hoặc mô tả văn bản về dữ liệu đào tạo để giúp hướng dẫn các thuật toán học máy của họ. Genie khác biệt với công việc đó ở khả năng "đào tạo mà không cần hành động hoặc chú thích văn bản", suy ra các hành động tiềm ẩn đằng sau video không sử dụng gì ngoài những khung hình video được mã hóa hàng giờ.
"Khả năng khái quát hóa các đầu vào [ngoài phân phối] đáng kể như vậy nhấn mạnh sự mạnh mẽ trong cách tiếp cận của chúng tôi và giá trị của việc đào tạo trên dữ liệu quy mô lớn, điều này sẽ không khả thi với các hành động thực tế làm đầu vào", nhóm Genie viết trong bài nghiên cứu của mình.
Một bước tiến mới?
Bất chấp những thách thức hiện tại, chúng tôi không muốn đánh giá thấp những gì Genie hiện đang có thể làm. Không có gì ngoài một hình ảnh tĩnh duy nhất để bắt đầu, Genie dường như có thể phân biệt nhân vật người chơi với nền trò chơi, tạo ra ước tính sơ bộ về cách nhân vật đó sẽ di chuyển và hoạt hình để đáp ứng với đầu vào của người chơi và thậm chí cuộn nền một cách thích hợp khi nhân vật đó di chuyển (với cuộn thị sai ấn tượng trong một số ví dụ). Đó là một thành tựu đáng kể đối với một hệ thống không có bất kỳ hướng dẫn nào của con người hoặc hỗ trợ dán nhãn hành động để diễn giải dữ liệu đào tạo video của nó.
Và cách tiếp cận "học hỏi từ khung video" có thể khái quát hóa của Genie cũng có các ứng dụng tiềm năng ngoài việc tạo ra các nền tảng 2D. Để chứng minh khái niệm, nhóm Genie đã đào tạo một mô hình tham số nhỏ hơn, 2,5 tỷ USD, cố gắng ánh xạ các hành động tiềm ẩn vào video về một cánh tay robot hoạt động trong không gian ba chiều. Hệ thống đó tương tự có thể lập bản đồ chuyển động của cánh tay với các đầu vào hành động nhất quán và thậm chí dự đoán cách các vật thể được cánh tay robot nhặt có thể "biến dạng" để đáp ứng với hành động.
Kết quả robot đó khiến các nhà nghiên cứu hy vọng rằng loại kỹ thuật này có thể được sử dụng "để tạo ra một mô hình thế giới nền tảng cho robot, với mô phỏng có thể điều khiển ở mức độ thấp có thể được sử dụng cho nhiều ứng dụng khác nhau", như nhóm Genie nói. Và ý tưởng đó cũng có thể vượt ra ngoài robot: "Với tính tổng quát của nó, mô hình có thể được đào tạo từ một tỷ lệ lớn hơn các video trên Internet để mô phỏng các môi trường đa dạng, thực tế và tưởng tượng", nhóm nghiên cứu viết trong bài báo của mình.
Bất chấp những hạn chế của Genie, các nhà nghiên cứu của DeepMind đã nhìn về phía trước loại mô hình thế giới mạnh mẽ này có thể có ý nghĩa gì đối với AI nói chung. Jack Parker-Holder của DeepMind cho biết trên phương tiện truyền thông xã hội rằng Genie đại diện cho "một con đường khả thi để tạo ra sự đa dạng phong phú của môi trường mà chúng ta cần cho [trí tuệ nhân tạo nói chung]." Tình trạng hiện tại của Genie "là những người mẫu video tồi tệ nhất từng có", ông tiếp tục. "Cực kỳ thú vị khi thấy tác động của các mô hình này khi được sử dụng làm mô phỏng thế giới với học tập kết thúc mở."