Home Google Η Google DeepMind παρουσιάζει το Genie 3 με μη επιβλεπόμενη μάθηση για...

Η Google DeepMind παρουσιάζει το Genie 3 με μη επιβλεπόμενη μάθηση για διαδραστικά τρισδιάστατα περιβάλλοντα

50
Google-Genie 3

Η Google DeepMind ανακοίνωσε το Genie 3, ένα προηγμένο μοντέλο κόσμου ικανό να δημιουργεί διαδραστικά τρισδιάστατα περιβάλλοντα από μία μόνο εικόνα. Το μοντέλο, εκπαιδευμένο χωρίς επίβλεψη ή ετικέτες περιβάλλοντος, επιτρέπει στους χρήστες να ελέγχουν τον χαρακτήρα σε έναν προσομοιωμένο κόσμο που προκύπτει από την εικόνα εισόδου.

Εκπαίδευση Genie 3 με μη επιβλεπόμενη μάθηση

Το Genie 3 έχει σχεδιαστεί ως ένα παγκόσμιο μοντέλο που προβλέπει μελλοντικά καρέ, ανταμοιβές και ενέργειες με βάση δεδομένα βίντεο. Σε αντίθεση με τα προηγούμενα μοντέλα, το Genie μαθαίνει με μη επιβλεπόμενο τρόπο—εκπαιδεύεται αποκλειστικά σε βίντεο στο διαδίκτυο και σχετικές ενέργειες, χωρίς επισημασμένα περιβάλλοντα ή επιτήρηση.

Μπορεί να γενικευτεί σε νέες οπτικές εισόδους, δημιουργώντας διαδραστικά, ελεγχόμενα περιβάλλοντα χωρίς βελτιστοποίηση. Το σύνολο εκπαίδευσης περιλαμβάνει 30 εκατομμύρια βίντεο κλιπ σε συνδυασμό με ίχνη δράσης, καθιστώντας το ένα από τα μεγαλύτερα μη επιβλεπόμενα σύνολα δεδομένων για παγκόσμια μοντελοποίηση μέχρι σήμερα.

Από εικόνα σε παιχνίδι που μπορεί να παιχτεί

Οι χρήστες παρέχουν μία μόνο εικόνα—είτε σχεδιασμένη, είτε αποδοσμένη είτε σε πραγματικό κόσμο. Στη συνέχεια, το Genie 3:

  • Εξάγει τη χωρική διάταξη από την εικόνα
  • Χρησιμοποιεί το μοντέλο λανθάνουσας δράσης για να κατανοήσει πιθανές κινήσεις
  • Αποδίδει ένα δυναμικό, ελεγχόμενο τρισδιάστατο περιβάλλον όπου ο χρήστης μπορεί να αλληλεπιδράσει σαν να παίζει ένα βιντεοπαιχνίδι με πλευρική κύλιση.

Σύμφωνα με το DeepMind, το μοντέλο υποστηρίζει κίνηση και αλληλεπίδραση μέσω μιας ενσωματωμένης αναπαράστασης λανθάνουσας δράσης που χειρίζεται την κίνηση του χαρακτήρα με βάση τις εντολές του χρήστη. Αυτό επιτρέπει στο σύστημα να προσομοιώνει τη φυσική, τον έλεγχο του χαρακτήρα και τις αντιδράσεις του περιβάλλοντος σε πραγματικό χρόνο.

Αρχιτεκτονική Μοντέλου

  • Χωροχρονικός tokenizator βίντεο: Μετατρέπει τα καρέ βίντεο σε διακριτά tokens για αποτελεσματική μάθηση.
  • Μοντέλο λανθάνουσας δράσης: Μαθαίνει μια συμπιεσμένη αναπαράσταση ενεργειών από ζεύγη βίντεο-δράσης.
  • Δυναμικό μοντέλο: Προβλέπει τα επόμενα καρέ και καταστάσεις.
  • Renderer: Μετατρέπει τα μαθημένα tokens σε ρεαλιστικά καρέ τύπου 3D.

Όλα τα στοιχεία εκπαιδεύτηκαν από άκρο σε άκρο, χρησιμοποιώντας δεδομένα από ανοιχτές πηγές στο διαδίκτυο, χωρίς καμία εμπλοκή μηχανής παιχνιδιού.

Το DeepMind σημειώνει ότι το Genie 3:

  • Περιορίζεται σε περιβάλλοντα πλευρικής κύλισης 2D,
  • Μπορεί να προσομοιώσει μόνο χαρακτήρες με σταθερές κατευθύνσεις κίνησης (αριστερά/δεξιά),
  • Δεν υποστηρίζει μακροπρόθεσμη μνήμη ή σχεδιασμό υψηλού επιπέδου,
  • Μπορεί να παράγει χαμηλή οπτική ποιότητα σε εισόδους εκτός διανομής (μη ορατές).

Είναι ένα πρώιμο πρωτότυπο, που προορίζεται για την εξερεύνηση της μάθησης σε ελεγχόμενο περιβάλλον από παθητικό βίντεο.

Το Genie 3 είναι προς το παρόν διαθέσιμο ως περιορισμένη προεπισκόπηση έρευνας μέσω δημόσιας διαδικτυακής επίδειξης. Η DeepMind αναφέρει ότι ενδέχεται να επεκτείνει την πρόσβαση στο μέλλον με βάση τα σχόλια και τις αξιολογήσεις ασφάλειας.