Skip to content Skip to sidebar Skip to footer

Google Genie: Η τεχνητή νοημοσύνη που μετατρέπει μια φωτογραφία σε video game

Στον ταχύτατα εξελισσόμενο κόσμο της Generative AI, έχουμε δει μοντέλα που μπορούν να γράψουν ποίηση, να δημιουργήσουν φωτορεαλιστικές εικόνες από το μηδέν και, πιο πρόσφατα, να παράγουν εντυπωσιακά βίντεο υψηλής ευκρίνειας. Ωστόσο, η Google DeepMind αποφάσισε να κάνει το επόμενο βήμα: να προσθέσει τον παράγοντα της διαδραστικότητας. Με την παρουσίαση του Project Genie, η εταιρεία εισάγει μια νέα κατηγορία τεχνητής νοημοσύνης, ικανή να μετατρέψει μια απλή εικόνα, ένα σκίτσο ή μια περιγραφή κειμένου σε έναν πλήρως λειτουργικό, playable κόσμο βιντεοπαιχνιδιού.

Το Genie  δεν είναι απλώς ένα ακόμη εργαλείο δημιουργίας περιεχομένου. Πρόκειται για ένα θεμελιώδες μοντέλο κόσμου που εκπαιδεύτηκε βλέποντας βίντεο παιχνιδιών, μαθαίνοντας όχι μόνο πώς φαίνονται οι κόσμοι αυτοί, αλλά και πώς λειτουργούν, πώς υπακούουν στους νόμους της φυσικής και πώς ανταποκρίνονται στις εντολές του παίκτη, χωρίς να του έχει δοθεί ποτέ πρόσβαση στον κώδικα ή στα χειριστήρια.

📍 Η εξέλιξη της είδησης: GENIE

Η τεχνολογία πίσω από τη μαγεία

Το εντυπωσιακό στοιχείο του Genie έγκειται στην αρχιτεκτονική του και στη μέθοδο εκπαίδευσής του. Το μοντέλο τροφοδοτήθηκε με περισσότερες από 200.000 ώρες βίντεο από 2D παιχνίδια πλατφόρμας , τα οποία ήταν διαθέσιμα δημόσια στο διαδίκτυο. Η καινοτομία, όμως, βρίσκεται στο ότι η εκπαίδευση ήταν «μη επιβλεπόμενη». Αυτό σημαίνει ότι το βίντεο δεν συνοδευόταν από δεδομένα που να εξηγούν ποιο κουμπί πατήθηκε για να εκτελεστεί μια κίνηση.

Για να λύσει αυτό το πρόβλημα, η DeepMind ανέπτυξε ένα Latent Action Model. Το σύστημα ανέλυσε τα βίντεο καρέ καρέ και έμαθε να αναγνωρίζει ποιες αλλαγές στην εικόνα οφείλονται σε ενέργειες του παίκτη (π.χ. άλμα, κίνηση δεξιά) και ποιες είναι περιβαλλοντικές. Ουσιαστικά, το Genie έμαθε να συμπεραίνει τα χειριστήρια. Αντί να του πει κάποιος «πατώντας το Α ο χαρακτήρας πηδάει», το μοντέλο παρατήρησε εκατομμύρια άλματα και δημιούργησε μια «λανθάνουσα ενέργεια»  που αντιστοιχεί σε αυτή την κίνηση.

Το αποτέλεσμα είναι ένα μοντέλο 11 δισεκατομμυρίων παραμέτρων που μπορεί να πάρει οποιαδήποτε αρχική εικόνα και να προβλέψει το επόμενο καρέ με βάση την εντολή που δίνει ο χρήστης. Έτσι, δημιουργείται η ψευδαίσθηση ενός παιχνιδιού σε πραγματικό χρόνο, όπου ο χρήστης ελέγχει τον χαρακτήρα σε έναν κόσμο που η AI ζωγραφίζει και αναδομεί συνεχώς μπροστά στα μάτια του.

Από το χαρτί στην οθόνη

Οι δυνατότητες εφαρμογής του Genie φαντάζουν απεριόριστες και αγγίζουν τα όρια της επιστημονικής φαντασίας. Η πιο χαρακτηριστική επίδειξη της τεχνολογίας αφορά τη μετατροπή αναλογικών σχεδίων σε ψηφιακές εμπειρίες. Ένα παιδί μπορεί να ζωγραφίσει έναν χαρακτήρα και μια πίστα με μαρκαδόρους σε ένα χαρτί, να το βγάλει φωτογραφία και το Genie να το μετατρέψει άμεσα σε ένα παιχνίδι όπου ο ζωγραφισμένος ήρωας κινείται, πηδάει και αλληλεπιδρά με τα εμπόδια που σχεδιάστηκαν πρόχειρα στο χαρτί.

Πέρα από τα σκίτσα, το μοντέλο μπορεί να δεχτεί ως είσοδο φωτογραφίες από τον πραγματικό κόσμο ή εικόνες που έχουν δημιουργηθεί από άλλα μοντέλα AI, όπως το Midjourney ή το DALL-E 3. Φανταστείτε να δημιουργείτε μια φουτουριστική πόλη με μια γεννήτρια εικόνας και στη συνέχεια να ζητάτε από το Genie να την κάνει εξερευνήσιμη. Η ικανότητα του μοντέλου να αναγνωρίζει ποιο τμήμα της εικόνας είναι ο «παίκτης» και ποιο είναι το «έδαφος» ή το «εμπόδιο» χωρίς καμία ανθρώπινη παρέμβαση, αποτελεί ένα τεράστιο άλμα στην κατανόηση σκηνής.

Η σημασία για την Γενική Τεχνητή Νοημοσύνη

Αν και η παιχνιδιάρικη φύση του Genie τραβάει τα βλέμματα, για τους ερευνητές της Google, το project αυτό εξυπηρετεί έναν βαθύτερο σκοπό: την πορεία προς την Γενική Τεχνητή Νοημοσύνη (AGI). Η ικανότητα ενός συστήματος να κατανοεί και να προσομοιώνει έναν κόσμο θεωρείται κρίσιμη για την ανάπτυξη ρομποτικών συστημάτων και πρακτόρων AI που θα μπορούν να λειτουργούν στον φυσικό κόσμο.

Το Genie αποδεικνύει ότι ένα νευρωνικό δίκτυο μπορεί να μάθει τους κανόνες της φυσικής (βαρύτητα, αδράνεια, συγκρούσεις) και της αιτιότητας απλώς παρατηρώντας βίντεο. Μαθαίνει ότι αν ο χαρακτήρας περπατήσει στο κενό, θα πέσει, όχι επειδή προγραμματίστηκε έτσι, αλλά επειδή αυτό συμβαίνει στα δεδομένα που έχει δει. Αυτή η «σιωπηρή γνώση» είναι θεμελιώδης για την εκπαίδευση μελλοντικών ρομπότ που θα μαθαίνουν να εκτελούν εργασίες παρακολουθώντας βίντεο ανθρώπων, αντί να χρειάζονται πολύπλοκο προγραμματισμό για κάθε κίνηση.

Περιορισμοί και το μέλλον της τεχνολογίας

Φυσικά, ως ερευνητικό project, το Genie έχει προς το παρόν συγκεκριμένους περιορισμούς. Η τρέχουσα έκδοση λειτουργεί με χαμηλό ρυθμό ανανέωσης, περίπου στο 1 FPS (καρέ ανά δευτερόλεπτο) κατά την εκπαίδευση, αν και η αναπαραγωγή μπορεί να βελτιωθεί. Επίσης, η ανάλυση των παραγόμενων παιχνιδιών είναι σχετικά χαμηλή και περιορίζεται σε 2D περιβάλλοντα πλατφόρμας. Υπάρχουν επίσης στιγμές που το μοντέλο «παραισθάνεται» , παραμορφώνοντας τον χαρακτήρα ή το περιβάλλον με μη ρεαλιστικούς τρόπους, καθώς προσπαθεί να μαντέψει το επόμενο καρέ.

Ωστόσο, η Google βλέπει το Genie ως την αρχή μιας νέας εποχής. Στο μέλλον, παρόμοια μοντέλα θα μπορούσαν να εκπαιδευτούν σε τρισδιάστατα περιβάλλοντα, επιτρέποντας τη δημιουργία πολύπλοκων 3D κόσμων και simulations με ελάχιστο κόπο. Για τη βιομηχανία των βιντεοπαιχνιδιών, αυτό θα μπορούσε να σημαίνει δραματική μείωση του χρόνου ανάπτυξης, επιτρέποντας στους developers να δοκιμάζουν ιδέες και μηχανισμούς σχεδόν ακαριαία.

Εκδημοκρατισμός της δημιουργίας

Το πιο συναρπαστικό στοιχείο του Genie είναι η προοπτική του εκδημοκρατισμού. Μέχρι σήμερα, η δημιουργία ενός βιντεοπαιχνιδιού απαιτούσε γνώσεις προγραμματισμού, σχεδιασμού γραφικών και game design. Το Genie υπόσχεται να εξαλείψει αυτά τα εμπόδια, μετατρέποντας τον καθένα σε δημιουργό παιχνιδιών.

Η ιδέα ότι η δημιουργικότητα δεν θα περιορίζεται πλέον από τις τεχνικές δεξιότητες είναι επαναστατική. Ένας συγγραφέας θα μπορούσε να φτιάξει ένα διαδραστικό παραμύθι, ένας δάσκαλος θα μπορούσε να δημιουργήσει εκπαιδευτικά παιχνίδια προσαρμοσμένα στο μάθημα της ημέρας και ένας καλλιτέχνης θα μπορούσε να μετατρέψει τους πίνακές του σε ζωντανούς κόσμους.

Το Genie της Google DeepMind δεν είναι απλώς ένα τεχνολογικό demo· είναι ένα παράθυρο σε ένα μέλλον όπου η γραμμή μεταξύ παθητικής κατανάλωσης περιεχομένου και ενεργητικής δημιουργίας θολώνει οριστικά. Καθώς η τεχνολογία ωριμάζει και η επεξεργαστική ισχύς αυξάνεται, είναι θέμα χρόνου μέχρι να δούμε τα πρώτα «Generative Games» να κατακτούν την αγορά, προσφέροντας εμπειρίες που προσαρμόζονται και εξελίσσονται σε πραγματικό χρόνο, με μοναδικό όριο την ανθρώπινη φαντασία.