Generative Data Intelligence

Χρήστες χτυπήθηκαν από το Εργαλείο εικόνας σε βίντεο της Microsoft – VASA-

Ημερομηνία:

Καθώς ο αγώνας για την υπεροχή της τεχνητής νοημοσύνης συνεχίζεται, η Microsoft θέλει τώρα να μετατρέψει τις φωτογραφίες πορτρέτων των ανθρώπων σε πρόσωπα ή βίντεο που μιλάνε με το τελευταίο της εργαλείο, το VASA-1.

Σύμφωνα με μια ερευνητική εργασία του τεχνολογικού γίγαντα, η Microsoft πηγαίνει τον αγώνα τεχνητής νοημοσύνης σε άλλο επίπεδο, με ΒΑΣΑ 1, πλαίσιο για τη δημιουργία ρεαλιστικών ομιλούντων προσώπων εικονικών χαρακτήρων με οπτικές συναισθηματικές δεξιότητες (VAS), όλα από ένα πορτρέτο.

Διαβάστε επίσης: Ο κλάδος των βιντεοπαιχνιδιών βιάζεται να ενωθεί μέσω AI

Από πορτρέτα μέχρι πρόσωπα που μιλάνε

Αν και δεν είναι ακόμη διαθέσιμο στο κοινό, το εργαλείο τραβάει μία φωτογραφία με πορτρέτο και ήχο ομιλίας και παράγει ένα υπερρεαλιστικό βίντεο ομιλούντος προσώπου με ακριβή συγχρονισμό ήχου χειλιών, ρεαλιστική συμπεριφορά προσώπου και νατουραλιστικές κινήσεις του κεφαλιού που παράγονται σε πραγματικό χρόνο.

Το εργαλείο βρίσκεται ακόμα σε στάδιο προεπισκόπησης έρευνας με την ομάδα έρευνας της Microsoft και τα βίντεο επίδειξης «φαίνονται εντυπωσιακά».

Ενώ εταιρείες όπως η Nvidia και η Runway έχουν ήδη παρόμοια τεχνολογία κίνησης κεφαλιού και συγχρονισμού χειλιών, η VASA-1 φαίνεται «να είναι πολύ υψηλότερης ποιότητας και ρεαλισμού», γεγονός που μειώνει τα τεχνουργήματα στο στόμα, σύμφωνα με Ο Οδηγός του Tom.

Επιπλέον, αυτή η προσέγγιση στα κινούμενα σχέδια με ήχο είναι επίσης όπως η πρόσφατη Vlogger AI μοντέλο από την Google Research.

Σύμφωνα με τη Microsoft, ενώ όλες οι εικόνες στα παραδείγματα επίδειξης είναι συνθετικές που δημιουργούνται από το Dall-E, το VASA-1 μπορεί ακόμα να ζωντανέψει μια πραγματική εικόνα.

Η επίδειξη δείχνει διαφορετικούς ανθρώπους να μιλούν με σχεδόν φυσικές κινήσεις, εκφράσεις του προσώπου, κινήσεις των ματιών «δεν υπάρχουν τεχνουργήματα γύρω από το πάνω και το κάτω μέρος του στόματος που φαίνονται σε άλλα εργαλεία».

Επίσης, δεν απαιτεί εικόνα σε στυλ πορτραίτου προς τα εμπρός για να λειτουργήσει.

Το VASA-1 έκανε τους ανθρώπους να μιλάνε

Ήδη, οι λάτρεις της τεχνητής νοημοσύνης φαίνονται συγκλονισμένοι από την τεχνολογία που την περιγράφει ως «άγρια» και «τρελή» στην πλατφόρμα X.

"Οι βελτιώσεις που λαμβάνουμε μεταξύ κάθε κυκλοφορίας είναι απίστευτες." είπε Λίνους Έκενσταμ.

Άλλοι πιστεύουν ότι ο κόσμος είναι μάρτυρας μιας «σεισμικής αλλαγής στον τρόπο δημιουργίας του περιεχομένου των μέσων ενημέρωσης» και του τρόπου με τον οποίο καταναλώνεται.

«Αυτό είναι συγκλονιστικό, ο ρεαλισμός είναι κορυφαίος», είπε ένας άλλος ενθουσιώδης που ονομάστηκε Sam.

Αν και άλλοι αναγνωρίζουν τις ικανότητες του εργαλείου, πιστεύουν επίσης ότι είναι λίγο ανεύθυνο εκ μέρους της Microsoft να εισάγει ένα εργαλείο που μπορεί εύκολα να χειριστεί εκλογικά deepfakes.

«Wild να το ρίξω ακριβώς πριν από τις εκλογές» Έγραψε Rowan Cheung στην πλατφόρμα X.

Ένας άλλος χρήστης Evan Kirstel σχολίασε με μια αυστηρή προειδοποίηση: «Το VASA-1 της Microsoft Research αλλάζει το παιχνίδι, δημιουργώντας υπερρεαλιστικά βίντεο που δημιουργούνται από την τεχνητή νοημοσύνη μόνο από μια φωτογραφία και έναν ήχο».

«Οι δυνατότητες είναι ατελείωτες, από την αναβίωση των θρύλων του κλασικού κινηματογράφου μέχρι τα εξατομικευμένα μέσα. Αλλά ας παραμείνουμε σε εγρήγορση για κινδύνους deepfake».

Ήδη, ο κόσμος έχει δει μια εισροή εκλογικών deepfakes όπου οι φωνές ή οι εικόνες των πολιτικών έχουν χειραγωγηθεί χρησιμοποιώντας AI για τη διάδοση προπαγάνδας. Περίπου το ένα τρίτο του παγκόσμιου πληθυσμού πηγαίνει στις κάλπες φέτος.

Ωστόσο, οι ερευνητές της Microsoft έχουν υποδείξει ότι αυτό είναι μόνο για επίδειξη και προς το παρόν δεν υπάρχουν σχέδια για δημόσια κυκλοφορία ή διάθεση στους προγραμματιστές.

Πώς λειτουργεί το VASA-1;

Σύμφωνα με το Tom's Guide, οι ίδιοι οι ερευνητές εκπλήσσονται με την ικανότητα του μοντέλου να «συντονίζει τέλεια τα χείλη με ένα τραγούδι, αντανακλώντας τα λόγια του τραγουδιστή χωρίς πρόβλημα, παρόλο που δεν χρησιμοποιείται μουσική στο σύνολο δεδομένων εκπαίδευσης».

Επιπλέον, το VASA-1 χειρίστηκε διαφορετικά στυλ εικόνας, συμπεριλαμβανομένων των ιστορικών πορτρέτων όπως τα διάσημα Μόνα Λίζα.

Το εργαλείο θα μπορούσε να χρησιμοποιηθεί σε παιχνίδια με τις προηγμένες ικανότητές του για συγχρονισμό χειλιών. Αυτό, είπαν οι ειδικοί, θα μπορούσε να αλλάξει το παιχνίδι για εμβάπτιση.

Επιπλέον, η τεχνολογία μπορεί να συμβάλει καθοριστικά στη δημιουργία avatar για βίντεο μέσων κοινωνικής δικτύωσης, όπως στην περίπτωση εταιρειών όπως η Synthesia και η HeyGen.

Οι ταινίες και οι παραγωγές μουσικών βίντεο που βασίζονται σε τεχνητή νοημοσύνη μπορούν επίσης να αξιοποιήσουν την τεχνολογία VASA-1 για πιο ρεαλιστικά βίντεο.

Υπάρχουν πιθανότητες ότι με τη Microsoft να έχει μερίδιο στο OpenAI, η VASA-1 θα μπορούσε να είναι μέρος ενός «μελλοντικού Copilot Sora ενσωμάτωση."

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?