H OpenAI αποκαλύπτει το μοντέλο τεχνητής νοημοσύνης κειμένου σε φωνή «Voice Engine»

OpenAI unveils Voice Engine

H OpenAI παρουσίασε το Voice Engine, μια πρωτοποριακή πλατφόρμα για τη δημιουργία κειμένου σε φωνή.

Αυτό το καινοτόμο σύστημα χρησιμοποιεί ένα κλιπ μόλις 15 δευτερολέπτων της φωνής ενός ατόμου για να δημιουργήσει μια συνθετική φωνή, σηματοδοτώντας ένα άλλο σημαντικό ορόσημο μετά το επιτυχημένο ντεμπούτο του μοντέλου AI «Sora» από κείμενο σε βίντεο νωρίτερα φέτος.

Το Voice Engine δίνει στους χρήστες τη δυνατότητα να δημιουργούν συνθετικές φωνές ικανές να διαβάζουν μηνύματα κειμένου σε διάφορες γλώσσες, συμπεριλαμβανομένης της μητρικής γλώσσας του ομιλητή.

H OpenAI τονίζει τη δέσμευσή της για υπεύθυνη ανάπτυξη, αναγνωρίζοντας την πιθανότητα κακής χρήσης κατά τη διερεύνηση των εποικοδομητικών εφαρμογών της πλατφόρμας.

Στα τέλη του 2022, το OpenAI ξεκίνησε την ανάπτυξη του Voice Engine, χρησιμοποιώντας το στη συνέχεια για να βελτιώσει τις προκαθορισμένες φωνές στο API μετατροπής κειμένου σε ομιλία, ChatGPT Voice και Read Aloud.

Μέσω ανάπτυξης και συνεργασιών μικρής κλίμακας, η εταιρεία απέκτησε πληροφορίες για πιθανές περιπτώσεις χρήσης σε διάφορους κλάδους. Σημαντικές πρώιμες εφαρμογές περιλαμβάνουν:

Βοήθεια ανάγνωσης: Το Age of Learning χρησιμοποιεί το Voice Engine για να παράγει φωνές με φυσικό ήχο, συγκινητικές φωνές για προκαθορισμένο περιεχόμενο φωνής, βοηθώντας τους μη αναγνώστες και τα παιδιά στη μάθηση. Η τεχνολογία διευκολύνει επίσης τις εξατομικευμένες αλληλεπιδράσεις σε πραγματικό χρόνο με τους μαθητές.

Μετάφραση περιεχομένου: Η HeyGen αξιοποιεί το Voice Engine για μετάφραση βίντεο, επιτρέποντας στους δημιουργούς και τις επιχειρήσεις να προσεγγίσουν το παγκόσμιο κοινό με ευχέρεια και αυθεντικότητα σε πολλές γλώσσες, διατηρώντας παράλληλα την προφορά του αρχικού ομιλητή.

Υπηρεσίες κοινοτικής υγείας: Η Dimagi χρησιμοποιεί το Voice Engine για να βελτιώσει την παροχή βασικών υπηρεσιών σε απομακρυσμένες περιοχές παρέχοντας διαδραστικά σχόλια στους εργαζόμενους στον τομέα της υγείας της κοινότητας στις μητρικές τους γλώσσες, συμπεριλαμβανομένων των Σουαχίλι και Σενγκ.

Επαυξητική επικοινωνία: Το Livox χρησιμοποιεί το Voice Engine για την τροφοδοσία συσκευών AAC, προσφέροντας στα άτομα με αναπηρία μοναδικές και φυσικές φωνές σε πολλές γλώσσες, βελτιώνοντας την επικοινωνία και την αυτοέκφραση.

Ανάκτηση φωνής: Το Ινστιτούτο Νευροεπιστημών Norman Prince στο Lifespan διερευνά τη χρήση του Voice Engine σε κλινικά πλαίσια για την αποκατάσταση της ομιλίας για άτομα με προβλήματα ομιλίας λόγω ιατρικών παθήσεων όπως όγκοι εγκεφάλου.

Αναγνωρίζοντας τους πιθανούς κινδύνους που συνδέονται με την τεχνολογία συνθετικής φωνής, η OpenAI δίνει προτεραιότητα στα μέτρα ασφαλείας και την υπεύθυνη ανάπτυξη.

Οι συνεργάτες που δοκιμάζουν το Voice Engine πρέπει να συμμορφώνονται με αυστηρές πολιτικές χρήσης, συμπεριλαμβανομένης της λήψης ρητής συναίνεσης από τους αρχικούς ομιλητές και της διαφανούς αποκάλυψης περιεχομένου που δημιουργείται απο AI στους χρήστες.

Η OpenAI εφαρμόζει επίσης διασφαλίσεις όπως η υδατοσήμανση για τον εντοπισμό της προέλευσης του παραγόμενου ήχου και παρακολουθεί ενεργά τη χρήση του για να αποτρέψει την κακή χρήση.

Η OpenAI οραματίζεται το Voice Engine ως απόδειξη της δέσμευσής τους να εξερευνήσουν τα τεχνικά σύνορα της τεχνητής νοημοσύνης, δίνοντας προτεραιότητα σε θέματα ασφάλειας και ηθικής.

Αν και η τεχνολογία έχει προεπισκόπηση, δεν κυκλοφόρησε ευρέως, η OpenAI ενθαρρύνει την κοινωνική ετοιμότητα να αντιμετωπίσει τις προκλήσεις που τίθενται από τα ολοένα και πιο εξελιγμένα μοντέλα παραγωγής.

Οι προτάσεις για την ενίσχυση της κοινωνικής ανθεκτικότητας περιλαμβάνουν τη σταδιακή κατάργηση του ελέγχου ταυτότητας βάσει φωνής, τη διαφύλαξη της φωνής των ατόμων στην AI, τη δημόσια εκπαίδευση σχετικά με τις δυνατότητες και τους περιορισμούς της τεχνητής νοημοσύνης και την προώθηση τεχνικών για την επαλήθευση της γνησιότητας του οπτικοακουστικού περιεχομένου.

Παρά τις πρωτοποριακές του δυνατότητες, το Voice Engine παραμένει σε στάδιο προεπισκόπησης και δεν είναι ακόμη διαθέσιμο στο κοινό. Η OpenAI αναφέρει ανησυχίες σχετικά με πιθανή κακή χρήση συνθετικών φωνών ως τον λόγο αυτής της προσεκτικής προσέγγισης, υπογραμμίζοντας τη σημασία της υπεύθυνης ανάπτυξης της τεχνητής νοημοσύνης.