Home Google Η Google κυκλοφορεί το Gemini 3.1 Flash TTS με καλύτερη ποιότητα ομιλίας...

Η Google κυκλοφορεί το Gemini 3.1 Flash TTS με καλύτερη ποιότητα ομιλίας και χειριστήρια προγραμματιστών

38
Gemini 3.1 Flash TTS

Η Google παρουσίασε το Gemini 3.1 Flash TTS, ένα νέο μοντέλο μετατροπής κειμένου σε ομιλία που εστιάζει στη βελτίωση της ποιότητας της ομιλίας, της δυνατότητας ελέγχου και της επεκτασιμότητας. Το μοντέλο αποτελεί μέρος της οικογένειας Gemini 3.1 Flash Audio και έχει σχεδιαστεί για προγραμματιστές, επιχειρήσεις και γενικούς χρήστες που δημιουργούν εφαρμογές ομιλίας που βασίζονται σε τεχνητή νοημοσύνη.

Το Gemini 3.1 Flash Audio ανήκει στη σειρά πολυτροπικών μοντέλων Gemini, υποστηρίζοντας ήχο παράλληλα με άλλες μορφές ήχου, όπως κείμενο, εικόνες και βίντεο.

Gemini 3.1 Flash TTS

Το Gemini 3.1 Flash TTS βασίζεται στο Gemini 3 Pro και έχει σχεδιαστεί ειδικά για τη δημιουργία ομιλίας από εισόδους κειμένου.

  • Gemini 3.1 Flash TTS
  • Είσοδος: Κείμενο έως 16.000 διακριτικά
  • Έξοδος: Ήχος έως 32.000 διακριτικά
  • Gemini 3.1 Flash Live
  • Είσοδοι: Ήχος, εικόνες, βίντεο και κείμενο έως 128.000 διακριτικά
  • Έξοδοι: Ήχος και κείμενο έως 64.000 διακριτικά

Αυτές οι διαμορφώσεις επιτρέπουν τόσο την αυτόνομη δημιουργία κειμένου σε ομιλία όσο και τις πολυτροπικές αλληλεπιδράσεις μέσω της παραλλαγής Flash Live.

Βασικά χαρακτηριστικά

  • Βελτιωμένη ποιότητα ομιλίας: Παράγει πιο φυσική και εκφραστική απόδοση ομιλίας. πέτυχε βαθμολογία Elo 1.211 στον πίνακα κατάταξης Artificial Analysis TTS.
  • Ισορροπία κόστους και απόδοσης: Τοποθετείται στο “πιο ελκυστικό τεταρτημόριο” της Artificial Analysis, υποδεικνύοντας μια ισορροπία μεταξύ ποιότητας ομιλίας και κόστους.
  • Ετικέτες ήχου για έλεγχο: Επιτρέπει στους χρήστες να καθοδηγούν τον τόνο, τον ρυθμό και την απόδοση χρησιμοποιώντας οδηγίες φυσικής γλώσσας ενσωματωμένες στο κείμενο.
  • Υποστήριξη πολλαπλών ομιλητών: Υποστηρίζει διάλογο μεταξύ πολλαπλών ομιλητών με ξεχωριστά φωνητικά χαρακτηριστικά.
  • Κατεύθυνση σκηνής: Επιτρέπει τον ορισμό του πλαισίου και του στυλ αλληλεπίδρασης για τη διατήρηση συνεπούς συμπεριφοράς χαρακτήρων.
  • Έλεγχοι επιπέδου ομιλητή: Υποστηρίζει την ανάθεση προφίλ ήχου και την προσαρμογή του τόνου, της προφοράς και του ρυθμού.
  • Αλλαγές ενσωματωμένων εκφράσεων: Επιτρέπει προσαρμογές στυλ φωνής μέσα σε μια πρόταση χρησιμοποιώντας ενσωματωμένες ετικέτες.
  • Εργαλεία ελέγχου προγραμματιστών: Παρέχει διαμορφώσιμα στοιχεία ελέγχου στο Google AI Studio, επιτρέποντας λεπτομερή καθοδήγηση στην έξοδο ομιλίας.
  • Απρόσκοπτη εξαγωγή API: Επιτρέπει την εξαγωγή διαμορφωμένων ρυθμίσεων φωνής ως κώδικα Gemini API για επαναχρησιμοποίηση σε εφαρμογές.
  • Πολυγλωσσική υποστήριξη: Υποστηρίζει τη δημιουργία ομιλίας σε περισσότερες από 70 γλώσσες με τοπικό έλεγχο.
  • Παγκόσμια επεκτασιμότητα: Σχεδιασμένο για ανάπτυξη σε διαφορετικές περιοχές και περιπτώσεις χρήσης.

Οι πρώτοι προγραμματιστές και οι εταιρικοί χρήστες αναφέρουν βελτιωμένη δυνατότητα ελέγχου και εκφραστική απόδοση, ιδιαίτερα με ετικέτες ήχου.

Ο ήχος που παράγεται με το Gemini 3.1 Flash TTS περιλαμβάνει υδατογράφημα SynthID, ένα ενσωματωμένο αναγνωριστικό που επιτρέπει την ανίχνευση περιεχομένου που δημιουργείται από τεχνητή νοημοσύνη και υποστηρίζει μέτρα κατά της κακής χρήσης.

Το Gemini 3.1 Flash TTS κυκλοφορεί σε προεπισκόπηση:

  • Προγραμματιστές: Διαθέσιμο μέσω του Gemini API και του Google AI Studio
  • Επιχειρήσεις: Διαθέσιμο στο Vertex AI
  • Χρήστες χώρου εργασίας: Διαθέσιμο μέσω του Google Vids