Η τεχνολογία WaveNet της DeepMind κάνει τον ήχο του Google Assistant πιο φυσικό και ρεαλιστικό

Google Assistant

Πριν από ένα χρόνο, η Google απέκτησε τη βρετανική startup εταιρεία DeepMind Artificial Intelligence που δεν είχε καταναλωτικά προϊόντα και παρέμεινε ένα μυστήριο για αρκετό καιρό. Ωστόσο, ένα χρόνο αργότερα τώρα όλα ξεδιαλύνονται, καθώς η DeepMind είναι επίσημα μέρος της Alphabet  και περισσότερα είναι γνωστή για τη συμβολή της στην Google.

Το DeepMind παρουσίασε ένα νέο concept που ονομάζεται WaveNet που είναι ένα βαθύ νευρωνικό δίκτυο για τη δημιουργία ακατέργαστων κυματομορφών ήχου για την παραγωγή καλύτερων και πιο φυσικών ηχητικών ομιλιών. Αν και πριν 1 χρόνο ήταν πρωτότυπο τότε και δεν ήταν πλήρως λειτουργικό, έχει βελτιωθεί σημαντικά τόσο σε ταχύτητα όσο και σε ποιότητα. Η εταιρεία εισήγαγε σήμερα μια πλήρως ενημερωμένη έκδοση του WaveNet που χρησιμοποιείται για την παραγωγή πιο φυσικών ηχητικών φωνών για το Google Assistant σε αγγλικά και ιαπωνικά.

Το WaveNet χρησιμοποιεί το Convolutional Neural Network και δοκιμάζεται σε μια μεγάλη βάση δεδομένων των ομιλιών. Η φάση της κατάρτισης ξεκίνησε με τον προσδιορισμό της υποκείμενης δομής της ομιλίας, όπως τον τόνο που ακολουθείται ο ένας από τον άλλον και ο οποίος ακουγόταν πιο φυσικά ρεαλιστικός. Μόλις περάσει η αρχική φάση, το επόμενο στάδιο είναι όπου το δίκτυο συνθέτει φωνή με ένα δείγμα κάθε φορά, με κάθε δείγμα να λαμβάνει υπόψη τις ιδιότητες του προηγούμενου δείγματος για μια καλύτερη συνέχεια. Το αποτέλεσμα τότε ακούγεται πιο φυσικό και η έμφαση εξαρτάται από τον τύπο της φωνής που εκπαιδεύεται.

Το WaveNet απαιτεί 50 χιλιοστά του δευτερολέπτου για να δημιουργήσει ομιλία 1 δευτερολέπτου, η οποία είναι 1000 φορές πιο γρήγορη από το αρχικό μοντέλο και επίσης πιο γρήγορη με υψηλότερη πιστότητα που μπορεί να δημιουργήσει κυματομορφές με 24.000 δείγματα ανά δευτερόλεπτο. Επί του παρόντος, χρησιμοποιείται στα αγγλικά και ιαπωνικά, αλλά σύντομα θα κυκλοφορήσει σε περισσότερες γλώσσες.