Home Microsoft Η Microsoft κυκλοφορεί τα MAI-Transcribe-1, MAI-Voice-1 και MAI-Image-2 στην δημόσια προεπισκόπηση του...

Η Microsoft κυκλοφορεί τα MAI-Transcribe-1, MAI-Voice-1 και MAI-Image-2 στην δημόσια προεπισκόπηση του Foundry

39
Microsoft-AI-Models

Η Microsoft ανακοίνωσε τρία νέα μοντέλα τεχνητής νοημοσύνης —MAI-Transcribe-1, MAI-Voice-1 και MAI-Image-2— σε δημόσια προεπισκόπηση μέσω της πλατφόρμας ανάπτυξης τεχνητής νοημοσύνης Microsoft Foundry.

Η ενημέρωση αποτελεί μέρος της ευρύτερης προσέγγισης της Microsoft για την κατασκευή μιας ενοποιημένης πλατφόρμας τεχνητής νοημοσύνης και πρακτόρων εφαρμογών που παρέχει στους προγραμματιστές πρόσβαση σε μοντέλα, υποδομές και εργαλεία για την κατασκευή κλιμακούμενων συστημάτων τεχνητής νοημοσύνης.

Τα ίδια μοντέλα χρησιμοποιούνται ήδη σε προϊόντα της Microsoft, όπως το Copilot, το Bing, το PowerPoint και το Azure Speech, και είναι πλέον διαθέσιμα για προγραμματιστές αποκλειστικά μέσω του Foundry.

MAI Model Family

Η οικογένεια μοντέλων MAI αποτελείται από τρία πολυτροπικά μοντέλα τεχνητής νοημοσύνης που έχουν σχεδιαστεί για να υποστηρίζουν ροές εργασίας ομιλίας, φωνής και εικόνας:

  • MAI-Transcribe-1: Μοντέλο αναγνώρισης ομιλίας για τη μετατροπή ήχου σε κείμενο
  • MAI-Voice-1: Μοντέλο δημιουργίας ομιλίας για τη μετατροπή κειμένου σε ήχο
  • MAI-Image-2: Μοντέλο δημιουργίας κειμένου σε εικόνα για τη δημιουργία οπτικών στοιχείων από προτροπές

Μαζί, αυτά τα μοντέλα αποτελούν μια στοίβα τεχνητής νοημοσύνης πρώτου κατασκευαστή που επιτρέπει στους προγραμματιστές να δημιουργούν εφαρμογές που περιλαμβάνουν μεταγραφή σε πραγματικό χρόνο, φωνητικές αλληλεπιδράσεις και δημιουργία εικόνων μέσα σε ένα ενιαίο οικοσύστημα. Και τα τρία μοντέλα είναι διαθέσιμα σε δημόσια προεπισκόπηση μέσω του Microsoft Foundry.

MAI-Transcribe-1

Το MAI-Transcribe-1 είναι ένα μοντέλο αναγνώρισης ομιλίας σχεδιασμένο για φόρτο εργασίας μεταγραφής επιχειρήσεων. Υποστηρίζει έως και 25 γλώσσες και έχει σχεδιαστεί για να χειρίζεται ποικίλες προφορές και πραγματικές συνθήκες ήχου.

Το μοντέλο προσφέρει ανταγωνιστική ακρίβεια μεταγραφής, μειώνοντας παράλληλα τις υπολογιστικές απαιτήσεις, επιτυγχάνοντας περίπου 50% χαμηλότερο κόστος GPU σε σύγκριση με κορυφαίες εναλλακτικές λύσεις σε συγκριτική αξιολόγηση. Αυτή η απόδοση υποστηρίζει κλιμακωτή ανάπτυξη σε μεγάλα συστήματα με προβλέψιμη συμπεριφορά κόστους.

Είναι κατάλληλο για εφαρμογές όπως μεταγραφή σε πραγματικό χρόνο, ανάλυση τηλεφωνικών κέντρων, συστήματα φωνητικής εισόδου και αγωγούς επεξεργασίας ήχου. Το μοντέλο χρησιμοποιείται επίσης εσωτερικά στις λειτουργίες Copilot της Microsoft, συμπεριλαμβανομένων των δυνατοτήτων φωνητικής λειτουργίας και υπαγόρευσης.

MAI-Voice-1

Το MAI-Voice-1 είναι ένα μοντέλο σύνθεσης ομιλίας που επικεντρώνεται στην παραγωγή φυσικού και εκφραστικού ήχου με χαμηλή καθυστέρηση. Μπορεί να δημιουργήσει έως και 60 δευτερόλεπτα ήχου σε λιγότερο από ένα δευτερόλεπτο σε μία μόνο GPU, επιτρέποντας γρήγορους χρόνους απόκρισης σε εφαρμογές που βασίζονται στη φωνή.

Το μοντέλο υποστηρίζει ένα ευρύ φάσμα περιπτώσεων χρήσης, συμπεριλαμβανομένων των πρακτόρων συνομιλίας, των βοηθών φωνής και της δημιουργίας ηχητικού περιεχομένου. Παράγει έξοδο ομιλίας που έχει σχεδιαστεί για να ακούγεται φυσικό και εκφραστικό σε διαφορετικά σενάρια.

Το MAI-Voice-1 είναι ενσωματωμένο στο οικοσύστημα της Microsoft, υποστηρίζοντας λειτουργίες όπως εμπειρίες ήχου Copilot και εξόδους τύπου podcast. Οι προγραμματιστές μπορούν επίσης να χρησιμοποιήσουν τη λειτουργία Personal Voice του Azure Speech για να δημιουργήσουν προσαρμοσμένες φωνές από σύντομα δείγματα ήχου, υπό την προϋπόθεση μιας υπεύθυνης διαδικασίας έγκρισης από την Τεχνητή Νοημοσύνη.

MAI-Image-2

Το MAI-Image-2 είναι το μοντέλο δημιουργίας κειμένου σε εικόνα της Microsoft, σχεδιασμένο για τη δημιουργία οπτικών εφέ υψηλής ποιότητας από μηνύματα κειμένου. Εστιάζει σε φωτορεαλιστικά αποτελέσματα, βελτιωμένη απόδοση κειμένου μέσα σε εικόνες και καλύτερο χειρισμό σύνθετων διατάξεων και σκηνών.

Το μοντέλο έχει εκπαιδευτεί με τη συμβολή σχεδιαστών, φωτογράφων και οπτικών αφηγητών. Έκανε το ντεμπούτο του στην 3η θέση στον πίνακα κατάταξης Arena.ai για οικογένειες μοντέλων εικόνας, υποδεικνύοντας ισχυρή απόδοση μεταξύ συγκρίσιμων συστημάτων.

Το MAI-Image-2 μπορεί να δημιουργήσει λεπτομερή και δομημένα γραφικά κατάλληλα για σχεδιαστικές ιδέες, υλικά μάρκετινγκ, οπτικοποίηση προϊόντων και εσωτερικές επικοινωνίες. Χρησιμοποιείται επίσης σε προϊόντα της Microsoft όπως το Copilot, το Bing Image Creator και το PowerPoint, και υιοθετείται από εταιρικούς συνεργάτες, συμπεριλαμβανομένου του WPP, για δημιουργικές ροές εργασίας.

Τα μοντέλα MAI είναι διαθέσιμα σε δημόσια προεπισκόπηση μέσω του Microsoft Foundry και είναι αποκλειστικά προσβάσιμα στους προγραμματιστές μέσω του Foundry, με πρόσθετη ενσωμάτωση διαθέσιμη μέσω του Azure Speech για δυνατότητες που σχετίζονται με τη φωνή.

Μέθοδοι πρόσβασης:

  • MAI Playground για δοκιμές και πειραματισμούς
  • API Foundry για ανάπτυξη εφαρμογών και πρακτόρων
  • Azure Speech για ανάπτυξη φωνητικών μοντέλων

Τιμολόγηση:

  • MAI-Transcribe-1: 0,36 $ ανά ώρα
  • MAI-Voice-1: 22 $ ανά 1 εκατομμύριο χαρακτήρες
  • MAI-Image-2:
  • 5 $ ανά 1 εκατομμύριο διακριτικά (είσοδος κειμένου)
  • 33 $ ανά 1 εκατομμύριο διακριτικά (έξοδος εικόνας)
Οι προγραμματιστές μπορούν να ξεκινήσουν να πειραματίζονται στο Playground και να αναπτύσσουν αυτά τα μοντέλα σε περιβάλλοντα παραγωγής μέσω του Foundry, ακολουθώντας τις οδηγίες υπεύθυνης τεχνητής νοημοσύνης της Microsoft για λειτουργίες όπως η κλωνοποίηση φωνής.