Home Xiaomi Η Xiaomi αποκαλύπτει το μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα MiMo για συλλογισμό

Η Xiaomi αποκαλύπτει το μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα MiMo για συλλογισμό

53
Xiaomi-MiMo

Η Xiaomi παρουσίασε το MiMo, το πρώτο μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα σε μεγάλη γλώσσα, σχεδιασμένο για εργασίες συλλογισμού. Αναπτύχθηκε από τη νεοσύστατη Xiaomi Big Model Core Team, το μοντέλο 7 δισεκατομμυρίων παραμέτρων υπερέχει στη μαθηματική συλλογιστική και την παραγωγή κώδικα, εφάμιλλης της απόδοσης μεγαλύτερων μοντέλων όπως το o1-mini της OpenAI και το Qwen-32B-Preview της Alibaba.

Η Xiaomi σημείωσε ότι η επίτευξη τέτοιων δυνατοτήτων σε ένα μικρότερο μοντέλο είναι δύσκολη, καθώς τα περισσότερα επιτυχημένα μοντέλα ενισχυτικής μάθησης (RL) βασίζονται σε μεγαλύτερες αρχιτεκτονικές, όπως μοντέλα 32 δισεκατομμυρίων παραμέτρων.

Η εταιρεία πιστεύει ότι η αποτελεσματικότητα του MiMo στη συλλογιστική καθορίζεται από τις δυνατότητες του βασικού μοντέλου, οι οποίες καθίστανται δυνατές μέσω στοχευμένων στρατηγικών προ-εκπαίδευσης και μετα-εκπαίδευσης. Το μικρότερο μέγεθός του μπορεί να το καθιστά κατάλληλο για εταιρική χρήση και συσκευές edge με περιορισμένους πόρους.

Pre-Training Process

Η ικανότητα συλλογισμού του MiMo βασίζεται σε μια βελτιστοποιημένη διαδικασία προ-εκπαίδευσης. Η Xiaomi βελτίωσε τον αγωγό προ-επεξεργασίας δεδομένων, βελτίωσε τα εργαλεία εξαγωγής κειμένου και χρησιμοποίησε πολυεπίπεδο φιλτράρισμα για να αυξήσει την πυκνότητα των μοτίβων συλλογισμού.

Η ομάδα συνέταξε ένα σύνολο δεδομένων 200 δισεκατομμυρίων διακριτικών συλλογισμού και εφάρμοσε μια στρατηγική ανάμειξης δεδομένων τριών σταδίων. Το μοντέλο εκπαιδεύτηκε σε 25 τρισεκατομμύρια διακριτικά σε τρεις προοδευτικές φάσεις εκπαίδευσης. Η Xiaomi χρησιμοποίησε επίσης την Πρόβλεψη Πολλαπλών Διακριτικών ως στόχο εκπαίδευσης για την ενίσχυση της απόδοσης και τη μείωση του χρόνου συμπερασμάτων.

Post-Training Process

Στο στάδιο μετά την εκπαίδευση, η Xiaomi εφάρμοσε ενισχυτική μάθηση χρησιμοποιώντας 130.000 μαθηματικά και προβλήματα κωδικοποίησης, τα οποία επαληθεύτηκαν από συστήματα βασισμένα σε κανόνες για την ακρίβεια και τη δυσκολία τους. Για να αντιμετωπίσει τις σπάνιες ανταμοιβές σε σύνθετες εργασίες, η ομάδα εφάρμοσε ένα σύστημα ανταμοιβής βάσει δυσκολίας δοκιμής και χρησιμοποίησε το Easy Data Re-Sampling για σταθερή εκπαίδευση RL σε ευκολότερα προβλήματα.

Για να βελτιώσει την ταχύτητα εκπαίδευσης και επικύρωσης, η Xiaomi παρουσίασε μια Μηχανή Απρόσκοπτης Εγκατάστασης που μειώνει τον χρόνο διακοπής λειτουργίας της GPU. Αυτό το σύστημα παρείχε αύξηση 2,29 φορές στην ταχύτητα εκπαίδευσης και ενίσχυση 1,96 φορές στην επικύρωση. Υποστηρίζει επίσης την Πρόβλεψη Πολλαπλών Σημείων σε vLLM και ενισχύει τη σταθερότητα συμπερασμάτων του συστήματος RL.

MiMo AI Model Variants

Η σειρά MiMo-7B περιλαμβάνει τέσσερις εκδόσεις:

  • MiMo-7B-Base: Base model with strong reasoning potential
  • MiMo-7B-RL-Zero: RL model trained from the base
  • MiMo-7B-SFT: Supervised fine-tuned model
  • MiMo-7B-RL: RL model εκπαιδευμένο από το SFT, προσφέροντας κορυφαία απόδοση εφάμιλλη με το o1-mini της OpenAI

Η σειρά μοντέλων MiMo-7B είναι ανοιχτού κώδικα και προσβάσιμη στο Hugging Face. Η πλήρης τεχνική αναφορά και τα σημεία ελέγχου του μοντέλου είναι επίσης διαθέσιμα στο GitHub.

Table of Contents