Home Software H OpenAI παρουσιάζει το μοντέλο συλλογισμού o3-mini AI για όλους τους χρήστες

H OpenAI παρουσιάζει το μοντέλο συλλογισμού o3-mini AI για όλους τους χρήστες

25
OpenAI-o3-mini

H OpenAI κυκλοφόρησε το o3-mini, το πιο πρόσφατο μοντέλο στη σειρά συλλογισμών του, διαθέσιμο τώρα στο ChatGPT και στο API. Αυτό το μοντέλο που πραγματοποιήθηκε αρχικά σε προεπισκόπηση τον Δεκέμβριο του 2024, βελτιώνει την απόδοση στις επιστήμες, τα μαθηματικά και την κωδικοποίηση, ενώ προσφέρει χαμηλότερο κόστος και μεγαλύτερες ταχύτητες επεξεργασίας σε σύγκριση με τον προκάτοχό του, o1-mini. Είναι βελτιστοποιημένο για πολύπλοκες εργασίες STEM, παρέχοντας αποτελεσματικότητα και προσιτή τιμή.

Βασικά Χαρακτηριστικά και Δυνατότητες

Το μοντέλο o3-mini εισάγει πολλά χαρακτηριστικά που εστιάζονται στους προγραμματιστές, όπως:

  • Κλήση λειτουργιών, δομημένες έξοδοι και μηνύματα προγραμματιστή για απρόσκοπτη ενσωμάτωση σε περιβάλλοντα παραγωγής.
  • Υποστήριξη ροής, παρόμοια με το o1-mini και το o1-preview.
  • Ρυθμιζόμενη συλλογιστική προσπάθεια με τρία επίπεδα —χαμηλό, μεσαίο και υψηλό— για βελτιστοποίηση της ταχύτητας και της ακρίβειας με βάση συγκεκριμένες απαιτήσεις.
  • Ωστόσο, το o3-mini δεν υποστηρίζει εργασίες που σχετίζονται με την όραση. Οι προγραμματιστές που απαιτούν οπτικό συλλογισμό θα πρέπει να συνεχίσουν να χρησιμοποιούν το o1.

H OpenAI περιγράφει το o3-mini ως ένα εξειδικευμένο μοντέλο για τεχνικούς τομείς, δίνοντας προτεραιότητα στην ακρίβεια και την ταχύτητα. Στο ChatGPT, ορίζει από προεπιλογή τη μεσαία προσπάθεια συλλογισμού, εξισορροπώντας τον χρόνο απόκρισης και την ακρίβεια.

Σε σύγκριση με το o1-mini, παρέχει σαφέστερες απαντήσεις με ισχυρότερες δυνατότητες συλλογιστικής, μειώνοντας τα μεγάλα σφάλματα κατά 39% σε πολύπλοκα σενάρια πραγματικού κόσμου. Σε τυφλές αξιολογήσεις, οι δοκιμαστές προτιμούσαν τις απαντήσεις του o3-mini έναντι του o1-mini στο 56% του χρόνου.

Σημεία αναφοράς απόδοσης

Το μοντέλο o3-mini έχει δοκιμαστεί σε πολλαπλές αξιολογήσεις που εστιάζονται στο STEM, επιδεικνύοντας ανώτερη απόδοση:
  • Μαθηματικά (AIME 2024): Ταιριάζει με το o1 σε μέτρια συλλογιστική προσπάθεια και ξεπερνά το o1 και το o1-mini σε υψηλή προσπάθεια.
  • Διδακτορικό Επίπεδο Επιστήμης (GPQA Diamond): Ξεπερνά το o1-mini σε χαμηλή προσπάθεια και ταιριάζει με το o1 σε υψηλή προσπάθεια στη βιολογία, τη χημεία και τη φυσική.
  • Μαθηματικά επιπέδου έρευνας (FrontierMath): Επιλύει το 32% των προβλημάτων με την πρώτη προσπάθεια υψηλής συλλογιστικής προσπάθειας, συμπεριλαμβανομένου του 28% των πιο δύσκολων εργασιών.
  • Ανταγωνιστική κωδικοποίηση (Codeforces): Επιτυγχάνει υψηλότερες βαθμολογίες Elo από το o1-mini σε όλα τα επίπεδα προσπάθειας και ταιριάζει με το o1 σε μέτρια προσπάθεια.
  • Software Engineering (SWE-bench Verified): Έχει την υψηλότερη βαθμολογία μεταξύ των μοντέλων που κυκλοφόρησε η OpenAI, επιτυγχάνοντας ακρίβεια έως και 61% με εσωτερικά εργαλεία.
  • Αποδοτικότητα Κωδικοποίησης (Κωδικοποίηση LiveBench): Ξεπερνά το o1-high ακόμη και σε μέτρια προσπάθεια και επεκτείνει περαιτέρω το προβάδισμά του σε υψηλή προσπάθεια.
  • Γενικές γνώσεις: Ξεπερνά το o1-mini σε διάφορους τομείς γνώσης.

Επιπλέον, το o3-mini παράγει αποκρίσεις 2500ms πιο γρήγορα κατά μέσο όρο σε σύγκριση με το o1-mini, μειώνοντας την καθυστέρηση και βελτιώνοντας την απόδοση.

Ασφάλεια και Δοκιμές

Η OpenAI έχει δώσει έμφαση στην ασφάλεια στην ανάπτυξη του o3-mini με την εφαρμογή της ευθυγραμμισμένης ευθυγράμμισης, μιας μεθόδου εκπαίδευσης που επιτρέπει στο μοντέλο να αναλύει τις κατευθυντήριες γραμμές ασφαλείας πριν απαντήσει. Αυτή η προσέγγιση βελτιώνει την ικανότητά της να χειρίζεται ευαίσθητες προτροπές διατηρώντας παράλληλα την ακρίβεια και την αξιοπιστία.

Η OpenAI αναφέρει ότι το o3-mini ξεπερνά το GPT-4o σε αξιολογήσεις ασφάλειας και jailbreak. Πριν από την κυκλοφορία, το OpenAI διεξήγαγε εκτεταμένες δοκιμές ασφάλειας, συμπεριλαμβανομένων εξωτερικών αξιολογήσεων κόκκινων και εσωτερικών κινδύνων. Περισσότερες λεπτομέρειες σχετικά με τους πιθανούς κινδύνους και τις στρατηγικές μετριασμού περιγράφονται στην κάρτα συστήματος o3-mini.

Διαθεσιμότητα

Το μοντέλο o3-mini έγινε διαθέσιμο στις 31 Ιανουαρίου 2025, για χρήστες ChatGPT Plus, Team και Pro. Η πρόσβαση για επιχειρήσεις θα κυκλοφορήσει τον Φεβρουάριο του 2025. Αντικαθιστά το o1-mini στον επιλογέα μοντέλων, προσφέροντας υψηλότερα όρια ρυθμών και χαμηλότερη καθυστέρηση, καθιστώντας το ιδιαίτερα κατάλληλο για εργασίες STEM, κωδικοποίησης και λογικής συλλογιστικής.

  • Οι χρήστες Plus και Team έχουν πλέον αυξημένο ημερήσιο όριο μηνυμάτων 150 (παλαιότερα 50 με το o1-mini).
  • Οι επαγγελματίες χρήστες έχουν απεριόριστη πρόσβαση τόσο στο o3-mini όσο και στο o3-mini-high, μια έκδοση υψηλότερης ευφυΐας που χρειάζεται περισσότερο χρόνο για να δημιουργήσει απαντήσεις.
  • Οι χρήστες του δωρεάν ChatGPT μπορούν πλέον να έχουν πρόσβαση στο o3-mini επιλέγοντας «Λόγος» στο συνθέτη μηνυμάτων, σηματοδοτώντας την πρώτη φορά που ένα μοντέλο συλλογισμού είναι διαθέσιμο για χρήστες ελεύθερου επιπέδου.
  • Για προγραμματιστές, το o3-mini είναι διαθέσιμο μέσω του Chat Completions API, του Assistants API και του Batch API για επιλεγμένους χρήστες στα επίπεδα 3-5.

Τιμολόγηση

  • 0,55 $ ανά εκατομμύριο αποθηκευμένα διακριτικά εισόδου στην κρυφή μνήμη
  • 4,40 $ ανά εκατομμύριο μάρκες εξόδου
  • 63% φθηνότερο από το o1-mini
  • Επιπλέον, το o3-mini ενσωματώνεται πλέον στην αναζήτηση, παρέχοντας απαντήσεις σε πραγματικό χρόνο με συνδεδεμένες πηγές. Αυτή η δυνατότητα βρίσκεται σε λειτουργία πρωτοτύπου, καθώς το OpenAI συνεχίζει να αναπτύσσει δυνατότητες αναζήτησης για τα μοντέλα συλλογισμού του.

Μελλοντικές προοπτικές

Η OpenAI βλέπει το o3-mini ως μέρος της συνεχούς προσπάθειάς του να κάνει την τεχνητή νοημοσύνη υψηλής ποιότητας πιο προσιτή και οικονομικά αποδοτική. Το μοντέλο βασίζεται στη μείωση κατά 95% του OpenAI στο κόστος ανά διακριτικό από το GPT-4, διατηρώντας παράλληλα ισχυρές δυνατότητες συλλογιστικής.

Καθώς επεκτείνεται η υιοθέτηση της τεχνητής νοημοσύνης, η OpenAI τόνισε ότι παραμένει επικεντρωμένη στην ανάπτυξη μοντέλων που εξισορροπούν την ευφυΐα, την αποτελεσματικότητα και την ασφάλεια, διασφαλίζοντας επεκτάσιμες λύσεις τεχνητής νοημοσύνης για περιπτώσεις τεχνικής και γενικής χρήσης.