Το Facebook εισάγει τη Rosetta AI για τον εντοπισμό κειμένου σε εικόνες και βίντεο

Facebook-Rosetta

Δεδομένου ότι είναι μια κουραστική δουλειά για τους συντονιστές να εξετάζουν κάθε εικόνα ή βίντεο που δημοσιεύτηκε στην τεράστια πλατφόρμα, η εταιρεία κατασκευάζει μια AI για να τους βοηθήσει. Το σύστημα που δημιούργησε ονομάζεται Rosetta και λέγεται ότι εξάγει κείμενο από περισσότερες από ένα δισεκατομμύριο δημόσιες εικόνες και βιντεοκλίπ των Facebook και Instagram σε μια μεγάλη ποικιλία γλωσσών, καθημερινά και σε πραγματικό χρόνο και το εισάγει σε ένα μοντέλο αναγνώρισης κειμένου που έχει ταξινομητές για να κατανοούν το πλαίσιο του κειμένου και της εικόνας μαζί.

Εκτελεί εξαγωγή κειμένου σε μια εικόνα σε δύο ανεξάρτητα βήματα, ανίχνευσης και αναγνώρισης. Ανιχνεύει ορθογώνιες περιοχές που περιέχουν δυνητικά κείμενο στο πρώτο βήμα και στο δεύτερο βήμα πραγματοποιεί αναγνώριση κειμένου, όπου για κάθε μία από τις ανιχνευόμενες περιοχές χρησιμοποιεί ένα convolutional νευρωνικό δίκτυο (CNN) για να αναγνωρίσει και να μεταγράψει τη λέξη στην περιοχή.

Για την ανίχνευση κειμένου, το Facebook δήλωσε ότι έχει υιοθετήσει μια προσέγγιση που βασίζεται στο ταχύτερο R-CNN. Με λίγα λόγια, το Faster R-CNN εκτελεί ταυτόχρονα ανίχνευση και αναγνώριση με την εκμάθηση ενός CNN που μπορεί να αντιπροσωπεύει μια εικόνα ως convolutional χάρτη χαρακτηριστικών. Το σύνολο του συστήματος ανίχνευσης εκπαιδεύεται από κοινού με έναν εποπτευόμενο τρόπο. Το μοντέλο ανίχνευσης κειμένου του Facebook χρησιμοποιεί το Faster R-CNN αλλά αντικαθιστά το σώμα της convolutional ResNet με μια αρχιτεκτονική βασισμένη στο ShuffleNet για λόγους αποδοτικότητας.

Η εταιρεία δεν περιορίζει αυτό το κείμενο στο αγγλικό κείμενο και υποστηρίζει επί του παρόντος διαφορετικές γλώσσες και κωδικοποιήσεις όπως τα αραβικά και τα χίντι, σε ένα ενοποιημένο μοντέλο. Το Facebook δήλωσε ότι η Rosetta έχει υιοθετηθεί ευρέως από διάφορα προϊόντα και ομάδες μέσα στο Facebook και το Instagram. Το κείμενο που εξάγεται από τις εικόνες χρησιμοποιείται για να βελτιώσει τη συνάφεια και την ποιότητα της αναζήτησης φωτογραφιών, να εντοπίσει αυτόματα περιεχόμενο που παραβιάζει την πολιτική μίσους-ομιλίας στην πλατφόρμα σε διάφορες γλώσσες και να βελτιώσει την ακρίβεια της ταξινόμησης των φωτογραφιών στο News Feed για να ένα πιο εξατομικευμένο περιεχόμενο.