Την απόλυτη δυνατότητα να ανταπεξέλθει αριθμητικά καλά σε ένα από τα πιο απαιτητικά τεστ γνώσεων στον κόσμο θα είναι η Τεχνητή Νοημοσύνη. Το «Humanity’s Last Exam (HLE)», δημιουργήθηκε από στελέχη τεχνολογίας και μέσα στους επόμενους μήνες θα είναι έτοιμο.
Το τεστ θα περιέχει 2,500 προσεκτικά επιλεγμένες ερωτήσεις, καλύπτοντας περίπου 100 θεματικές από την πυραυλική επιστήμη και τη μυθολογία έως τη φυσιολογία. Τα ερωτήματα απαιτούν γνώσεις επιπέδου διδακτορικού.
Πριν από δύο χρόνια το ChatGPT της OpenAI πέτυχε μόλις 3% στο τεστ, ενώ οι ανταγωνιστές του από τη Google και την Anthropic δεν τα πήγαν πολύ καλύτερα. Η απόδοση τους βοήθησε να μετριαστούν οι φόβοι για την αυξανόμενη κυριαρχία της τεχνητής νοημοσύνης, με τους ερευνητές να υποστηρίζουν ότι ανέδειξε «ένα σημαντικό χάσμα» ανάμεσα στα μεγάλα γλωσσικά μοντέλα (LLMs) και τους κορυφαίους ακαδημαϊκούς του κόσμου.
Το νέο όμως αυτό τεστ, όπως υποστηρίζουν οι δημιουργοί του θα είναι φαινομενικά αδύνατο.Το Gemini, το ΑΙ πρόγραμμα της Google, σημείωσε ένα εντυπωσιακό 45,9% στο τεστ τον Φεβρουάριο έχοντας εκτοξευθεί από το 18,8% μέσα σε λίγους μήνες από την πρώτη του προσπάθεια και το τέλειο σκορ φαίνεται πλέον εφικτό σύμφωνα με τον Κάλβιν Ζανγκ επικεφαλής έρευνας στη Scale, την εταιρεία πίσω από το HLE.
Η Anthropic η εταιρεία πίσω από το σύστημα Claude που αποτελεί αυτή τη στιγμή το μεγάλο ανταγωνιστή του ChatGPT έχει πετύχει σκορ 34,2% στο HLE και βελτιώνεται με ταχύ ρυθμό. Ένα σκορ 100% θα αποτελούσε σημαντική εξέλιξη, δεδομένου ότι το τεστ έχει σχεδιαστεί ως «το τελευταίο ακαδημαϊκό benchmark κλειστού τύπου» σύμφωνα με τους δημιουργούς του.
Αυτό σημαίνει ότι αν η τεχνολογία κατακτήσει το HLE στο μέλλον θα πρέπει να αξιολογείται με ερωτήσεις των οποίων οι απαντήσεις δεν είναι γνωστές σε κανέναν άνθρωπο.
Το τεστ
Το HLE δημιουργήθηκε από ερευνητές της Scale και του μη κερδοσκοπικού οργανισμού Center for AI Safety με στόχο να εξετάσει τόσο το εύρος γνώσεων όσο και το βάθος συλλογισμού της τεχνητής νοημοσύνης. Ειδικοί από περίπου 50 χώρες υπέβαλαν 70,000 ερωτήσεις για αξιολόγηση, ανταποκρινόμενοι σε παγκόσμια πρόσκληση τον Σεπτέμβριο του 2024, που προσέφερε έπαθλο 500,000 δολαρίων.
Οι ερωτήσεις έπρεπε να έχουν σύντομη και σαφή απάντηση και να είναι δύσκολο να βρεθούν στο Διαδίκτυο. Η λίστα περιορίστηκε στις 13,000 ερωτήσεις αφού αφαιρέθηκαν όσες μπορούσαν να απαντηθούν από υπάρχοντα μοντέλα. Από αυτές επιλέχθηκαν 2,500 με κάποιες να αφαιρούνται ή να τροποποιούνται αργότερα βάσει σχολίων χρηστών. Οι ερωτήσεις απαιτούν ευρύ φάσμα γνώσεων από βιολογία έως γλωσσικές δεξιότητες και πολλές παραμένουν μυστικές ώστε να μην επωφελούνται τα συστήματα από δημόσιες συζητήσεις των απαντήσεων.
Η επιτυχία στο HLE θα θύμιζε τη νίκη του υπερυπολογιστή Deep Blue της IBM απέναντι στον παγκόσμιο πρωταθλητή σκακιού Γκάρι Κασπάροφ το 1997 κάτι που είχε διαψεύσει τις προβλέψεις των περισσότερων ειδικών. Έκτοτε μια σειρά από σημαντικά benchmarks AI έχουν ξεπεραστεί, όπως το Massive Multitask Language Understanding (MMLU), που παρουσιάστηκε το 2020 και τελικά εγκαταλείφθηκε όταν τα συστήματα άρχισαν να το βρίσκουν πολύ εύκολο συχνά πετυχαίνοντας σκορ άνω του 90%.
«Καθώς η AI πλησιάζει στο σημείο να κατακτήσει τεστ που έχουν σχεδιαστεί από ανθρώπους η επέκταση πέρα από τα όρια της ανθρώπινης γνώσης γίνεται ολοένα και πιο βασικός στόχος των δημιουργών» πρόσθεσε η Ολζέσβκα. Ωστόσο σύμφωνα με τον Ζανγκ θα υπάρχει πάντα χώρος για την ανθρώπινη εξειδίκευση ιδιαίτερα σε πρακτικά πεδία όπως η χειρουργική αλλά και σε δεξιότητες που απαιτούν κρίση και δημιουργικότητα, οι οποίες είναι πιο δύσκολο να κατακτηθούν από την τεχνητή νοημοσύνη.
ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ:
Ηράκλειο: Πέταξε από το μπαλκόνι 1.500 ευρώ... για να γλιτώσει το πρόστιμο στην Εφορία!
Δίκη για τα Τέμπη: Ένταση, διαμαρτυρίες και δρακόντεια μέτρα ασφαλείας