Η OpenAI κάνει ένα αποφασιστικό βήμα για να αξιολογήσει πόσο κοντά είναι τα μοντέλα τεχνητής νοημοσύνης στην απόδοση ανθρώπων σε επαγγελματικά καθήκοντα. Με την ανακοίνωση του νέου benchmark GDPval, η εταιρεία υποστηρίζει ότι το GPT-5 έχει ήδη επιδόσεις που “συγκρίνονται” με αυτές ειδικών σε πολλά πεδία – όμως η πραγματικότητα πίσω από τους αριθμούς απαιτεί προσοχή.
Η πρωτοβουλία GDPval: τι και πώς
Το GDPval είναι ένα σύνολο δοκιμών που καλύπτει 44 επαγγέλματα από 9 κρίσιμους τομείς της αμερικανικής οικονομίας – από υγεία και χρηματοοικονομικά έως διακυβέρνηση και τεχνολογία. Στόχος: να συγκριθούν οι εκθέσεις, οι αναλύσεις και τα αποτελέσματα που παράγουν επαγγελματίες με εκείνα που παράγονται από το GPT-5.
Σε μια από τις δοκιμές, για παράδειγμα, ζητήθηκε από επενδυτές να συντάξουν ανταγωνιστική ανάλυση για την αγορά ταχυμεταφορών (“last-mile delivery”) και να τη συγκρίνουν με την αντίστοιχη AI έκδοση. Οι άνθρωποι αξιολόγησαν τις δύο εκδοχές χωρίς να γνωρίζουν ποια είναι ποια – αυτό επέτρεψε στη OpenAI να μετρήσει το “win rate” του GPT-5 έναντι ανθρώπων.
📍 Η εξέλιξη της είδησης: AI
Στα αποτελέσματα της πρώτης έκδοσης (GDPval-v0), το GPT-5 “ανώτερο ή ισάξιο” των ανθρώπων καταγράφηκε στο 40,6 % των δοκιμών – όχι “με το ζόρι”, αλλά σε επίπεδα που προκαλούν διχογνωμία.
Τι πραγματικά σημαίνουν αυτοί οι αριθμοί
Το ότι το GPT-5 επιτυγχάνει ≈ 40 % “νίκες” έναντι ειδικών δεν σημαίνει ότι μπορεί να καλύψει ολόκληρη τη γκάμα εργασιών ανθρώπων, ούτε ότι οι θέσεις εργασίας θα αντικατασταθούν μαζικά αμέσως. Η OpenAI η ίδια τονίζει ότι το benchmark καλύπτει “περιορισμένο αριθμό καθηκόντων ανθρώπων” αυτή τη στιγμή.
Επιπλέον, η αξιολόγηση βασίστηκε σε επαγγελματίες που συγκρίνουν τις εκθέσεις, αλλά όχι στην καθημερινή πρακτική των θέσεων εργασίας – όπως η συνεργασία, η διαχείριση κρίσεων, η ευελιξία ή οι ανθρώπινες αποφάσεις υπό ασάφεια.
Ένα άλλο δεδομένο: το GPT-5 υψηλού επιπέδου (GPT-5-High, με αυξημένη υπολογιστική ισχύ) σημείωσε μεγαλύτερη “νίκη” έναντι επαγγελματιών από ό,τι η βασική έκδοση, υποδεικνύοντας ότι η ισχύς υλικού εξακολουθεί να παίζει ρόλο.
Τέλος, αξίζει να σημειωθεί ότι η OpenAI δοκίμασε παράλληλα και το Claude Opus 4.1 της Anthropic, το οποίο έφτασε το 49 % “ανώτερο ή ίσο” έναντι ειδικών σε κάποιες δοκιμές – πιθανώς λόγω των γραφικών που εισήγαγε, κατά δήλωση της ίδιας της OpenAI.
Οι προκλήσεις και οι περιορισμοί
Παρά την εντυπωσιακή πρόοδο, υπάρχουν σημαντικά εμπόδια:
Η ποιοτική αξιολόγηση: Οι δοκιμές επικεντρώνονται σε συγκεκριμένα γραπτά καθήκοντα και δεν αντανακλούν πάντα τη δυναμική μιας εργασιακής ημέρας.
Η ανάγκη για “context awareness”: Σε πολλές εργασίες πρέπει να κατανοήσεις συγκείμενα, μακροπρόθεσμες σχέσεις ή προσωπικές προτεραιότητες – το GPT-5 παραμένει περιορισμένο.
Το κόστος και ο χρόνος inference: για να φτάσει τις κορυφαίες επιδόσεις, το μοντέλο απαιτεί μεγαλύτερη υπολογιστική ισχύ και πόρους – κάτι που αυξάνει το κόστος λειτουργίας.
Η ηθική και η ευθύνη: ποιός θα φέρει ευθύνη αν το AI κάνει λάθος; Σε κρίσιμες αποφάσεις (με νομικές, ιατρικές ή οικονομικές συνέπειες), η ανθρώπινη εποπτεία παραμένει κρίσιμη.
Τι σημαίνουν όλα αυτά για επαγγελματίες και κλάδους
Οι επαγγελματίες πρέπει να αντιληφθούν ότι το AI θα λειτουργήσει ως συνεργάτης — όχι ως αντικαταστάτης – για μεγάλο χρονικό διάστημα. Σε τομείς όπως νομική, χρηματοοικονομικά και υγεία, οι ειδικοί που γνωρίζουν πώς να συνδυάζουν τη γνώση τους με μια AI υποστήριξη θα έχουν πλεονέκτημα.
Σε πιο ρουτίνας εργασίες, το GPT-5 πιθανόν θα αναλάβει επαναλαμβανόμενα καθήκοντα, απελευθερώνοντας ανθρώπους για πιο πολύπλοκα προβλήματα.
Ταυτόχρονα, οι εταιρείες θα πρέπει να επενδύσουν στη διαχειρισιμότητα (controllability) των μοντέλων – να μπορούν να “διορθώνουν” συμπεριφορές που δεν ευθυγραμμίζονται με στόχους – καθώς και σε συστήματα εποπτείας ανθρώπου.
Η πρωτοβουλία της OpenAI με το GDPval ρίχνει φως σε πόσο κοντά είναι τα μοντέλα AI στο να ανταγωνιστούν ανθρώπους σε επαγγελματικά καθήκοντα. Το GPT-5 δείχνει ότι, σε ορισμένες γραπτές εργασίες, έχει ήδη επιδόσεις που συνδέονται με αυτές ειδικών.
Όμως, οι αριθμοί δεν λένε όλη την ιστορία. Η ολοκληρωμένη εργασία περιλαμβάνει συνεργασία, κρίση, ευελιξία και αποφάσεις υπό αβεβαιότητα – ιδιότητες που μέχρι σήμερα παραμένουν περισσότερο ανθρώπινες. Το μέλλον θα δείξει αν το GPT-5 θα καταφέρει να γεφυρώσει αυτό το χάσμα.





