Πόσο κοντά είναι το GPT-5 στο να “αντικαταστήσει” εργαζόμενους;

Η OpenAI κάνει ένα αποφασιστικό βήμα για να αξιολογήσει πόσο κοντά είναι τα μοντέλα τεχνητής νοημοσύνης στην απόδοση ανθρώπων σε επαγγελματικά καθήκοντα. Με την ανακοίνωση του νέου benchmark GDPval, η εταιρεία υποστηρίζει ότι το GPT-5 έχει ήδη επιδόσεις που “συγκρίνονται” με αυτές ειδικών σε πολλά πεδία – όμως η πραγματικότητα πίσω από τους αριθμούς απαιτεί προσοχή.

Η πρωτοβουλία GDPval: τι και πώς

Το GDPval είναι ένα σύνολο δοκιμών που καλύπτει 44 επαγγέλματα από 9 κρίσιμους τομείς της αμερικανικής οικονομίας – από υγεία και χρηματοοικονομικά έως διακυβέρνηση και τεχνολογία. Στόχος: να συγκριθούν οι εκθέσεις, οι αναλύσεις και τα αποτελέσματα που παράγουν επαγγελματίες με εκείνα που παράγονται από το GPT-5.

Σε μια από τις δοκιμές, για παράδειγμα, ζητήθηκε από επενδυτές να συντάξουν ανταγωνιστική ανάλυση για την αγορά ταχυμεταφορών (“last-mile delivery”) και να τη συγκρίνουν με την αντίστοιχη AI έκδοση. Οι άνθρωποι αξιολόγησαν τις δύο εκδοχές χωρίς να γνωρίζουν ποια είναι ποια – αυτό επέτρεψε στη OpenAI να μετρήσει το “win rate” του GPT-5 έναντι ανθρώπων.

📍 Η εξέλιξη της είδησης: AI

30 Μαρ

Gemini: Πώς να μεταφέρετε το ιστορικό και τις προτιμήσεις σας από άλλα AI apps

16 Μαρ

Το Handshake AI που σε προσλαμβάνει για να εκπαιδεύσει το ΑΙ της τώρα ζητά ηθοποιούς

14 Μαρ

Platform 37: Το νέο εντυπωσιακό κέντρο τεχνητής νοημοσύνης της Google στο Λονδίνο

📍 Η Αρχή

Τέλος στα αμέτρητα prompts: Το Magic Layers του Canva δίνει την λύση

Όλο το χρονικό →

Στα αποτελέσματα της πρώτης έκδοσης (GDPval-v0), το GPT-5 “ανώτερο ή ισάξιο” των ανθρώπων καταγράφηκε στο 40,6 % των δοκιμών – όχι “με το ζόρι”, αλλά σε επίπεδα που προκαλούν διχογνωμία.

Τι πραγματικά σημαίνουν αυτοί οι αριθμοί

Το ότι το GPT-5 επιτυγχάνει ≈ 40 % “νίκες” έναντι ειδικών δεν σημαίνει ότι μπορεί να καλύψει ολόκληρη τη γκάμα εργασιών ανθρώπων, ούτε ότι οι θέσεις εργασίας θα αντικατασταθούν μαζικά αμέσως. Η OpenAI η ίδια τονίζει ότι το benchmark καλύπτει “περιορισμένο αριθμό καθηκόντων ανθρώπων” αυτή τη στιγμή.

Επιπλέον, η αξιολόγηση βασίστηκε σε επαγγελματίες που συγκρίνουν τις εκθέσεις, αλλά όχι στην καθημερινή πρακτική των θέσεων εργασίας – όπως η συνεργασία, η διαχείριση κρίσεων, η ευελιξία ή οι ανθρώπινες αποφάσεις υπό ασάφεια.

Ένα άλλο δεδομένο: το GPT-5 υψηλού επιπέδου (GPT-5-High, με αυξημένη υπολογιστική ισχύ) σημείωσε μεγαλύτερη “νίκη” έναντι επαγγελματιών από ό,τι η βασική έκδοση, υποδεικνύοντας ότι η ισχύς υλικού εξακολουθεί να παίζει ρόλο.

Τέλος, αξίζει να σημειωθεί ότι η OpenAI δοκίμασε παράλληλα και το Claude Opus 4.1 της Anthropic, το οποίο έφτασε το 49 % “ανώτερο ή ίσο” έναντι ειδικών σε κάποιες δοκιμές – πιθανώς λόγω των γραφικών που εισήγαγε, κατά δήλωση της ίδιας της OpenAI.

Οι προκλήσεις και οι περιορισμοί

Παρά την εντυπωσιακή πρόοδο, υπάρχουν σημαντικά εμπόδια:

Η ποιοτική αξιολόγηση: Οι δοκιμές επικεντρώνονται σε συγκεκριμένα γραπτά καθήκοντα και δεν αντανακλούν πάντα τη δυναμική μιας εργασιακής ημέρας.

Η ανάγκη για “context awareness”: Σε πολλές εργασίες πρέπει να κατανοήσεις συγκείμενα, μακροπρόθεσμες σχέσεις ή προσωπικές προτεραιότητες – το GPT-5 παραμένει περιορισμένο.

Το κόστος και ο χρόνος inference: για να φτάσει τις κορυφαίες επιδόσεις, το μοντέλο απαιτεί μεγαλύτερη υπολογιστική ισχύ και πόρους – κάτι που αυξάνει το κόστος λειτουργίας.

Η ηθική και η ευθύνη: ποιός θα φέρει ευθύνη αν το AI κάνει λάθος; Σε κρίσιμες αποφάσεις (με νομικές, ιατρικές ή οικονομικές συνέπειες), η ανθρώπινη εποπτεία παραμένει κρίσιμη.

Τι σημαίνουν όλα αυτά για επαγγελματίες και κλάδους

Οι επαγγελματίες πρέπει να αντιληφθούν ότι το AI θα λειτουργήσει ως συνεργάτης — όχι ως αντικαταστάτης – για μεγάλο χρονικό διάστημα. Σε τομείς όπως νομική, χρηματοοικονομικά και υγεία, οι ειδικοί που γνωρίζουν πώς να συνδυάζουν τη γνώση τους με μια AI υποστήριξη θα έχουν πλεονέκτημα.

Σε πιο ρουτίνας εργασίες, το GPT-5 πιθανόν θα αναλάβει επαναλαμβανόμενα καθήκοντα, απελευθερώνοντας ανθρώπους για πιο πολύπλοκα προβλήματα.

Ταυτόχρονα, οι εταιρείες θα πρέπει να επενδύσουν στη διαχειρισιμότητα (controllability) των μοντέλων – να μπορούν να “διορθώνουν” συμπεριφορές που δεν ευθυγραμμίζονται με στόχους – καθώς και σε συστήματα εποπτείας ανθρώπου.

Η πρωτοβουλία της OpenAI με το GDPval ρίχνει φως σε πόσο κοντά είναι τα μοντέλα AI στο να ανταγωνιστούν ανθρώπους σε επαγγελματικά καθήκοντα. Το GPT-5 δείχνει ότι, σε ορισμένες γραπτές εργασίες, έχει ήδη επιδόσεις που συνδέονται με αυτές ειδικών.

Όμως, οι αριθμοί δεν λένε όλη την ιστορία. Η ολοκληρωμένη εργασία περιλαμβάνει συνεργασία, κρίση, ευελιξία και αποφάσεις υπό αβεβαιότητα – ιδιότητες που μέχρι σήμερα παραμένουν περισσότερο ανθρώπινες. Το μέλλον θα δείξει αν το GPT-5 θα καταφέρει να γεφυρώσει αυτό το χάσμα.

Πόσο κοντά είναι το GPT-5 στο να “αντικαταστήσει” εργαζόμενους;

Η πρωτοβουλία GDPval: τι και πώς

📍 Η εξέλιξη της είδησης: AI

Τι πραγματικά σημαίνουν αυτοί οι αριθμοί

Οι προκλήσεις και οι περιορισμοί

Τι σημαίνουν όλα αυτά για επαγγελματίες και κλάδους

Σωτήρης

You May Also Like

Google Photos : απλά πες και σε Android το «Help Me Edit»

Razer AVA Mini: Το πρώτο ψηφιακό κατοικίδιο τεχνητής νοημοσύνης

Meta εξαγοράζει Limitless: Η εταιρεία φέρνει AI wearables στην καθημερινότητα

Τα διαμάντια μπαίνουν στα chips- Πώς τα διαμάντια θα κάνουν τα PC πιο γρήγορα

Canva, Zillow και άλλες εφαρμογές τώρα μέσα στο ChatGPT

Η Google αναβάθμισε το VEO 3 – Ενα κινηματογραφικό studio φέρνει το update 3.1