Σταμάτα να ζητάς στο ChatGPT ότι είναι επαγγελματίας δεν παίρνεις το σωστό αποτέλεσμα

Η τεχνητή νοημοσύνη και τα AI Chatbots οπως τα Claude, Gemini και φυσικά το ChatGPT έχουν αλλάξει ριζικά τον τρόπο με τον οποίο αλληλεπιδρούμε με τoυς υπολογιστές μας και τα κινητά μας τηλέφωνα, αλλά φαίνεται πως οι περισσότεροι χρήστες έχουν υιοθετήσει εντελώς λανθασμένες πρακτικές όσον αφορά την καθημερινή επικοινωνία τους με αυτά.

Εδώ και αρκετό καιρό, μια από τις πιο διαδεδομένες και εξαιρετικά δημοφιλείς συμβουλές στον αναδυόμενο χώρο του prompt engineering είναι η ρητή εντολή προς το AI chatbot να υιοθετήσει μια συγκεκριμένη, επαγγελματική ταυτότητα. Η φράση “λειτούργησε ως κορυφαίος ειδικός” ή “σκέψου σαν επαγγελματίας προγραμματιστής” έχει γίνει πλέον δεύτερη φύση για εκατομμύρια ανθρώπους σε όλο τον κόσμο, οι οποίοι προσπαθούν να εκμαιεύσουν τις καλύτερες δυνατές απαντήσεις από τα γλωσσικά μοντέλα.

Ωστόσο, τα νεότερα επιστημονικά δεδομένα έρχονται να ανατρέψουν πλήρως αυτή την παγιωμένη πεποίθηση, αποδεικνύοντας ότι η συγκεκριμένη τακτική όχι μόνο δεν βελτιώνει τα αποτελέσματα, αλλά σε πάρα πολλές περιπτώσεις κάνει το σύστημα αισθητά χειρότερο στη δουλειά του. Αντί να απελευθερώνει τις πραγματικές, υπολογιστικές δυνατότητες του λογισμικού, ο υπερβολικός καθορισμός ρόλων φαίνεται να το εγκλωβίζει σε περιττούς περιορισμούς, μειώνοντας κατακόρυφα την ποιότητα, τη λογική εμβάθυνση και την ακρίβεια των παραγόμενων πληροφοριών.

Η παγίδα της εξειδίκευσης και οι επιπτώσεις στην απόδοση

Τα αναλυτικά ευρήματα μιας νέας, εκτενούς έρευνας που διεξήχθη από επιστήμονες στο Πανεπιστήμιο της Νότιας Καλιφόρνια (USC) ρίχνουν άπλετο φως στους βαθύτερους λόγους για τους οποίους συμβαίνει αυτή η εντελώς απρόσμενη υποβάθμιση στην ποιότητα των απαντήσεων. Σύμφωνα με τα στοιχεία που μελετήθηκαν, όταν αναθέτουμε σε ένα προηγμένο μοντέλο τον αυστηρό ρόλο του ειδικού (expert persona), στην πραγματικότητα του ανακόπτουμε την ελεύθερη σκέψη και το αναγκάζουμε να ακολουθήσει μια εντελώς διαφορετική, πιο περιορισμένη εσωτερική διαδρομή επεξεργασίας. Ειδικότερα, σε εργασίες που απαιτούν βαθιά, αντικειμενική γνώση και λογική (knowledge tasks), όπως είναι για παράδειγμα η επίλυση πολύπλοκων μαθηματικών εξισώσεων ή η συγγραφή καθαρού, αψεγάδιαστου κώδικα προγραμματισμού, η χρήση τέτοιων εντολών λειτουργεί άκρως αρνητικά.

Τα στατιστικά στοιχεία της μελέτης δείχνουν ξεκάθαρα ότι αυτά τα expert personas οδηγούν τα συστήματα σε συστηματικά χαμηλότερες επιδόσεις στα καθιερωμένα, τεχνικά benchmarks, σε άμεση σύγκριση με τα βασικά, “απλά” μοντέλα (base models). Ο λόγος πίσω από αυτή τη συμπεριφορά είναι άκρως τεχνικός, αλλά απολύτως κατανοητός. Η εντολή να δράσει ως ειδικός πυροδοτεί άμεσα στο σύστημα τη λειτουργία τυφλής ακολουθίας οδηγιών (instruction-following mode). Το λογισμικό καταναλώνει τεράστιους υπολογιστικούς πόρους στην προσπάθειά του να μιμηθεί τη συμπεριφορά, το ύφος και τον “χαρακτήρα” ενός υποθετικού επαγγελματία, εις βάρος της καθαρής, άμεσης και αντικεμενικής ανάκλησης πραγματικών γεγονότων και λογικών, αλγοριθμικών δεδομένων (fact recall).

Σεισμός στην AI βιομηχανία: Τέλος το Sora και η συμφωνία OpenAI με Disney

Ο διαχωρισμός των εργασιών και η δημιουργική γραφή

ChatGPt: Έρευνα ανατρέπει τα δεδομένα για τα AI μοντέλα — Photo by pixabay

Αυτό βέβαια δεν σημαίνει ότι η χρήση μιας περσόνας είναι εντελώς άχρηστη σε κάθε πιθανό, ψηφιακό σενάριο. Η επιστημονική κοινότητα διαχωρίζει με μεγάλη σαφήνεια τις περιπτώσεις χρήσης. Οι ερευνητές επισημαίνουν ότι ο καθορισμός ενός συγκεκριμένου ρόλου μπορεί πράγματι να φανεί εξαιρετικά χρήσιμος σε εργασίες που αφορούν αποκλειστικά την ευθυγράμμιση (alignment-style tasks), τον έλεγχο του ύφους και την τελική δομή ενός κειμένου. Εάν ο πρωταρχικός σας στόχος είναι να συντάξετε ένα δημιουργικό κείμενο, να καθορίσετε τον αυστηρό τόνο μιας εταιρικής επιστολής ή να δώσετε μια συγκεκριμένη, ανθρώπινη χροιά σε ένα άρθρο γνώμης, τότε η εντολή προς το chatbot να μιμηθεί έναν συγκεκριμένο συγγραφέα ή επαγγελματία μπορεί να προσδώσει ακριβώς το επιθυμητό, αποτέλεσμα. Ακόμα και σε αυτές τις περιπτώσεις, όμως, ανεξάρτητες, παράλληλες μελέτες επιβεβαιώνουν περίτρανα ότι ενώ η περσόνα παράγει άριστα το ύφος των προτάσεων, δεν προσθέτει απολύτως καμία νέα, πραγματική τεχνική ικανότητα ή βαθύτερη, τεκμηριωμένη γνώση στο μοντέλο. Παραμένει απλώς ένα αισθητικό, γλωσσικό φίλτρο.

Εκατομμύρια iPhone στο έλεος των hackers: Το exploit ‘Darksword’ πήρε παγκόσμιες διαστάσεις

Οι σοβαροί κίνδυνοι από την υπερβολική μηχανική των εντολών

Οι αναλυτές του πανεπιστημίου προχωρούν ένα βήμα παραπέρα στην έρευνά τους, κρούοντας δυνατά τον κώδωνα του κινδύνου για όσους χρήστες επιμένουν να υπεραναλύουν τις εντολές τους και να υπερφορτώνουν άσκοπα τα συστήματα. Στην επίσημη επιστημονική τους δημοσίευση αποθαρρύνουν ρητά και κατηγορηματικά τη δημιουργία εξαιρετικά περίπλοκων συστημικών εντολών (system prompts) με μοναδικό σκοπό τη μεγιστοποίηση της απόδοσης μέσω της εκμετάλλευσης συστημικών προκαταλήψεων (biases). Μια τέτοια ακραία πρακτική μπορεί να έχει εντελώς απροσδόκητες, καταστροφικές παρενέργειες. Το κυριότερο ηθικό και λειτουργικό πρόβλημα είναι ότι η χρήση υπερβολικά συγκεκριμένων ρόλων ενισχύει και αναπαράγει επικίνδυνες, κοινωνικές προκαταλήψεις που ενδέχεται να κρύβονται στα τεράστια σύνολα δεδομένων εκπαίδευσης. Ακόμα χειρότερα, η συνεχής, μαζική χρήση τέτοιων παραπλανητικών εντολών κινδυνεύει να δηλητηριάσει (poison) μακροπρόθεσμα τα μελλοντικά δεδομένα εκπαίδευσης, δημιουργώντας έναν φαύλο κύκλο μειωμένης αξιοπιστίας για τις επόμενες, πιο εξελιγμένες γενιές των αλγορίθμων.

Η αρχιτεκτονική του PRISM και η αξία της αυτορρύθμισης

Για να αντιμετωπιστεί αυτό το τεράστιο, σύγχρονο εμπόδιο στην αλληλεπίδραση ανθρώπου και μηχανής, η επιστημονική ομάδα παρουσίασε μια καινοτόμο, εξαιρετικά κομψή λύση με την ονομασία PRISM (Persona Routing via Intent-based Self-Modeling). Πρόκειται για μια προηγμένη, δυναμική αρχιτεκτονική που επιτρέπει στο ίδιο το λογισμικό να λειτουργεί ως αμερόληπτος κριτής του εαυτού του. Σύμφωνα με αυτή τη νέα μέθοδο, όταν τίθεται ένα πολύπλοκο ερώτημα από τον χρήστη, το σύστημα παράγει ταυτόχρονα δύο εντελώς διαφορετικές απαντήσεις στο παρασκήνιο: μία εκδοχή χρησιμοποιώντας την ενδεδειγμένη, ζητούμενη περσόνα και μία δεύτερη δρώντας εντελώς ελεύθερα με βάση τα δεδομένα του. Στη συνέχεια, συγκρίνει αυτόματα τις δύο εκδοχές και επιλέγει την πιο ακριβή, εμπεριστατωμένη και χρήσιμη. Μέσα από αυτή την αυστηρή, εσωτερική διαδικασία αξιολόγησης, το λογισμικό μαθαίνει σταδιακά πότε ακριβώς πρέπει να εφαρμόζει ειδικούς ρόλους στο μέλλον και πότε είναι προτιμότερο να επιστρέφει στην αμιγή, ψυχρή λειτουργικότητα του βασικού του κώδικα.

Διαφοροποιήσεις στα μοντέλα και ο ιδανικός τρόπος επικοινωνίας

Προσθέτοντας ακόμα ένα επίπεδο τεχνικής πολυπλοκότητας, οι αναλυτές εντόπισαν επίσης κρίσιμες, δομικές διαφορές ανάμεσα στους διάφορους τύπους των διαθέσιμων μοντέλων. Τα συστήματα που εστιάζουν στην ανάλυση δεδομένων και τη βαθιά λογική (reasoning models) τείνουν να επωφελούνται τα μέγιστα από την παροχή πλούσιου, αναλυτικού πλαισίου (context length). Αντίθετα, τα μοντέλα που έχουν ρυθμιστεί αυστηρά για να ακολουθούν εντολές (instruction-tuned models) αποδεικνύονται εξαιρετικά ευαίσθητα και ευάλωτα στην εισαγωγή μιας περσόνας, χάνοντας πολλές φορές εντελώς τον προσανατολισμό τους.

Η τελική, συμπυκνωμένη οδηγία για τον σύγχρονο επαγγελματία που αξιοποιεί αυτά τα εργαλεία είναι απόλυτα σαφής. Οι εταιρείες ανάπτυξης κάνουν ήδη όλη την απαραίτητη δουλειά στο παρασκήνιο για να εξασφαλίσουν ότι τα συστήματα θα προσφέρουν τα βέλτιστα δυνατά αποτελέσματα. Εμείς, από την πλευρά μας, οφείλουμε απλώς να παρέχουμε καθαρές οδηγίες. Ένα περιεκτικό, άρτια σχεδιασμένο ερώτημα – το οποίο εξηγεί με ακρίβεια την εργασία, παρέχει όλα τα απαραίτητα δεδομένα, το πλήρες πλαίσιο και τα σχετικά εργαλεία – θα δώσει τελικά στο σύστημα όλον τον “αέρα” που χρειάζεται για να δράσει αυτόνομα και να δημιουργήσει περιεχόμενο ανώτερης ποιότητας, χωρίς να του επιβάλλουμε θεατρικούς ρόλους.