Τα τελευταία χρόνια, τα εργαλεία τεχνητής νοημοσύνης όπως το ChatGPT γίνονται όλο και πιο δημοφιλή για τη σύνοψη επιστημονικών ερευνών. Ο μέσος χρήστης ή δημοσιογράφος μπορεί τώρα να ζητήσει κάτι σαν «explain like I’m five» – δηλαδή να μετατρέψει περίπλοκα στοιχεία σε κατανοητό λόγο. Με πρώτο βλέμμα, αυτό φαίνεται θετικό: περισσότερη γνώση, καλύτερη ενημέρωση, μεγαλύτερη πρόσβαση σε όσους δεν έχουν εξειδικευμένη κατάρτιση. Όμως, πολλοί ειδικοί προειδοποιούν ότι αυτή η πρακτική κρύβει σημαντικούς κινδύνους – και ότι οι απλοποιημένες περιλήψεις συχνά «ξεχνούν» ουσιώδη σημεία, παραλείπουν περιορισμούς και προσθέτουν έναν τόνο υπερβολής.
Μια πρόσφατη αξιολόγηση από ομάδα της επιτροπής SciPak (Science Press Package) σε συνεργασία με το περιοδικό Science έδειξε ότι όταν το ChatGPT Plus χρησιμοποιείται για να συνοψίσει άρθρα, πολλά από τα λεγόμενα «απλοποιημένα» κείμενα θυσιάζουν ακρίβεια υπέρ κατανοητότητας. Για παράδειγμα, η λέξη «groundbreaking» εμφανίζεται συχνά, άσχετα με το αν η έρευνα είναι πράγματι «επαναστατική». Επιπλέον, όταν γίνεται παράκληση να αναλυθούν επίσης οι περιορισμοί της έρευνας, το εργαλείο αποτυγχάνει συχνά να το κάνει με σαφήνεια, αφήνοντας τον αναγνώστη με μια εικόνα πιο λαμπερή απ’ ό,τι η πραγματικότητα.
Το πρόβλημα δεν είναι απλώς θεωρητικό. Ειδικοί τονίζουν ότι όταν οι επιστήμονες ή τα media κάνουν χρήση αυτών των περίπλοκων εργαλείων χωρίς προσοχή, κινδυνεύουν να διαδώσουν πληροφορία που παραμορφώνει τα ευρήματα: υπερεκτιμήσεις των αποτελεσμάτων, γενικεύσεις που δεν δικαιούνται οι στατιστικές της έρευνας, και εξάλειψη λεπτομερειών που μπορούν να αλλάξουν την ερμηνεία ενός πειράματος.
Ένας από τους σοβαρότερους προβληματισμούς είναι ότι σε πολλούς τομείς – όπως η ιατρική, η δημόσια υγεία, τα περιβαλλοντικά επιστημονικά πεδία – οι λεπτομέρειες δεν είναι πολυτέλειες. Διαφορές στη δόση, στα μέτρα ασφαλείας, στις μεθοδολογίες, στα περιθώρια σφάλματος μπορεί να κάνουν τεράστια διαφορά στην κατανόηση του τι σημαίνουν τα αποτελέσματα. Αν αυτά παραλειφθούν ή παραποιηθούν, μπορεί να οδηγηθούν σε λανθασμένες ερμηνείες, σε μη ασφαλείς συμπεράσματα ή σε υπερβολικές προσδοκίες.
Μια άλλη παρατήρηση της SciPak είναι ότι η ικανότητα αντίληψης της «αβεβαιότητας» της έρευνας – δηλαδή των περιορισμών, των υποθέσεων και των συνθηκών υπό τις οποίες τα ευρήματα ισχύουν – είναι κάτι που το ChatGPT δυσκολεύεται να μεταφέρει με ακρίβεια όταν γράφει για μη ειδικευμένο κοινό. Όταν του ζητείται να συνοψίσει απλά, η προτίμηση του είναι να παραλείψει αποσιωπητικά στοιχεία ή να μην τονίσει περιορισμούς.
Έτσι, ενώ οι χρήστες μπορεί να λαμβάνουν μια πιο «καθαρή» και ευανάγνωστη περιγραφή, η ανακρίβεια μπορεί να εισχωρήσει και να πλατειάσει παρερμηνείες. Για παράδειγμα, μια έρευνα για νέες φαρμακευτικές θεραπείες μπορεί να περιγράφεται ως «επανάσταση» παρότι στην πραγματικότητα τα δεδομένα είναι πρώιμα, με μικρό δείγμα ή με περιορισμό στην παρακολούθηση των παρενεργειών.

Καταγράφεται επίσης ότι νέες εκδόσεις των μοντέλων φαίνονται να επιδεικνύουν περισσότερο αυτή την τάση παραπέρα γενίκευσης. Με άλλα λόγια, όσο πιο εξελιγμένο φαίνεται να είναι ένα μοντέλο, τόσο περισσότερες φορές μπορεί να πάρει ένα εύρημα και να το παρουσιάσει με υπερβολικό τρόπο – είτε λόγω των δεδομένων εκπαίδευσης είτε λόγω του τρόπου που έχει μάθει να ανταποκρίνεται σε «δημοσιογραφικά» ερωτήματα. Αυτό οδηγεί σε ένα παράδοξο: η προσπάθεια για ακρίβεια μπορεί να προκαλέσει περισσότερα λάθη, αν δεν συνοδεύεται από προσοχή και επαγγελματικό έλεγχο.
Παρά τα προβλήματα, δεν σημαίνει ότι τα εργαλεία όπως το ChatGPT είναι άχρηστα για την επιστήμη. Όταν χρησιμοποιούνται ως βοήθεια – για να καταλάβεις τα βασικά, για να εντοπίσεις ποια ερευνητικά άρθρα να διαβάσεις ολόκληρα, ή για να πάρεις μια πρώτη ιδέα – έχουν αξία μεγάλη. Το ζήτημα είναι να μην βασιζόμαστε αποκλειστικά σε αυτές τις περίληψεις. Η ανθρώπινη επίβλεψη, ο έλεγχος των αναφορών, η διασταύρωση με τα πρωτογενή δεδομένα, και η επαγγελματική δημοσιογραφική ή ακαδημαϊκή κριτική παραμένουν αναγκαίες.
Τέλος, υπάρχουν προτάσεις που έχουν διατυπωθεί για να βελτιωθεί αυτή η χρήση: καλύτερο prompt engineering (π.χ. ρητές εντολές να συμπεριληφθούν περιορισμοί, να μην χρησιμοποιηθούν υπερβολικοί όροι), benchmarking των εκδοχών των μοντέλων για ποσοστά λάθους, και εκπαίδευση των χρηστών ώστε να αναγνωρίζουν τις παγίδες της απλοποίησης.