Google TPU: Η όγδοη γενιά επεξεργαστών φέρνει τα νέα TPU 8t και TPU 8i

Η επίσημη αποκάλυψη της όγδοης γενιάς των επεξεργαστών Google TPU σηματοδοτεί μια ιστορική καμπή για το μέλλον της τεχνητής νοημοσύνης και των υπερυπολογιστών. Στο πλαίσιο του συνεδρίου Google Cloud Next, η εταιρεία παρουσίασε την κορύφωση μιας δεκαετούς ανάπτυξης στον τομέα του εξειδικευμένου hardware, εισάγοντας δύο εντελώς νέες, διακριτές αρχιτεκτονικές: το TPU 8t και το TPU 8i. Αυτά τα προηγμένα μικροτσίπ έχουν κατασκευαστεί κατά παραγγελία για να τροφοδοτήσουν την επόμενη γενιά υπερυπολογιστών, αναλαμβάνοντας τα πάντα, από την απαιτητική εκπαίδευση μοντέλων αιχμής έως τον τεράστιο φόρτο εργασίας των διαδικασιών inference.

Οι συγκεκριμένοι επεξεργαστές, οι οποίοι τροφοδοτούν εδώ και χρόνια κορυφαία θεμελιώδη μοντέλα όπως το Gemini, σχεδιάστηκαν σε στενή συνεργασία με την έμπειρη ομάδα της Google DeepMind. Στη νέα εποχή των αυτόνομων AI agents, τα ψηφιακά μοντέλα πρέπει να μπορούν να σκέφτονται πολύπλοκα προβλήματα, να εκτελούν ροές εργασίας πολλαπλών βημάτων και να μαθαίνουν συνεχώς από τις ίδιες τους τις ενέργειες, θέτοντας πρωτοφανείς απαιτήσεις στις σύγχρονες υποδομές. Καινοτόμες επιχειρήσεις όπως η Citadel Securities ήδη αξιοποιούν αυτή την υπολογιστική ισχύ για να ξεπεράσουν τα όρια του εφικτού.

Η στρατηγική των δύο ξεχωριστών επεξεργαστών για μέγιστη απόδοση

Οι κύκλοι ανάπτυξης του φυσικού υλικού είναι παραδοσιακά πολύ μεγαλύτεροι από αυτούς του λογισμικού, γεγονός που υποχρεώνει τους μηχανικούς να προβλέπουν τις τεχνολογικές ανάγκες χρόνια πριν αυτές εμφανιστούν στην αγορά. Προβλέποντας έγκαιρα την τεράστια αύξηση της ζήτησης για διαδικασίες συμπερασμού, η εταιρεία αποφάσισε να διαφοροποιήσει την παραγωγή της δημιουργώντας δύο εξειδικευμένες εκδοχές των νέων Google TPU. Το μοντέλο TPU 8t εστιάζει στην απόλυτη ισχύ και έχει σχεδιαστεί για τεράστιους, υπολογιστικά απαιτητικούς φόρτους εκπαίδευσης, προσφέροντας ασύλληπτη απόδοση διεκπεραίωσης δεδομένων.

Στον αντίποδα, το μοντέλο TPU 8i διαθέτει δραματικά αυξημένο εύρος ζώνης μνήμης για να εξυπηρετεί τους πιο ευαίσθητους σε latency φόρτους εργασίας inference. Αυτή η εξειδίκευση είναι κρίσιμη, καθώς οι πολύπλοκες αλληλεπιδράσεις μεταξύ των ψηφιακών πρακτόρων σε μεγάλη κλίμακα μπορούν να μεγεθύνουν ακόμα και τις πιο ανεπαίσθητες αναποτελεσματικότητες. Ενώ και τα δύο τσιπ μπορούν να εκτελέσουν διάφορες εργασίες παρασκηνίου, ο αυστηρός διαχωρισμός του ρόλου τους ξεκλειδώνει τεράστια κέρδη σε ταχύτητα και λειτουργική αποδοτικότητα.

Το μοντέλο TPU 8t ως η απόλυτη δύναμη εκπαίδευσης

Ο επεξεργαστής TPU 8t κατασκευάστηκε με έναν ξεκάθαρο στόχο, να μειώσει τον κύκλο ανάπτυξης των κορυφαίων ψηφιακών μοντέλων από αρκετούς μήνες σε μόλις λίγες εβδομάδες. Εξισορροπώντας την υψηλότερη δυνατή υπολογιστική απόδοση με την κοινόχρηστη μνήμη και το εύρος ζώνης interchip, το σύστημα προσφέρει σχεδόν τριπλάσια απόδοση ανά pod σε σύγκριση με την προηγούμενη γενιά. Ένα και μόνο superpod μπορεί πλέον να κλιμακωθεί στα 9.600 τσιπ και να φτάσει τα δύο petabytes κοινόχρηστης μνήμης υψηλού εύρους ζώνης. Η συγκεκριμένη αρχιτεκτονική αποδίδει το ιλιγγιώδες νούμερο των 121 ExaFlops υπολογιστικής ισχύος.

Η ενσωμάτωση δεκαπλάσιας ταχύτητας στην πρόσβαση αποθήκευσης σε συνδυασμό με την τεχνολογία TPUDirect επιτρέπει την απευθείας άντληση δεδομένων στο Google TPU, εξασφαλίζοντας τη μέγιστη δυνατή αξιοποίηση του συστήματος. Επιπλέον, το νέο Virgo Network σε συνδυασμό με το JAX και το λογισμικό Pathways εξασφαλίζει σχεδόν γραμμική κλιμάκωση για έως και ένα εκατομμύριο τσιπ σε ένα ενιαίο λογικό σύμπλεγμα cluster. Η αξιοπιστία διασφαλίζεται μέσω του συστήματος Optical Circuit Switching, το οποίο αναδιαμορφώνει αυτόματα το υλικό γύρω από πιθανές βλάβες χωρίς την παραμικρή ανθρώπινη παρέμβαση, αυξάνοντας τον παραγωγικό χρόνο υπολογισμού σε ποσοστό άνω του 97%.

Το μοντέλο TPU 8i ως η τέλεια μηχανή συλλογιστικής

Καθώς οι χρήστες απαιτούν άμεσα αποτελέσματα και απρόσκοπτη εκτέλεση πολύπλοκων εργασιών, το TPU 8i αναλαμβάνει την περίπλοκη, επαναληπτική εργασία των εξειδικευμένων πρακτόρων. Για να αντιμετωπιστεί το τεχνολογικό φαινόμενο του memory wall που αφήνει τους επεξεργαστές σε αδράνεια, ο συγκεκριμένος επεξεργαστής συνδυάζει 288 GB μνήμης υψηλού εύρους ζώνης με 384 MB ενσωματωμένης μνήμης SRAM, διατηρώντας το ενεργό σύνολο δεδομένων ενός μοντέλου εξ ολοκλήρου πάνω στο τσιπ. Οι φυσικοί επεξεργαστές CPU ανά διακομιστή έχουν διπλασιαστεί χάρη στους προσαρμοσμένους επεξεργαστές Axion που βασίζονται σε αρχιτεκτονική ARM.

Για τα σύγχρονα μοντέλα Mixture of Expert, το σύστημα χρησιμοποιεί τη νέα αρχιτεκτονική Boardfly, η οποία μειώνει τη μέγιστη διάμετρο του δικτύου κατά περισσότερο από 50%, διπλασιάζοντας το εύρος ζώνης ICI στα 19.2 Tb/s. Παράλληλα, η ενσωματωμένη μηχανή Collectives Acceleration Engine αναλαμβάνει τις παγκόσμιες λειτουργίες, μειώνοντας το on chip latency έως και πέντε φορές. Αυτές οι στρατηγικές καινοτομίες στο Google TPU μεταφράζονται σε 80% καλύτερη απόδοση ανά δολάριο συγκριτικά με την προηγούμενη γενιά, επιτρέποντας στις επιχειρήσεις να εξυπηρετούν διπλάσιο όγκο πελατών με το ίδιο ακριβώς κόστος.

Σχεδιασμός με απόλυτο γνώμονα την ενεργειακή αποδοτικότητα μεγάλης κλίμακας

Στα σύγχρονα κέντρα δεδομένων, η διαθεσιμότητα ενέργειας αποτελεί ίσως τον πιο αυστηρό περιορισμό, ξεπερνώντας ακόμα και το ζήτημα της προσφοράς των ίδιων των τσιπ. Για την επίλυση αυτού του προβλήματος, η εταιρεία έχει βελτιστοποιήσει την αποδοτικότητα σε ολόκληρη τη στοίβα τεχνολογίας, ενσωματώνοντας προηγμένα συστήματα διαχείρισης ενέργειας που προσαρμόζουν δυναμικά την κατανάλωση με βάση την πραγματική, τρέχουσα ζήτηση. Και τα δύο νέα τσιπ προσφέρουν έως και δύο φορές καλύτερη απόδοση ανά watt σε σχέση με την προηγούμενη γενιά Ironwood.

Δημιουργήστε εφαρμογές με βάσεις δεδομένων μέσω του νέου Google AI Studio

Η Google ενσωματώνει έξυπνα τη συνδεσιμότητα δικτύου με τον υπολογισμό στο ίδιο ακριβώς τσιπ, μειώνοντας δραστικά το ενεργειακό κόστος μεταφοράς δεδομένων σε ολόκληρο το δίκτυο των επεξεργαστών. Επιπρόσθετα, τα συστήματα υποστηρίζονται από την προηγμένη τεχνολογία υγρής ψύξης τέταρτης γενιάς, η οποία διατηρεί σταθερές τις πυκνότητες απόδοσης που τα παραδοσιακά συστήματα αερόψυξης αδυνατούν πλέον να υποστηρίξουν. Αξίζει να σημειωθεί πως τα σημερινά κέντρα δεδομένων αποδίδουν έξι φορές περισσότερη υπολογιστική ισχύ ανά μονάδα ηλεκτρικής ενέργειας σε σχέση με μόλις πέντε χρόνια πριν.

Ανοιχτή φιλοσοφία και απρόσκοπτη ενσωμάτωση στο υπάρχον οικοσύστημα λογισμικού

Η όγδοη γενιά Google TPU αποτελεί την πιο σύγχρονη έκφραση της φιλοσοφίας του συνεργιτικού σχεδιασμού, όπου κάθε τεχνική προδιαγραφή δημιουργείται για να λύσει τα μεγαλύτερα εμπόδια της τεχνητής νοημοσύνης. Για πρώτη φορά στην ιστορία της σειράς, τα τσιπ λειτουργούν πάνω στους αποκλειστικούς κεντρικούς επεξεργαστές Axion της εταιρείας, επιτρέποντας τη συνολική βελτιστοποίηση του συστήματος και όχι μόνο του μεμονωμένου μικροεπεξεργαστή. Αμφότερες οι πλατφόρμες προσφέρουν εγγενή υποστήριξη για κορυφαία frameworks που ήδη χρησιμοποιούν οι προγραμματιστές σε παγκόσμιο επίπεδο, όπως το JAX, το MaxText, το PyTorch, το SGLang και το vLLM.

Επιπλέον, προσφέρεται πρόσβαση bare metal, δίνοντας στους πελάτες τον άμεσο έλεγχο του υλικού χωρίς τις ενοχλητικές καθυστερήσεις και τις επιβαρύνσεις που φέρνει η χρήση virtualization. Ταυτόχρονα, οι συνεισφορές ανοιχτού κώδικα όπως το Tunix για reinforcement learning διευκολύνουν την παραγωγή. Τα νέα συστήματα αναμένεται να γίνουν ευρέως διαθέσιμα αργότερα μέσα στο τρέχον έτος, αποτελώντας αναπόσπαστο κομμάτι του AI Hypercomputer, το οποίο συνδυάζει ιδανικά το προσαρμοσμένο υλικό, το ανοιχτό λογισμικό και τα ευέλικτα μοντέλα διαχείρισης σε μια ενιαία, πανίσχυρη στοίβα ικανή να τρέξει τα μαθηματικά μοντέλα της επόμενης δεκαετίας.