Πώς το επιτραπέζιο «Dungeons & Dragons» χρησιμοποιείται σε πειράματα αξιολόγησης της ΑΙ

Contents

Πώς τα κατάφερε το κάθε μοντέλο ΑΙ Εφαρμογές στον πραγματικό κόσμο

Μπορεί ένα επιτραπέζιο παιχνίδι ρόλων να αποτελέσει αυστηρό τεστ για την τεχνητή νοημοσύνη; Μπορεί, σύμφωνα με ερευνητές που χρησιμοποίησαν το «Dungeons & Dragons» (D&D) για να αξιολογήσουν την ικανότητα μεγάλων γλωσσικών μοντέλων (LLMs) να αναπτύσσουν μακροπρόθεσμες στρατηγικές, να συνεργάζονται μεταξύ τους και να αλληλεπιδρούν με ανθρώπινους παίκτες.

Το «D&D», που οι νεότερες γενιές έμαθαν τα τελευταία χρόνια μέσα από τη σειρά «Stranger Things», συνδυάζει ελευθερία αφήγησης με αυστηρούς κανόνες. Για να πετύχει στο παιχνίδι, ένας ανθρώπινος παίκτης – ή ένα μοντέλο AI – πρέπει να σχεδιάζει πολλαπλά βήματα μπροστά, να θυμάται προηγούμενες κινήσεις, να επικοινωνεί αποτελεσματικά και να κατανοεί τις προθέσεις συμμάχων και αντιπάλων. Η δράση εξελίσσεται μέσω διαλόγου, γεφυρώνοντας τη φυσική γλώσσα με συγκεκριμένους μηχανισμούς παιχνιδιού, κάτι που το καθιστά ιδανικό πεδίο δοκιμών, αναφέρει το LiveScience.

Στο πειραματικό πλαίσιο, που ονομάστηκε D&D Agents, τα μοντέλα μπορούσαν να αναλάβουν τόσο τον ρόλο του Dungeon Master (DM) – του αφηγητή που ελέγχει την ιστορία και τα τέρατα – όσο και κάποιων από τους τέσσερις ήρωες. Σε κάθε σενάριο υπήρχε ένας DM και τέσσερις χαρακτήρες, ενώ οι ρόλοι μπορούσαν να μοιραστούν ανάμεσα σε LLMs και ανθρώπους.

Πώς τα κατάφερε το κάθε μοντέλο ΑΙ

Οι ερευνητές δεν προσομοίωσαν μία ολόκληρη εκστρατεία «D&D», αλλά επικεντρώθηκαν σε μάχες από την έτοιμη περιπέτεια «Lost Mine of Phandelver». Κάθε επεισόδιο διαρκούσε 10 γύρους. Επιλέγονταν ένα από τρία σενάρια μάχης, τέσσερις χαρακτήρες και το επίπεδο ισχύος τους (χαμηλό, μεσαίο ή υψηλό), ώστε να αξιολογηθεί η απόδοση των μοντέλων υπό διαφορετικές συνθήκες δυσκολίας. Συγκρίθηκαν τρία μοντέλα: DeepSeek-V3, Claude Haiku 3.5 και GPT-4.

Το Claude Haiku 3.5 παρουσίασε τη μεγαλύτερη αποδοτικότητα σε απαιτητικές μάχες, αξιοποιώντας πιο επιθετικά τους διαθέσιμους πόρους (όπως ξόρκια ή θεραπευτικά φίλτρα). Το GPT-4 ακολούθησε με μικρή διαφορά, ενώ το DeepSeek-V3 αντιμετώπισε τις περισσότερες δυσκολίες.

Πέρα από τη στρατηγική, οι ερευνητές αξιολόγησαν και την «υποκριτική συνέπεια» των μοντέλων, δηλαδή το κατά πόσο παρέμεναν πιστά στον χαρακτήρα τους. Το DeepSeek-V3 παρήγαγε σύντομες, κοφτές ατάκες («Ορμάω αριστερά!», «Πιάστε τους!»), αλλά συχνά επαναλάμβανε το ίδιο ύφος. Το Claude Haiku 3.5 προσαρμοζόταν περισσότερο στον ρόλο – είτε ως πολεμιστής με πανοπλία είτε ως δρυΐδης. Το GPT-4 κινήθηκε ενδιάμεσα, ισορροπώντας ανάμεσα σε αφηγηματικό λόγο και μετα-τακτικές παρατηρήσεις.

Μερικές από τις πιο ενδιαφέρουσες και ιδιόμορφες κραυγές μάχης προέκυψαν όταν τα μοντέλα έπαιζαν το ρόλο των τεράτων. Διαφορετικά πλάσματα άρχισαν να αναπτύσσουν ξεχωριστές προσωπικότητες, με αποτέλεσμα τα γκόμπλιν να φωνάζουν στη μέση της μάχης: «Χα! Ο λαμπερός άντρας (σ.σ. ο πολεμιστής με την πανοπλία) θα αιμορραγήσει!»

Εφαρμογές στον πραγματικό κόσμο

Σύμφωνα με την ερευνητική ομάδα, τέτοιου είδους πλαίσια δοκιμών επιτρέπουν την αξιολόγηση της ικανότητας της τεχνητής νοημοσύνης να λειτουργεί αυτόνομα για παρατεταμένα χρονικά διαστήματα, με συνοχή και στρατηγική σκέψη — δεξιότητες κρίσιμες για εφαρμογές στον πραγματικό κόσμο, από τη διαχείριση εφοδιαστικών αλυσίδων έως τον συντονισμό επιχειρήσεων έρευνας και διάσωσης.

Στο μέλλον, οι επιστήμονες σχεδιάζουν να επεκτείνουν το μοντέλο σε πλήρεις εκστρατείες «D&D», δοκιμάζοντας ακόμη περισσότερο τη δημιουργικότητα και την ικανότητα αυτοσχεδιασμού της Τεχνητής Νοημοσύνης. Η μελέτη τους παρουσιάστηκε στο τελευταίο συνέδριο NeurIPS στο Σαν Ντιέγκο των ΗΠΑ.

Source link

Πώς το επιτραπέζιο «Dungeons & Dragons» χρησιμοποιείται σε πειράματα αξιολόγησης της ΑΙ

Πώς τα κατάφερε το κάθε μοντέλο ΑΙ

Εφαρμογές στον πραγματικό κόσμο

Αφήστε μια απάντηση Ακύρωση απάντησης

Recent Posts

MMX Radio