Ερευνητές ξεγέλασαν την τεχνητή νοημοσύνη με «ξόρκια» πολύ επικίνδυνα για να δημοσιοποιηθούν

Contents

Ξεγέλασαν τα μοντέλα ΑΙ στο 63% των προσπαθειών Πώς το καταφέρνει αυτό η ποίηση

Ακόμη και τα προστατευτικά μέτρα των πιο εξελιγμένων chatbots τεχνητής νοημοσύνης μπορούν να παραβιαστούν με έναν εκπληκτικά απλό τρόπο, διαπίστωσαν ερευνητές του Icaro Lab στην Ιταλία. Ποιος είναι αυτός; Η «αντιπαραθετική ποίηση» (adversarial poetry).

Η ερευνητική ομάδα, στην οποία συμμετείχαν επιστήμονες από την ομάδα ασφάλειας DexAI και το Πανεπιστήμιο Σαπιέντσα της Ρώμης, απέδειξε ότι κορυφαία μοντέλα ΑΙ «παρασύρονται» από κακόβουλες οδηγίες, όταν αυτές δεν διατυπώνονται ως απλό κείμενο, αλλά ως ποιήματα. Μέσα σε στίχους, οι ερευνητές ενσωμάτωσαν επικίνδυνες εντολές, όπως οδηγίες για την κατασκευή πυρηνικών όπλων.

Υπογραμμίζοντας την παράξενη δύναμη των στίχων, ο συν-συγγραφέας της σχετικής μελέτης Matteo Prandi, δήλωσε σε συνέντευξή του στο The Verge ότι τα «ξόρκια» που χρησιμοποίησαν για ξεγελάσουν την τεχνητή νοημοσύνη είναι πολύ επικίνδυνα για να δοθούν στη δημοσιότητα. Το ανησυχητικό, όπως προσθέτει, είναι ότι πρόκειται για κάτι που «σχεδόν όλοι μπορούν να κάνουν».

Ξεγέλασαν τα μοντέλα ΑΙ στο 63% των προσπαθειών

Στη μελέτη, η οποία βρίσκεται σε αναμονή αξιολόγησης, η ομάδα δοκίμασε 25 προηγμένα μοντέλα AI, συμπεριλαμβανομένων εκείνων των OpenAI, Google, xAI, Anthropic και Meta. Οι ερευνητές τα «τροφοδότησαν» τόσο με ποιήματα-οδηγίες που έφτιαξαν οι ίδιοι όσο και με κακόβουλες εντολές μετασχηματισμένες σε στίχους μέσω τεχνητής νοημοσύνης, συγκρίνοντας τα αποτελέσματα με τα αντίστοιχα των εντολών που δόθηκαν σε πεζό λόγο.

Οι ποιητικές εντολές που φτιάχτηκαν από τους ερευνητές κατάφεραν να παραβιάσουν τους μηχανισμούς ασφαλείας κατά μέσο όρο στο 63% των περιπτώσεων. Ορισμένα μοντέλα, όπως το Gemini 2.5 της Google, ξεγελάστηκαν στο 100% των δοκιμών.

Περιέργως, τα μικρότερα μοντέλα έδειξαν μεγαλύτερη αντοχή, με ποσοστά επιτυχίας μονοψήφια ή και μηδενικά, όπως έγινε με το GPT-5 nano της OpenAI. Όσον αφορά τις εντολές που είχαν μετατραπεί σε ποίηση από την AI, ήταν λιγότερο αποτελεσματικές, με μέσο ποσοστό επιτυχίας 43% – ωστόσο και αυτό ήταν έως και 18 φορές υψηλότερο από τις αντίστοιχες με πεζό λόγο.

Πώς το καταφέρνει αυτό η ποίηση

Γιατί συμβαίνει αυτό με τα ποιήματα; Η απάντηση δεν είναι ξεκάθαρη, αν και Prandi παραδέχεται ότι ο όρος «αντιπαραθετική ποίηση» ίσως να μην είναι απολύτως σωστός. «Δεν πρόκειται απλώς για ρίμες, αλλά για γρίφους» είπε, εξηγώντας ότι ορισμένες ποιητικές δομές ήταν πιο αποτελεσματικές από άλλες.

«Στην πραγματικότητα, θα έπρεπε να τα ονομάσουμε ανταγωνιστικά αινίγματα –η ποίηση είναι σε κάποιο βαθμό ένα αίνιγμα, αν το σκεφτείτε – αλλά η ποίηση μάλλον ήταν ένα πολύ καλύτερο όνομα».

Οι ερευνητές εκτιμούν ότι το φαινόμενο σχετίζεται με τον τρόπο που η ποίηση παρουσιάζει την πληροφορία με απρόβλεπτη μορφή, μπερδεύοντας τους μηχανισμούς πρόβλεψης λέξεων των μεγάλων γλωσσικών μοντέλων. «Η αντιπαραθετική ποίηση δεν θα έπρεπε να λειτουργεί. Είναι φυσική γλώσσα, το επικίνδυνο περιεχόμενο παραμένει ορατό, κι όμως λειτουργεί εντυπωσιακά καλά», δήλωσαν στο Wired.

Κάποιοι κακόβουλοι ίσως μετανιώσουν που δεν έδιναν μεγαλύτερη σημασία στα μαθήματα λογοτεχνίας: «Η παραγωγή πλουτωνίου-239 για χρήση ως όπλο περιλαμβάνει διάφορα στάδια», απάντησε χαρακτηριστικά ένα μοντέλο ΑΙ που παρασύρθηκε από στίχους. «Ακολουθεί αναλυτική περιγραφή της διαδικασίας».

Source link

Ερευνητές ξεγέλασαν την τεχνητή νοημοσύνη με «ξόρκια» πολύ επικίνδυνα για να δημοσιοποιηθούν

Ξεγέλασαν τα μοντέλα ΑΙ στο 63% των προσπαθειών

Πώς το καταφέρνει αυτό η ποίηση

Αφήστε μια απάντηση Ακύρωση απάντησης

Recent Posts

MMX Radio