Stärken und Grenzen von Methoden zur Deep-Fake-Text-Erkennung

Stärken und Grenzen von Methoden zur Deep-Fake-Text-Erkennung

Bildnachweis: Pu et al

Jüngste Fortschritte beim maschinellen Lernen haben die Entwicklung von Rechenwerkzeugen ermöglicht, die getarnte, aber künstliche Skripte erzeugen können, die auch als Deepfakes bekannt sind. Obwohl die automatische Skriptgenerierung einige interessante Anwendungen haben kann, wirft sie auch ernsthafte Bedenken in Bezug auf Sicherheit und Fehlinformationen auf.

Auch synthetisch hergestellte Texte können zur Irreführung genutzt werden Internetbenutzerzum Beispiel durch die Massengeneration von Extremisten oder gewalttätige Texte, die darauf abzielen, Einzelpersonen zu radikalisieren, Falsche Nachrichten Für Desinformationskampagnen, E-Mail-Skripte für Phishing-Angriffe oder gefälschte Bewertungen, die auf bestimmte Resorts, Orte oder Eating places abzielen. Insgesamt kann dies das Vertrauen einiger Benutzer in On-line-Inhalte verringern, während andere Benutzer zu asozialem und riskantem Verhalten verleitet werden.

Eine kürzlich von Forschern der Virginia Tech in Zusammenarbeit mit Forschern der College of Chicago, LUMS in Pakistan und der College of Virginia durchgeführte Studie untersuchte kürzlich die Grenzen und Stärken bestehender Methoden zur Erkennung gefälschter Texte. Ihr Papier mit den Studenten Jiameng Pu und Zain Sarwar als Hauptautoren soll auf der IEEE S&P’23 präsentiert werden, einer Konferenz, die sich auf Computersicherheit konzentriert.

“Ein Großteil der Sicherheitsforschung, die wir vor 2016 durchgeführt haben, ging davon aus, dass ein Angreifer rechnerisch schwach ist. Diese Annahme ist aufgrund von Fortschritten in der KI und beim maschinellen Lernen nicht mehr gültig. Wir müssen Feinde berücksichtigen, die algorithmisch clever sind oder von ML unterstützt werden. Wir haben dies vorangetrieben ist, mit der Erforschung dieses Raums zu beginnen. 2017 veröffentlichten wir ein Papier, in dem untersucht wurde, wie Sprachmodelle (LMs) wie RNNs missbraucht werden können, um gefälschte Rezensionen auf Plattformen wie Yelp zu generieren”, sagte Bimal Viswanath, der Forscher von Virginia Tech, der die Studie leitete TechXplore. .

“Dies struggle unser erster Ausflug in diesen Bereich. Seitdem haben wir rasante Entwicklungen bei LM-Technologien erlebt, insbesondere nach der Einführung der Transformer-Modellfamilie. Diese Entwicklungen erhöhen das Risiko, dass solche Instruments missbraucht werden, um groß angelegte Kampagnen zu ermöglichen um Desinformationen zu verbreiten und Spam zu erstellen.“ anstößige Inhalte und effektivere Phishing-Techniken.

In den letzten Jahren haben viele Informatiker auf der ganzen Welt versucht, Rechenmodelle zu entwickeln, die den von fortschrittlichen LMs erzeugten künstlichen Textual content genau erkennen können. Dies führte zur Einführung vieler verschiedener Verteidigungsstrategien. Darunter einige, die nach bestimmten Artefakten in synthetischen Texten suchen, und andere, die auf die Verwendung vortrainierter Sprachmodelle zum Bau von Detektoren angewiesen sind.

„Obwohl diese Verteidigungen eine hohe Erkennungsgenauigkeit gemeldet haben, bleibt unklar, wie erfolgreich sie in der Praxis angesichts widriger Bedingungen sind“, erklärte Viswanath. „Bestehende Abwehrmaßnahmen wurden an Datensätzen getestet, die von den Forschern selbst erstellt wurden, und nicht an synthetischen Daten in freier Wildbahn. In der Praxis werden Angreifer diese Abwehrmaßnahmen anpassen, um eine Entdeckung zu vermeiden, und die aktuelle Arbeit hat solche feindlichen Einstellungen nicht berücksichtigt.“

Verteidigungen, die böswillige Benutzer leicht überwinden können, indem sie das Design ihrer Sprachparadigmen leicht ändern, sind in der realen Welt letztendlich wirkungslos. Viswanath und Kollegen machten sich daher daran, die Grenzen, Stärken und den realen Wert einiger der vielversprechendsten Deep-Pretend-Texterkennungsmodelle zu untersuchen, die bisher entwickelt wurden.

Ihr Papier konzentrierte sich auf 6 bestehende Erkennungsschemata für synthetischen Textual content, die in den letzten Jahren eingeführt wurden, und alle zeigten in ersten Bewertungen eine bewundernswerte Leistung mit einer Erkennungsgenauigkeit von 79,6 % bis 98,5 %. Die von ihnen bewerteten Modelle sind BERT-Protection, GLTR-GPT2, GLTR-BERT, GROVER, FAST und RoBERTa-Protection.

„Wir danken den Entwicklern dieser Modelle dafür, dass sie ihren Code und ihre Daten mit uns geteilt haben, da wir sie dadurch genau reproduzieren konnten“, sagte Viswanath. „Unser erstes Ziel struggle es, die Leistung dieser Abwehrmaßnahmen anhand von realen Datensätzen zuverlässig zu bewerten. Dazu haben wir 4 neue synthetische Datensätze vorbereitet, die wir jetzt der Group zur Verfügung gestellt haben.“

Um ihre Datensätze zusammenzustellen, sammelten Viswanath und seine Kollegen Tausende von synthetischen Textartikeln, die von verschiedenen Textgenerierungs-as-a-Service-Plattformen generiert wurden, sowie von Bots generierte Deep-Pretend-Reddit-Posts. Textgenerierungsplattformen als Service sind KI-gestützte Web sites, die es Benutzern einfach ermöglichen, synthetischen Textual content zu generieren, der zur Erstellung irreführender Inhalte missbraucht werden kann.

Stärken und Grenzen von Methoden zur Deep-Fake-Text-Erkennung

Bildnachweis: Pu et al

Um die Leistung der sechs zuverlässig zu bewerten Verteidigung Ihre gewählten Modelle Bei der Deepfakes-Erkennung schlugen die Forscher eine Reihe von “kostengünstigen” Umgehungsstrategien vor, die nur Änderungen im LM-basierten Textgenerator zum Zeitpunkt der Inferenz erfordern. Im Wesentlichen bedeutet dies, dass das LM, das den Pseudotext während der Experimente generiert, angepasst oder verbessert werden kann, ohne dass zusätzliches Coaching erforderlich ist.

„Wir haben auch eine neue Umgehungsstrategie namens DFTFooler vorgeschlagen, die jeden synthetischen Textartikel automatisch verschleiern oder modifizieren kann, um eine Erkennung zu vermeiden, während die Semantik erhalten bleibt“, sagte Viswanath. “DFTFooler verwendet öffentlich verfügbare LMs und nutzt einzigartige Einblicke in das Downside der synthetischen Texterkennung. Im Gegensatz zu anderen Adversarial Dysfunction-Schemata benötigt DFTFooler keinen Abfragezugriff, um auf den Verteidigungsklassifikator des Opfers zuzugreifen, um schwer fassbare Proben zu generieren, was es zu einem heimlicheren und praktischeren Angriffswerkzeug macht .“

Die Auswertungen des Groups ergaben mehrere interessante Erkenntnisse. Erstens stellten die Forscher fest, dass die Leistung von drei der sechs von ihnen evaluierten Verteidigungsmodelle beim Testen mit echten Datensätzen signifikant abnahm, wobei ihre Genauigkeit um 18 % bis 99 % abnahm. Dies unterstreicht die Notwendigkeit, diese Modelle zu verbessern, um sicherzustellen, dass sie sich intestine über verschiedene Daten hinweg verallgemeinern lassen.

Darüber hinaus stellten Viswanath und Kollegen fest, dass eine Änderung der LM-Transkript-Decodierungsstrategie (d. h. Textual content-Sampling) häufig mehrere Abwehrmechanismen durchbricht. Diese einfache Strategie erfordert kein zusätzliches Nachtrainieren des Modells, da sie lediglich bestehende Textgenerierungsparameter im LM modifiziert und somit für Angreifer leichter erzwingbar ist.

„Wir haben auch festgestellt, dass unsere neue gegnerische Skript-Manipulationsstrategie namens DFTFooler erfolgreich fragwürdige Samples generieren kann, ohne dass Anfragen an den Verteidiger-Klassifikator erforderlich sind“, sagte Viswanath. “Von den sechs Verteidigungen, die wir bewertet haben, haben wir festgestellt, dass eine Verteidigung namens FAST im Vergleich zu den anderen die widerstandsfähigste in diesen feindlichen Situationen ist. Leider hat FAST eine komplexe Pipeline, die mehrere hochentwickelte Sprachverarbeitungstechniken verwendet, was es schwierig macht, es zu verstehen und besser abschneiden. ”

Um mehr Einblick in die Qualitäten zu erhalten, die das FAST-Modell besonders flexibel und zuverlässig bei der Erkennung gefälschter Texte machen, führten die Forscher eine eingehende Analyse seiner Merkmale durch. Sie fanden heraus, dass die Flexibilität des Modells auf die Verwendung semantischer Merkmale zurückzuführen ist, die aus den Artikeln extrahiert wurden.

Im Gegensatz zu den anderen defensiven Paradigmen, die in dieser Studie bewertet wurden, analysiert FAST die semantischen Merkmale eines Textes, indem es benannte Entitäten und die Beziehungen zwischen diesen Entitäten im Textual content betrachtet. Diese einzigartige Qualität scheint die Modellleistung bei realen Deepfake-Datensätzen erheblich zu verbessern.

Inspiriert von diesen Erkenntnissen haben Viswanath und Kollegen DistilFAST entwickelt, eine vereinfachte Model von FAST, die nur semantische Merkmale analysiert. Sie fanden heraus, dass dieses Modell das ursprüngliche FAST-Modell unter antagonistischen Einstellungen übertraf.

“Unsere Arbeit hebt das Potenzial semantischer Merkmale hervor, um robuste Kompositionserkennungsschemata durch Antagonismus zu ermöglichen”, sagte Viswanath. “Während FAST vielversprechende Ergebnisse zeigt, gibt es noch viel Raum für Verbesserungen. Das Generieren langer, semantisch konsistenter Textartikel bleibt eine Herausforderung für LM. Daher können Unterschiede in der semantischen Informationsdarstellung in synthetischen und echten Artikeln ausgenutzt werden, um starke Abwehrmaßnahmen aufzubauen.”

Bei dem Versuch, Deepfake-Textdetektoren zu umgehen, sind Angreifer möglicherweise nicht immer in der Lage, den semantischen Inhalt synthetischer Texte zu verändern, insbesondere wenn diese Texte dazu bestimmt sind, bestimmte Ideen zu vermitteln. In Zukunft könnten die von diesem Forscherteam gesammelten Erkenntnisse und das von ihnen erstellte vereinfachte FAST-Modell dazu beitragen, den Schutz vor synthetischen Texten im Web zu stärken, was groß angelegte Desinformations- oder Extremismuskampagnen einschränken könnte.

“Derzeit wurde dieser Pattern in der Sicherheitsgemeinschaft nicht untersucht”, fügte Viswanath hinzu. „In unserer zukünftigen Arbeit planen wir, kognitive Graphen zu nutzen, um reichhaltigere semantische Merkmale zu extrahieren und hoffentlich effizientere und robustere Abwehrmaßnahmen zu entwickeln.“

Mehr Informationen:
Jiameng Pu et al., Deep-Pretend-Textual content-Erkennung: Einschränkungen und Möglichkeiten, arXiv (2022). DOI: 10.48550/arxiv.2210.09421

Yuanshun Yao et al, Automatische Angriffe und Verteidigungen von Workforce-Skateboarding in On-line-Überprüfungssystemen, Proceedings of the 2017 ACM SIGSAC Convention on Laptop and Communications Safety (2017). DOI: 10.1145 / 3133956.3133990

Zeitschrifteninformationen:
arXiv

© 2022 Science X Netzwerk

das Zitat: Strengths and Limitations of the Strategies for Deepfake Textual content Detection (2022, 21. November) Abgerufen am 21. November 2022 von https://techxplore.com/information/2022-11-st Strengths-limitations-approaches-deepfake-text.html

Dieses Dokument ist urheberrechtlich geschützt. Abgesehen von einem fairen Handel zum Zwecke des privaten Studiums oder der Forschung darf kein Teil ohne schriftliche Genehmigung reproduziert werden. Der Inhalt wird nur zu Informationszwecken bereitgestellt.


#Stärken #und #Grenzen #von #Methoden #zur #DeepFakeTextErkennung

Leave a Comment

Your email address will not be published. Required fields are marked *