KI Lexikon –

ELECTRA

(Efficiently Learning an Encoder that Classifies Token Responses Adversarially)

Was ist ELECTRA?

ELECTRA ist ein effizienter Ansatz zum Pretraining von Natural Language Processing (NLP) Modellen.

Wie funktioniert ELECTRA? 

Beim Einsatz von ELECTRA geht es darum, den Dateneingang in Form von Texten zu manipulieren. Der Algorithmus ersetzt Tokens mit einer Alternative. Die Alternative wird durch ein Netzwerk generiert. Das nachfolgende Modell wird darauf trainiert, vorherzusagen, ob ein Token manipuliert ist oder nicht. Dieser Ansatz hat sich in Versuchen als sehr effizient erwiesen. 

Was versteht man unter Pretraining? 

Beim Pretraining geht es darum, dass ein Modell so trainiert wird, um einen Parameter zu ermitteln, der in anderen Aufgaben genutzt werden kann. Dieser Ansatz orientiert sich am Vorgang des menschlichen Lernen. Denn auch die Menschen lernen nicht alles neu, wenn sie mit einer neuen Aufgabe konfrontiert sind. Sie transferieren bereits vorhandenes Wissen, um sich neues Wissen auf Basis dessen anzueignen.  

Was ist die Motivation hinter ELECTRA? 

Der große Vorteil von ELECTRA ist die höhere Effizienz im Pretraining. Stellt man es mit Pretraining Methoden aus dem Masked Language Modelling (MLM) gegenüber, zeigt sich, dass die notwendige Größe der Datenbasis deutlich reduziert ist. Vergleicht man ELECTRA in der Effizienz und im Ergebnis beispielsweise mit BERT, einer MLM Pretraining Methode, indem man beide Modelle mit der gleichen Datenbasis trainiert, sind die Ergebnisse durch ELECTRA deutlich besser. BERT braucht somit deutlich mehr Training, um ein ähnliches Ergebnis zu erzielen.