Last Updated on 2 Jahren by Christian Kaiser
Was ist ALBERT und wofür wird es verwendet?
ALBERT (A Lite BERT) ist ein neuronales Netzwerk-Modell für die Verarbeitung von natürlicher Sprache, mit dem Ziel, die zugrundeliegende BERT (Bidirectional Encoder Representations from Transformers)- Architektur zu optimieren, indem sie das Modell schlanker und schneller macht, ohne dabei die Leistung einzuschränken.
Was ist der Hintergrund für die Entwicklung von ALBERT?
Die Erhöhung der Modellgröße beim Vortraining von Sprachmodellen führt häufig zu einer verbesserten Leistung bei nachgelagerten Aufgaben. Dadurch werden die Sprachmodelle immer größer und müssen bereits Millionen oder Milliarden Parameter berücksichtigen. Daher stößt die Hardware schnell an ihre Grenzen aufgrund des limitierten Speichers. Dadurch werden die Trainingszeiten verlängert.
ALBERT wurde entwickelt, um die Effizienz durch Entfernen von Redundanzen im Modell zu verbessern und um damit die Trainingszeiten zu reduzieren.
Welche Techniken wurden verwendet, um ALBERT schlanker und schneller zu machen, ohne die Leistung einzuschränken?
ALBERT beinhaltet zwei Techniken zur Parameterreduktion, die die größten Hindernisse bei der Skalierung von vortrainierten Modellen beseitigen und die Parametereffizienz verbessern.
Die erste Technik ist eine faktorisierte Einbettungsparametrisierung, die die Größe der versteckten Schichten von der Größe der Vokabulareinbettung trennt.
Die zweite Technik ist die schichtenübergreifende Parameterteilung, die verhindert, dass die Parameter mit der Tiefe des Netzes wachsen
Mit den oben genannten Techniken hat ALBERT gegenüber BERT 18x weniger Parameter und kann damit 1,7 x schneller trainiert werden.