KI Apps

Chinchilla by DeepMind

Website
Screenshot der Startseite von Chinchilla by DeepMind
Zusammenfassung mit KI ⊛

Chinchilla ist eine Familie von Large Language Models, die von dem Forschungsteam bei DeepMind entwickelt wurde und im März 2022 vorgestellt wurde. Der Name "Chinchilla" wurde gewählt, weil es eine Weiterentwicklung der vorherigen Modellfamilie namens Gopher ist. Beide Modellfamilien wurden trainiert, um die Skalierungsgesetze von Large Language Models zu untersuchen.

Architektur

Die Gopher-Familie und die Chinchilla-Familie sind Familien von Transformer-Modellen. Sie sind im Wesentlichen identisch mit GPT-2, aber mit unterschiedlichen Größen und kleinen Modifikationen. Die Gopher-Familie verwendet RMSNorm anstelle von LayerNorm und relative Positionscodierung anstelle von absoluter Positionscodierung. Die Chinchilla-Familie ist identisch mit der Gopher-Familie, aber trainiert mit AdamW anstelle von Adam-Optimizer.

Leistung

Chinchilla hat eine durchschnittliche Genauigkeit von 67,5% auf dem Measuring Massive Multitask Language Understanding (MMLU) Benchmark, was 7% höher ist als die Leistung von Gopher. Chinchilla war noch in der Testphase, als es im Januar 2023 veröffentlicht wurde.

Vorteile

Chinchilla trägt dazu bei, ein effektives Trainingsparadigma für große autoregressive Language Models mit begrenzten Rechenressourcen zu entwickeln. Das Chinchilla-Team empfiehlt, dass die Anzahl der Trainings-Token verdoppelt wird, wenn die Modellgröße verdoppelt wird, was bedeutet, dass die Verwendung größerer, höherwertiger Trainings-Datensätze zu besseren Ergebnissen bei Downstream-Aufgaben führen kann.

Vergleich mit anderen Modellen

Chinchilla hat sich als besser als GPT-3 und Gopher erwiesen. Es erfordert weniger Rechenleistung für Inferenz und Feinabstimmung und vereinfacht die Downstream-Nutzung erheblich. Durch die Verwendung von viermal so viel Daten wie Gopher und 70 Milliarden Parametern hat Chinchilla eine bessere Leistung als Gopher.

Fazit

Chinchilla ist ein wichtiger Schritt bei der Entwicklung von Large Language Models, die effizient und leistungsfähig sind. Durch die Verwendung von AdamW und der Modifikation von SentencePiece hat Chinchilla eine bessere Leistung als Gopher und GPT-3. Es ist ein wichtiger Beitrag zur Entwicklung von effektiven Trainingsparadigmen für große autoregressive Language Models mit begrenzten Rechenressourcen.

Ähnliche KI-Apps

* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.