GloVe ist ein unüberwachtes Lernalgorithmus für die Erzeugung von Vektorrepräsentationen für Wörter. Durch die Auswertung von globalen Wort-Wort-Ko-Okurrenz-Statistiken aus einem Korpus können interessante lineare Substrukturen des Wortvektor-Raums erzeugt werden.
Um mit GloVe anzufangen, können Sie den neuesten Code herunterladen und entpacken. Danach können Sie den Quellcode kompilieren und das Demo-Skript ausführen. Weitere Informationen zur Verwendung finden Sie im enthaltenen README.
Es stehen bereits vorgefertigte Wortvektoren für verschiedene Korpora zur Verfügung, darunter Wikipedia 2014 + Gigaword 5, Common Crawl und Twitter. Diese Daten sind unter der Public Domain Dedication and License v1.0 veröffentlicht.
Wenn Sie GloVe in Ihrer Arbeit verwenden, bitte zitieren Sie die Originalarbeit von Jeffrey Pennington, Richard Socher und Christopher D. Manning.
GloVe bietet einige interessante Eigenschaften, wie z.B. die Möglichkeit, die nächstgelegenen Nachbarn eines Wortes zu finden, oder die Erkennung linearer Substrukturen im Wortvektor-Raum.
Die euklidische Distanz oder die Kosinus-Ähnlichkeit zwischen zwei Wortvektoren kann verwendet werden, um die linguistische oder semantische Ähnlichkeit der entsprechenden Wörter zu messen.
GloVe ermöglicht es, mehr als eine Zahl zu assoziieren, um die Beziehung zwischen zwei Worten zu beschreiben. Dies kann verwendet werden, um feine Unterschiede zwischen Worten zu erfassen.
GloVe kann verwendet werden, um Beziehungen zwischen Worten wie Synonyme, Unternehmen-Produkt-Beziehungen, PLZ- und Stadtbeziehungen zu finden. Es wird auch von der SpaCy-Bibliothek verwendet, um semantische Wort-Einbettungs-Features zu erstellen.
GloVe ist nicht effektiv bei der Erkennung von Homographen, d.h. Wörtern mit derselben Schreibweise und unterschiedlichen Bedeutungen. Dies liegt daran, dass das unüberwachte Lernalgorithmus eine einzige Menge von Vektoren für Wörter mit derselben morphologischen Struktur berechnet.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.