Die Forscher von DeepMind haben kürzlich einen neuen Dialogagenten namens Sparrow vorgestellt, der darauf ausgelegt ist, sicherer und hilfreicher zu sein als bisherige Modelle. Sparrow ist ein Forschungsmodell und Proof of Concept, das darauf abzielt, die Sicherheit und Nützlichkeit von künstlicher Intelligenz (KI) zu verbessern.
Große Sprachmodelle (LLMs) haben in den letzten Jahren große Erfolge bei Aufgaben wie Fragebeantwortung, Zusammenfassung und Dialog erzielt. Allerdings können diese Modelle auch ungenaue oder erfundene Informationen liefern, diskriminierende Sprache verwenden oder unsicheres Verhalten fördern. Um sicherere Dialogagenten zu entwickeln, müssen wir in der Lage sein, aus menschlichem Feedback zu lernen.
Sparrow ist ein Dialogagent, der darauf trainiert wurde, hilfreiche und korrekte Antworten zu geben, während er das Risiko unsicherer und inappropriater Antworten minimiert. Der Agent kann mit einem Benutzer sprechen, Fragen beantworten und bei Bedarf im Internet recherchieren, um seine Antworten zu untermauern.
Um Sparrow zu trainieren, haben die Forscher menschliches Feedback verwendet, indem sie Studienteilnehmern multiple Antworten auf die gleiche Frage präsentiert haben und gefragt haben, welche Antwort sie am meisten bevorzugen. Dieses Feedback wird verwendet, um ein Modell zu trainieren, das die Nützlichkeit einer Antwort bewertet.
Um sicherzustellen, dass Sparrow sicher ist, haben die Forscher eine Reihe von Regeln definiert, die das Verhalten des Modells einschränken. Dazu gehören Regeln wie "keine bedrohlichen Aussagen" und "keine hassenden oder beleidigenden Kommentare". Die Forscher haben auch Regeln für möglicherweise schädliche Ratschläge und die Vermeidung von Falschdarstellungen als Person definiert.
Sparrow hat noch einige Einschränkungen. Zum Beispiel ist das Trainingsdatenkorpus hauptsächlich in Englisch, was bedeutet, dass das Modell in anderen Sprachen schlechter performt. Außerdem bricht Sparrow die Regeln in 8% der Fälle, wenn es von Studienteilnehmern adversarial getestet wird.
DeepMind plant, Sparrow in Zukunft für eine private Beta-Testphase freizugeben. Dies könnte einen wichtigen Schritt auf dem Weg zu sichereren und nützlicheren KI-Systemen darstellen.
* KI-Zusammenfassungen können Fehler enthalten. Alle Angaben ohne Gewähr.