Deepmind Sparrow AI

Zusammenfassung mit KI ⊛

Die Forscher von DeepMind haben kürzlich einen neuen Dialogagenten namens Sparrow vorgestellt, der darauf ausgelegt ist, sicherer und hilfreicher zu sein als bisherige Modelle. Sparrow ist ein Forschungsmodell und Proof of Concept, das darauf abzielt, die Sicherheit und Nützlichkeit von künstlicher Intelligenz (KI) zu verbessern.

Hintergrund

Große Sprachmodelle (LLMs) haben in den letzten Jahren große Erfolge bei Aufgaben wie Fragebeantwortung, Zusammenfassung und Dialog erzielt. Allerdings können diese Modelle auch ungenaue oder erfundene Informationen liefern, diskriminierende Sprache verwenden oder unsicheres Verhalten fördern. Um sicherere Dialogagenten zu entwickeln, müssen wir in der Lage sein, aus menschlichem Feedback zu lernen.

Funktionsweise

Sparrow ist ein Dialogagent, der darauf trainiert wurde, hilfreiche und korrekte Antworten zu geben, während er das Risiko unsicherer und inappropriater Antworten minimiert. Der Agent kann mit einem Benutzer sprechen, Fragen beantworten und bei Bedarf im Internet recherchieren, um seine Antworten zu untermauern.

Um Sparrow zu trainieren, haben die Forscher menschliches Feedback verwendet, indem sie Studienteilnehmern multiple Antworten auf die gleiche Frage präsentiert haben und gefragt haben, welche Antwort sie am meisten bevorzugen. Dieses Feedback wird verwendet, um ein Modell zu trainieren, das die Nützlichkeit einer Antwort bewertet.

Sicherheitsaspekte

Um sicherzustellen, dass Sparrow sicher ist, haben die Forscher eine Reihe von Regeln definiert, die das Verhalten des Modells einschränken. Dazu gehören Regeln wie "keine bedrohlichen Aussagen" und "keine hassenden oder beleidigenden Kommentare". Die Forscher haben auch Regeln für möglicherweise schädliche Ratschläge und die Vermeidung von Falschdarstellungen als Person definiert.

Einschränkungen

Sparrow hat noch einige Einschränkungen. Zum Beispiel ist das Trainingsdatenkorpus hauptsächlich in Englisch, was bedeutet, dass das Modell in anderen Sprachen schlechter performt. Außerdem bricht Sparrow die Regeln in 8% der Fälle, wenn es von Studienteilnehmern adversarial getestet wird.

Zukunft

DeepMind plant, Sparrow in Zukunft für eine private Beta-Testphase freizugeben. Dies könnte einen wichtigen Schritt auf dem Weg zu sichereren und nützlicheren KI-Systemen darstellen.

Deepmind Sparrow AI

Hintergrund

Funktionsweise

Sicherheitsaspekte

Einschränkungen

Zukunft

Ähnliche KI-Apps

Cogito AI

Responsive AI

Philosopher AI

Deepset