DE-102024210573-A1 - Vorrichtung, Datenstruktur und computerimplementiertes Verfahren zum Bestimmen einer Größe zur Bewertung einer Güte eines generativen insbesondere multi-modalen Grundmodells beispielsweise für optische Inspektion, für Identifikation von Geräuschen oder technischen Teilen, für Verarbeitung natürlicher Sprache, für Programmerzeugung, oder für Kennzeichnung von Daten

DE102024210573A1DE 102024210573 A1DE102024210573 A1DE 102024210573A1DE-102024210573-A1

Abstract

Vorrichtung, Datenstruktur und computerimplementiertes Verfahren zum Bestimmen einer Größe zur Bewertung einer Güte eines generativen insbesondere multi-modalen Grundmodells beispielsweise für optische Inspektion, für Identifikation von Geräuschen oder technischen Teilen, für Verarbeitung natürlicher Sprache, für Programmerzeugung, oder für Kennzeichnung von Daten, wobei mit dem generativen Grundmodell eine erste Antwort auf eine erste Frage bestimmt wird (202), wobei mit dem generativen Grundmodell eine zweite Antwort auf eine zweite Frage bestimmt wird (204), wobei eine Relation zwischen der ersten Antwort und der zweiten Antwort vorgegeben wird (208), wobei die Größe abhängig von den Antworten und der Relation bestimmt wird (210).

Inventors

Maximilian Schlund
Jochen Quante
Matthias Woehrle
Jesko Hecking-Harbusch
Sebastian Ernesto Sierra Loaiza

Assignees

Robert Bosch Gesellschaft mit beschränkter Haftung

Dates

Publication Date: 20260507
Application Date: 20241104

Claims (15)

Computerimplementiertes Verfahren zum Bestimmen einer Größe zur Bewertung einer Güte eines generativen insbesondere multi-modalen Grundmodells beispielsweise für optische Inspektion, für Identifikation von Geräuschen oder technischen Teilen, für Verarbeitung natürlicher Sprache, für Programmerzeugung, oder für Kennzeichnung von Daten, dadurch gekennzeichnet , dass mit dem generativen Grundmodell eine erste Antwort auf eine erste Frage bestimmt wird (202), wobei mit dem generativen Grundmodell eine zweite Antwort auf eine zweite Frage bestimmt wird (204), wobei eine Relation zwischen der ersten Antwort und der zweiten Antwort vorgegeben wird (208), wobei die Größe abhängig von den Antworten und der Relation bestimmt wird (210).
Verfahren nach Anspruch 1 , dadurch gekennzeichnet , dass als Größe eine Konfidenz dafür bestimmt wird (210), dass die erste Antwort und die zweite Antwort die Relation erfüllen.
Verfahren nach Anspruch 2 , dadurch gekennzeichnet , dass die Konfidenz an einen Nutzer des Grundmodells ausgegeben wird (212).
Verfahren nach Anspruch 2 oder 3 , dadurch gekennzeichnet , dass die Nutzung des Grundmodells für einen Anwendungsbereich, der die erste Frage und/oder die zweite Frage umfasst, gesperrt wird (212), wenn festgestellt wird, dass die Konfidenz einen Schwellwert unterschreitet.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet , dass als Größe eine Belohnung bestimmt wird (210), wenn die erste Antwort und die zweite Antwort die Relation erfüllen, und das Grundmodell abhängig von der Belohnung trainiert wird (212).
Verfahren nach Anspruch 5 , dadurch gekennzeichnet , dass das Grundmodell ein künstliches neuronales Netz mit Gewichten umfasst, wobei die Gewichte abhängig von der Belohnung bestimmt werden (212).
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet , dass die erste Antwort eine Menge von Einzelantworten auf die erste Frage umfasst, wobei die zweite Antwort eine Menge von Einzelantworten auf die zweite Frage umfasst, wobei die Relation vorgegeben wird (208), dass die erste Antwort und die zweite Antwort disjunkte Mengen von Einzelantworten sind, oder dass die erste Antwort eine Teilmenge der zweiten Antwort ist.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet , dass als erste Frage nach einem ersten Programm zur Erledigung einer Aufgabe auf einer ersten Domäne gefragt wird (202), wobei als zweite Frage nach einem zweiten Programm zur Erledigung der Aufgabe auf einer zweiten Domäne gefragt wird (204), wobei die erste Domäne die zweite Domäne umfasst, wobei die Relation vorgegeben wird (208), dass das erste Programm und das zweite Programm die Aufgabe auf der zweiten Domäne mit demselben Ergebnis lösen.
Verfahren nach einem der Ansprüche 1 bis 7 , dadurch gekennzeichnet , dass ein erstes digitales Bild, das ein Objekt darstellt, bereitgestellt wird, das erste digitale Bild durch eine Transformation in ein zweites digitales Bildes transformiert wird, das das Objekt darstellt, als erste Frage nach einer Position des Objekts im ersten digitalen Bild gefragt wird (202), als zweite Frage nach einer Position des Objekts im zweiten digitalen Bild gefragt wird (204), wobei die Relation vorgegeben wird (208), wie das erste digitale Bild zum zweiten digitalen Bild transformiert wird.
Verfahren nach einem der Ansprüche 1 bis 7 , dadurch gekennzeichnet , dass eine erste Audiosequenz mit einem Geräusch bereitgestellt wird, eine zweite Audiosequenz mit dem Geräusch bereitgestellt wird, als erste Frage nach einem Zeitpunkt, zu dem das Geräusch in der ersten Audiosequenz auftritt gefragt wird (202), wobei als zweite Frage nach einem Zeitpunkt zu dem das Geräusch in der zweiten Audiosequenz auftritt gefragt wird (204), wobei die Relation der Zeitpunkte vorgegeben wird (208).
Verfahren nach einem der Ansprüche 1 bis 7 , dadurch gekennzeichnet , dass als erste Frage nach einem Ergebnis einer Verkettung eines ersten Programms mit einem zweiten Programm zur Erledigung einer Aufgabe auf einer Eingabe gefragt wird (202), wobei als zweite Frage nach einem Ergebnis eines dritten Programms zur Erledigung der Aufgabe auf der Eingabe gefragt wird (204), wobei die Relation vorgegeben wird (208), dass das dritte Programm die Aufgabe mit demselben Ergebnis wie die Verkettung des ersten Programms mit dem zweiten Programm löst.
Verfahren nach einem der Ansprüche 1 bis 7 , dadurch gekennzeichnet , dass eine dritte Antwort auf eine dritte Frage bestimmt wird (206), für welche die Relation erwartet wird (208), dass die dritte Antwort die erste Antwort und die zweite Antwort umfasst, oder dass die dritte Antwort identisch zur Vereinigungsmenge aus erster Antwort und zweiter Antwort ist.
Vorrichtung (100) zum Bestimmen einer Größe zur Bewertung einer Güte eines generativen insbesondere multi-modalen Grundmodells beispielsweise für optische Inspektion, für Identifikation von Geräuschen oder technischen Teilen, für Verarbeitung natürlicher Sprache, für Programmerzeugung, oder für Kennzeichnung von Daten, dadurch gekennzeichnet , dass die Vorrichtung wenigstens einen Prozessor (102) und wenigstens einen Speicher (104) umfasst, wobei der wenigstens eine Speicher (104) Instruktionen umfasst, bei deren Ausführung durch den wenigstens einen Prozessor (102) auf der Vorrichtung (100) das Verfahren nach einem der Ansprüche 1 bis 12 abläuft.
Computerprogramm, dadurch gekennzeichnet , dass das Computerprogramm von einem Computer ausführbare Instruktionen umfasst, bei deren Ausführung durch den Computer auf dem Computer das Verfahren nach einem der Ansprüche 1 bis 12 abläuft.
Datenstruktur (300) zum Bestimmen einer Größe zur Bewertung einer Güte eines generativen insbesondere multi-modalen Grundmodells beispielsweise für optische Inspektion, für Identifikation von Geräuschen oder technischen Teilen, für Verarbeitung natürlicher Sprache, für Programmerzeugung, oder für Kennzeichnung von Daten, dadurch gekennzeichnet , dass die Datenstruktur (300) wenigstens ein Datenfeld (302) für ein generatives Grundmodell, wenigstens ein Datenfeld (302) für eine erste Antwort auf eine erste Frage, die mit dem generativen Grundmodell bestimmt wird, wenigstens ein Datenfeld (302) für eine zweite Antwort auf eine zweite Frage, die mit dem generativen Grundmodell bestimmt wird, wenigstens ein Datenfeld (302) für eine Relation zwischen der ersten Antwort und der zweiten Antwort, und wenigstens ein Datenfeld (302) für die Größe, die abhängig von den Antworten und der Relation bestimmt wird, aufweist.

Description

Stand der Technik Die Erfindung betrifft eine Vorrichtung, eine Datenstruktur und ein computerimplementiertes Verfahren zum Bestimmen einer Größe zur Bewertung einer Güte eines generativen insbesondere multi-modalen Grundmodells, beispielsweise für optische Inspektion, für Identifikation von Geräuschen oder technischen Teilen, für Verarbeitung natürlicher Sprache, für Programmerzeugung, oder für Kennzeichnung von Daten beispielsweise für optische Inspektion, für Identifikation von Geräuschen oder technischen Teilen, für Verarbeitung natürlicher Sprache, für Programmerzeugung, oder für Kennzeichnung von Daten. Generative Grundmodelle wie beispielweise generative große insbesondere multi-modale Sprachmodelle, d.h. large language models (LLMs), sind in der Lage, Fragen zu unterschiedlichen Themen, das bedeutet, auf unterschiedlichen Domänen, zu beantworten. Beispiele für die Domänen sind optische Inspektion, Identifikation von Geräuschen oder technischen Teilen, Verarbeitung natürlicher Sprache, Programmerzeugung, oder Kennzeichnung von Daten. Offenbarung der Erfindung Ein computerimplementiertes Verfahren zum Bestimmen einer Größe zur Bewertung einer Güte eines generativen insbesondere multi-modalen Grundmodells beispielsweise für optische Inspektion, für Identifikation von Geräuschen oder technischen Teilen, für Verarbeitung natürlicher Sprache, für Programmerzeugung, oder für Kennzeichnung von Daten, sieht vor, dass mit dem generativen Grundmodell eine erste Antwort auf eine erste Frage bestimmt wird, wobei mit dem generativen Grundmodell eine zweite Antwort auf eine zweite Frage bestimmt wird, wobei eine Relation zwischen der ersten Antwort und der zweiten Antwort vorgegeben wird, wobei die Größe abhängig von den Antworten und der Relation bestimmt wird. Das Verfahren stellt eine Größe bereit, mit der das Grundmodell automatisiert trainierbar oder prüfbar ist. Als Größe wird z.B. eine Konfidenz dafür bestimmt, dass die erste Antwort und die zweite Antwort die Relation erfüllen. Die Konfidenz wird z.B. über die Erfüllung verschiedener einzelner Relationen je Relation bestimmt. Die Konfidenz wird beispielsweise an einen Nutzer des Grundmodells ausgeben. Dadurch wird der Nutzer über die Güte des Grundmodells hinsichtlich der Relation informiert. Die Nutzung des Grundmodells wird beispielsweise für einen Anwendungsbereich, der die erste Frage und/oder die zweite Frage umfasst, gesperrt, wenn festgestellt wird, dass die Konfidenz einen Schwellwert unterschreitet. Dadurch wird die Verwendung des Grundmodells in Bereichen, in denen das Grundmodell unzuverlässig ist, vermieden. Beispielsweise wird als Größe eine Belohnung bestimmt, wenn die erste Antwort und die zweite Antwort die Relation erfüllen, wobei das Grundmodell abhängig von der Belohnung trainiert wird. Die Belohnung ermöglicht ein Training, abhängig von der Belohnung. Das Grundmodell umfasst beispielsweise ein künstliches neuronales Netz mit Gewichten, wobei die Gewichte abhängig von der Belohnung bestimmt werden. Die Relation kann unterschiedlich vorzugsweise als metamorphe Relation definiert sein. Die erste Antwort umfasst beispielsweise eine Menge von Einzelantworten auf die erste Frage, wobei die zweite Antwort eine Menge von Einzelantworten auf die zweite Frage umfasst, wobei die Relation vorgegeben wird, dass die erste Antwort und die zweite Antwort disjunkte Mengen von Einzelantworten sind, oder dass die erste Antwort eine Teilmenge der zweiten Antwort ist. Als erste Frage wird beispielsweise nach einem ersten Programm zur Erledigung einer Aufgabe auf einer ersten Domäne gefragt, wobei als zweite Frage nach einem zweiten Programm zur Erledigung der Aufgabe auf einer zweiten Domäne gefragt wird, wobei die erste Domäne die zweite Domäne umfasst, wobei die Relation vorgegeben wird, dass das erste Programm und das zweite Programm die Aufgabe auf der zweiten Domäne mit demselben Ergebnis lösen. Insbesondere zur optischen Inspektion wird ein erstes digitales Bild, das ein Objekt darstellt, bereitgestellt, das erste digitale Bild durch eine Transformation in ein zweites digitales Bildes transformiert, das das Objekt darstellt, als erste Frage nach einer Position des Objekts im ersten digitalen Bild gefragt, als zweite Frage nach einer Position des Objekts im zweiten digitalen Bild gefragt, wobei die Relation vorgegeben wird, wie das erste digitale Bild zum zweiten digitalen Bild transformiert wird. Insbesondere bei einem Geräusch wird eine erste Audiosequenz mit dem Geräusch bereitgestellt, eine zweite Audiosequenz mit dem Geräusch bereitgestellt, als erste Frage nach einem Zeitpunkt zu dem das Geräusch in der ersten Audiosequenz auftritt gefragt, als zweite Frage nach einem Zeitpunkt das Geräusch in der zweiten Audiosequenz auftritt gefragt wird, wobei die Relation der Zeitpunkte vorgegeben wird. Insbesondere zur Prüfung von automatisch mit dem Grundmodell erzeugten Programmen für einen Computer wird beispielsweise als erste Frage nach einem Ergebnis e