DE-102024132018-A1 - System und Verfahren zum Identifizieren von Landmarken in einem Bild

DE102024132018A1DE 102024132018 A1DE102024132018 A1DE 102024132018A1DE-102024132018-A1

Abstract

Die Erfindung betrifft ein System (7a) zum Identifizieren von Landmarken (2) in einem Bild (1), das mehrere Agenten (7) umfasst, wobei jeder Agent (7) ein Funktionsmodul ist, das für die Suche nach einer vordefinierten Haupt-Landmarke (2) und einer Anzahl weiterer Landmarken (2) in einem Landmarken-Bereich (4) um eine Position des Agenten (7) herum ausgelegt ist. wobei jeder Agent (7) ausgelegt ist zum: a) Definieren oder Empfangen seiner Startposition (3), b) Abschätzen einer Haupt-Dislokation (5) seiner Haupt-Landmarke (2), c) Abschätzen von Wahl-Dislokationen (6) weiterer Landmarken (2) im Landmarken-Bereich (4), d) Wählen einer aktualisierten Startposition (3a), die anhand der abgeschätzten Haupt-Dislokation (5) und der von anderen Agenten (7) abgeschätzten Wahl-Dislokationen (6) für dieser Haupt-Landmarke (2) bestimmt wird, e) Wiederholen der Schritte b) bis d) mit der aktualisierten Startposition (3a) als Startposition (3), bis eine Abbruchbedingung erfüllt ist. Weiterhin beschreibt die Erfindung ein Verfahren, eine Steuereinheit und ein medizinisches Bildgebungssystem.

Inventors

Halid Yerebakan
Kritika Iyer
Gerardo Hermosillo Valadez

Assignees

Siemens Healthineers Ag

Dates

Publication Date: 20260507
Application Date: 20241104

Claims (15)

System (7a) zum Identifizieren von Landmarken (2) in einem Bild (1), das mehrere, vorzugsweise parallel arbeitende Agenten (7) umfasst, wobei jeder Agent (7) ein Funktionsmodul ist, das für die Suche nach einer vordefinierten Haupt-Landmarke (2) und einer Anzahl weiterer Landmarken (2) in einem Landmarken-Bereich (4) um eine Position des Agenten (7) herum ausgelegt ist, wobei jeder Agent (7) ausgelegt ist zum: a) Definieren oder Empfangen seiner Startposition (3), b) Abschätzen einer Haupt-Dislokation (5) seiner Haupt-Landmarke (2), c) Abschätzen von Wahl-Dislokationen (6) weiterer Landmarken (2) im Landmarken-Bereich (4), d) Wählen einer aktualisierten Startposition (3a), die anhand der abgeschätzten Haupt-Dislokation (5) und der von anderen Agenten (7) abgeschätzten Wahl-Dislokationen (6) für diese Haupt-Landmarke (2) bestimmt wird, e) Wiederholen der Schritte b) bis d) mit der aktualisierten Startposition (3a) als Startposition (3), bis eine Abbruchbedingung erfüllt ist.
System gemäß Anspruch 1 , wobei jeder Agent (7) ein Maschinenlernfähiges Netzwerk (10) umfasst, das zum Abschätzen der Haupt-Dislokation (5) seiner Haupt-Landmarke (2) und der Wahl-Dislokationen (6) weiterer Landmarken (2) im Landmarken-Bereich (4) trainiert wurde, wobei vorzugsweise das Maschinenlernfähige Netzwerk (10) eine Resnet-Architektur umfasst, wobei vorzugsweise das Maschinenlernfähige Netzwerk (10) trainiert wurde, um relative Dislokationen zu allen Landmarken (2) im Landmarken-Bereich (4) zu berechnen, und/oder mit zufällig abgetasteten Punkten und überwachten Landmarkenpositionen (2) trainiert wurde.
System gemäß einem der vorstehenden Ansprüche, wobei das System (7a) dafür ausgelegt ist, dass jeder Agent (7) die Wahl-Dislokation (6) seiner von anderen Agenten (7) abgeschätzten Haupt-Landmarke (2) empfängt, wobei jeder Agent (7) dafür ausgelegt ist, die aktualisierte Startposition (3a) basierend auf seiner Abschätzung der Haupt-Dislokation (5) und den von anderen Agenten (7) empfangenen Wahl-Dislokationen (6) zu bestimmen, wobei das System (7a) vorzugsweise auch dafür ausgelegt ist, dass jeder Agent (7) die aktuellen Agentenpositionen (3) wenigstens der anderen Agenten (7), die Wahl-Dislokationen (6) bereitstellen, empfängt und jeder Agent (7) dafür ausgelegt ist, die aktualisierte Startposition (3a) basierend auf einer gewichteten Bestimmung zu bestimmen, wobei Wahl-Dislokationen (6) von näher gelegenen Agenten (7) ein größeres Gewicht haben als Wahl-Dislokationen (6) von entfernteren Agenten (7), und/oder wobei vorzugsweise das System (7a), insbesondere jeder Agent (7), auch dafür ausgelegt ist, die aktualisierte Startposition (3a) basierend auf einer gewichteten Bestimmung zu bestimmen, bei der Wahl-Dislokationen (6), die einen Abstand größer als ein vordefinierter Schwellenwert von der aktuellen Startposition (3) oder Haupt-Dislokation (5) haben, ein geringeres Gewicht haben als näher gelegene Wahl-Dislokationen (6).
System gemäß einem der vorstehenden Ansprüche, wobei das System (7a) mehrere unabhängige Recheneinheiten umfasst und wobei verschiedene Agenten (7) mit verschiedenen Recheneinheiten verarbeitet werden, wobei vorzugsweise jeder Agent (7) mit einer eigenen Recheneinheit verarbeitet wird, so dass alle Agenten (7) parallel verarbeitet werden.
System gemäß einem der vorstehenden Ansprüche, wobei das System, insbesondere eine Anzahl der Agenten (7), vorzugsweise jeder Agent (7), mehrere Regressionsköpfe umfasst, die dafür ausgelegt sind, eine aktualisierte Startposition (3a) basierend auf einer Haupt-Dislokation (5) und Wahl-Dislokationen (6) zu bestimmen.
System gemäß einem der vorstehenden Ansprüche, wobei das System (7a), vorzugsweise jeder Agent (7), dafür ausgelegt ist, aktualisierte Startpositionen (3a) anhand einer bestimmten durchschnittlichen Position oder eine mittlere Position anhand einer abgeschätzten Haupt-Dislokation (5) und Wahl-Dislokationen (6), die von anderen Agenten (7) abgeschätzt wurden, auszuwählen, wobei vorzugsweise die aktualisierte Startposition (3a) eines Agenten (7) die bestimmte Durchschnittsposition oder eine Position zwischen der aktuellen Startposition dieses Agenten (7) und der bestimmten Durchschnittsposition ist.
System gemäß einem der vorstehenden Ansprüche, wobei jeder Agent (7) ein Residualnetzwerk (10) umfasst, das dafür ausgelegt ist, einen Eingangsdeskriptor (11) einer aktuellen Startposition (3) eines Agenten (7) im Bild (1) zu empfangen, und wobei das Residualnetzwerk (10) so trainiert ist, dass es Wahl-Dislokationen (6) von Landmarken (2) in einem Weltkoordinatensystem (7a) ausgibt, wobei der Agent (7) vorzugsweise dafür ausgelegt ist, den Eingangsdeskriptor (11) mit einer linearen Projektionsschicht in eine niedrigere Dimension zu projizieren, und wobei der Agent (7) vorzugsweise dafür ausgelegt ist, nach der anfänglichen Projektion mehrere Schichten des Residualnetzwerks (10) mit Residualverbindung anzuwenden.
Verfahren zum Identifizieren von Landmarken (2) in einem Bild (1) mit einem System (7a) gemäß einem der vorstehenden Ansprüche, die Schritte umfassend: - Bereitstellen von Bilddaten (1), - Weiterleiten von Datensätzen der Bilddaten (1) an die Agenten (7), wobei jeder Agent (7) wenigstens seinen Landmarken-Bereich (4) der Bilddaten (1) als Datensatz erhält, - Verarbeiten, vorzugsweise paralleles Verarbeiten, der Datensätze durch die Agenten (7), wobei jeder Agent (7): a) seine Startposition (3) definiert oder erhält, b) eine Haupt-Dislokation (5) seiner Haupt-Landmarke (2) abschätzt, c) Wahl-Dislokationen (6) weiterer Landmarken (2) im Landmarken-Bereich (4) abschätzt, d) eine aktualisierte Startposition (3a) wählt, die anhand der abgeschätzten Haupt-Dislokation (5) und der von anderen Agenten (7) abgeschätzten Wahl-Dislokationen (6) für diese Haupt-Landmarke (2) bestimmt wird, e) die Schritte b) bis d) mit der aktualisierten Startposition (3a) als Startposition (3) wiederholt, bis eine Abbruchbedingung erfüllt ist.
Verfahren gemäß Anspruch 8 , wobei zusätzlich das System (7a), insbesondere jeder Agent (7), auch die aktuellen Agentenpositionen (3) wenigstens der anderen Agenten (7), die Wahl-Dislokationen (6) bereitstellen, bestimmt und jeder Agent (7) die aktualisierte Startposition (3a) basierend auf einer gewichteten Bestimmung bestimmt, wobei Wahl-Dislokationen (6) von näher gelegenen Agenten (7) ein größeres Gewicht haben als Wahl-Dislokationen (6) entfernterer Agenten (7) und/oder Wahl-Dislokationen (6), die auf von der aktuellen Startposition (3) des Agenten (7) entferntere Positionen zeigen, ein geringeres Gewicht haben als Wahl-Dislokationen (6), die auf näher zur aktuellen Startposition (3) des Agenten (7) gelegene Positionen zeigen.
Verfahren gemäß einem der Ansprüche 8 oder 9 , wobei die aktualisierte Startposition (3a) basierend auf einer linearen Regression der abgeschätzten Haupt-Dislokation (5) und den von anderen Agenten (7) abgeschätzten Positionen dieser Haupt-Landmarke (2), insbesondere einer gewichteten linearen Regression bestimmt wird.
Verfahren gemäß einem der Ansprüche 8 bis 10 , wobei die Verwendung von Dislokationsvektoren als gewichteter Durchschnitt der Abstimmungsabschätzung und der Dislokation der zugeordneten Agenten (7) formuliert wird, vorzugsweise basierend auf der Formel: d1 = λ · d1 + (1 - λ)me dian{di}Ni=1, wobei in dieser Gleichung die Dislokationsabschätzung d1 des Agenten (7) durch eine mittlere Abschätzung anderer Agenten (7) unter Verwendung des Skalierungsfaktors λ aktualisiert wird, und wobei λ vorzugsweise während des Prozesses aktualisiert wird, um der eigenen Abschätzung eines Agenten (7) mehr Gewicht zu verleihen, sobald sich dieser Agent (7) seiner zugeordneten Landmarke (2) nähert.
Steuereinheit für ein medizinisches Bildgebungssystem, die ein System (7a) gemäß einem der Ansprüche 1 bis 7 umfasst und/oder dafür ausgelegt ist, ein Verfahren gemäß einem der Ansprüche 8 bis 11 durchzuführen.
Medizinisches Bildgebungssystem, das die Steuereinheit gemäß Anspruch 12 umfasst.
Computerprogrammprodukt, das Anweisungen umfasst, die bei Ausführung des Programms durch einen Computer bewirken, dass der Computer die Schritte des Verfahrens nach einem der Ansprüche 8 bis 11 ausführt.
Computerlesbares Speichermedium, das Anweisungen umfasst, die bei Ausführung durch einen Computer bewirken, dass der Computer die Schritte des Verfahrens nach einem der Ansprüche 8 bis 11 ausführt.

Description

Die Erfindung beschreibt ein System und ein Verfahren zum Identifizieren von Landmarken in einem Bild, eine Steuereinheit für ein medizinisches Bildgebungssystem und ein medizinisches Bildgebungssystem. Die Lokalisierung von Landmarken ist wichtig für die automatische Verarbeitung von Bildern. Es gibt eine Vielzahl von bekannten Landmarken-Identifizierungsprozeduren, die teilweise Automatisierungswerkzeuge für verschiedene Arbeitsschritte bereitstellen. Ein Beispiel für ein Werkzeug, das automatisch Pixel oder Voxel in einem Bild dahingehend klassifiziert, eine bestimmte Landmarke zu enthalten, ist Adaboost. Ein Beispiel für ein Modul, das zum automatischen Auffinden von Landmarken verwendet werden kann, ist „ALPHA Technology and Voting“. Dieser Landmarken-Algorithmus besteht aus mehreren kaskadierten Adaboost-Modellen, die Voxel in einem Bild als eine bestimmte Landmarke enthaltend von grob bis fein klassifizieren. Nach Erkennen mehrerer Landmarken mit Adaboost wird ein Abstimmungsmodell basierend auf der räumlichen Korrelation von Landmarkengruppen verwendet, um Ausreißer zu entfernen und fehlende Landmarken zu interpolieren. Optional können die Adaboost- und Abstimmungsschritte nach der Ausrichtung des Bildes an einem kanonischen Raum wiederholt werden, was die Robustheit und Geschwindigkeit der Landmarken-Erkennung verbessert. Das Trainieren der Adaboost- und Abstimmungsmodelle erfordert wenigstens 50-100 Annotationen pro Landmarke. Sobald der Klassifikator trainiert ist, können Landmarken durch Scannen eines gesamten Bildes gefunden werden, was etwa eine halbe Sekunde pro Landmarke dauert. Ein weiteres Beispiel für einen Algorithmus zum automatischen Auffinden von Landmarken ist „BodyGPS“. Dieser Algorithmus basiert auf einer selbstüberwachten Methodik zum Abschätzen normalisierter Positionen von Landmarken unter Verwendung eines Regressionsnetzwerks. Dieses Verfahren verallgemeinert viele Arten von Landmarken, ohne dass ein explizites überwachtes Training dafür erforderlich ist. Allerdings sind, da keine Überwachung stattfindet, die Abschätzungen nicht präzise und können bei 90 % um 10 mm von der richtigen Position abweichen. Allerdings ist die Laufzeit mit einem einzigen Suchagenten mit etwa 50 ms schnell. Ein weiteres Beispiel für einen Algorithmus zum automatischen Auffinden von Landmarken ist „MedLSAM“. Er basiert auf einem Verfahren, das die Lokalisierung von Organen basierend auf vorgegebenen Vorlagen durchführen könnte. Er verwendet ähnliche Regressionsmethoden, indem er eine Grundwahrheit anhand von relativen Dislokationen in den Bildern erzeugt. Andererseits werden die Beziehungen zwischen den Zielstrukturen nicht berücksichtigt. So profitieren die einzelnen Landmarken nicht von anderen gefundenen Positionen. Noothout et. al. haben in ihrer Arbeit „Deep learning-based regression and classification for automatic landmark localization in medical images“ (IEEE Transactions on Medical Imaging, 39(12), 4011-4022; 2020) gezeigt, dass die jüngste Forschung über mehrere Algorithmen zur Abschätzung der Position von Landmarken berichtet hat, die eine global-lokale Strategie mit faltungsneuronalen Netzwerken verwenden. Das globale Netzwerk schätzt alle Landmarkenpositionen auf einmal mit einer Kombination aus Klassifikator und Regressor ab. Anschließend verfeinert das landmarkenspezifische Modell die vorgeschlagene Position. Sie berichten von schnellen Verarbeitungszeiten bei guter Lokalisierungsgenauigkeit. Es werden jedoch immer noch alle Bereiche des Bildes für die Lokalisierungsabschätzung verwendet, was nicht notwendig ist. Die Verarbeitungszeiten werden in der GPU-Hardware reduziert, was in einer Produktionsumgebung eine Einschränkung ist. Ghesu et. al. zeigen in ihrem Papier „Multi-scale deep reinforcement learning for real-time 3D-landmark detection in CT scans“ (IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(1), 176-189; 2017), dass es überwachte Landmarken-Suchalgorithmen für einzelne Agenten gibt. In ihrer Umgebung aktualisiert der Agent seinen Zustand mit einer begrenzten Anzahl von Aktionen, um die gewünschte Position zu finden. Ein Verstärkungsalgorithmus wird verwendet, um die Strategie des Agenten zu trainieren. Es gibt jedoch immer noch keine Möglichkeit, Landmarken auf robuste und genaue, aber auch schnelle Weise zu identifizieren. Es ist Aufgabe der vorliegenden Erfindung, die bekannten Systeme und Verfahren zu verbessern und ein System und ein Verfahren zum Identifizieren von Landmarken in einem Bild, eine Steuereinheit für ein medizinisches Bildgebungssystem und ein medizinisches Bildgebungssystem bereitzustellen, um die oben beschriebenen Probleme zu überwinden. Insbesondere ist es eine Aufgabe der vorliegenden Erfindung, eine Landmarkensuche mit mehreren Agenten bereitzustellen. Diese Aufgabe wird durch ein System gemäß Anspruch 1, ein Verfahren gemäß Anspruch 8, eine Steuereinheit gemäß Anspruch 12 und ein medizinisches Bildgebungssystem gemäß Anspruch 13 erfü