DE-102024132022-A1 - Mikroskopiesystem und computerimplementierte Verfahren zum Erzeugen von Bildverarbeitungsmodellen

DE102024132022A1DE 102024132022 A1DE102024132022 A1DE 102024132022A1DE-102024132022-A1

Abstract

Zum Erzeugen eines Bildverarbeitungsmodells wird zunächst ein generatives Modell (Gen) mit unannotierten Trainingsmikroskopbildern (10) trainiert. Im Merkmalsraum (30) des generativen Modells (Gen) werden Cluster (C1-C4) definiert. Mikroskopbildern (41-44), welche vom generativen Modell (Gen) aus Merkmalsvektoren (21-24) aus verschiedenen Clustern (C1-C4) erzeugt sein können, werden Clusteridentifizierungen (ID1-ID4) gemäß der Zugehörigkeit ihrer Merkmalsvektoren (21-24) zu den Clustern (C1-C4) zugeordnet. Mikroskopbilder werden zusammen mit Clusteridentifizierungen (ID1-ID4) als annotierte Trainingsdaten (AT) in einem selbstüberwachten Training eines Basismodells (BM) verwendet, womit das Basismodell (BM) lernt, Clusteridentifizierungen (ID) zu berechnen. Durch ein anschließendes Fine-Tuning mittels annotierter Mikroskopbilddaten (T) wird das Basismodell (BM) zu einem Bildverarbeitungsmodell (M) gestaltet, welches aus einem Eingabebild (40B) ein Bildverarbeitungsergebnis (50) berechnet, das in seiner Art Annotationen (A) der im Fine-Tuning (P7) verwendeten Daten entspricht.

Inventors

Manuel Amthor
Daniel Haase

Assignees

CARL ZEISS MICROSCOPY GMBH

Dates

Publication Date: 20260507
Application Date: 20241104

Claims (20)

Ein computerimplementiertes Verfahren zum Erzeugen eines Bildverarbeitungsmodells, umfassend: Trainieren (P1) eines generativen Modells (Gen) mit unannotierten Trainingsmikroskopbildern (10), so dass das generative Modell (Gen) nach dem Trainieren (P1) dazu gestaltet ist, aus einem Merkmalsvektor (20), der einem Merkmalsraum (30) entstammt, ein generiertes Mikroskopbild (40) zu erzeugen (P2), welches den unannotierten Trainingsmikroskopbildern (10) entspricht; Erzeugen von annotierten Trainingsdaten (AT) für ein selbstüberwachtes Training eines Basismodells (BM), umfassend: Bereitstellen mehrerer Trainingsmikroskopbilder (51-54); Definieren (P3) von Clustern (C1-C4) im Merkmalsraum (30); Zuordnen von Clusteridentifizierungen (ID1-ID4) zu den mehreren Trainingsmikroskopbildern (51-54) gemäß einer Zugehörigkeit von Merkmalsraumdarstellungen (31-34) der mehreren Trainingsmikroskopbilder (51-54) zu den Clustern (C1-C4); Verwenden der mehreren Trainingsmikroskopbilder (51-54) zusammen mit den Clusteridentifizierungen (ID1-ID4) als annotierte Trainingsdaten (AT); selbstüberwachtes Trainieren (P5) des Basismodells (BM) mit den annotierten Trainingsdaten (AT), so dass das Basismodell (BM) nach dem selbstüberwachten Trainieren (P5) dazu eingerichtet ist, zu einem Eingabebild (40A) eine zugehörige Clusteridentifizierung (ID) zu berechnen; und Fine-Tuning (P7) des Basismodells (BM) mittels annotierter Mikroskopbilddaten (T) zum Erzeugen eines Bildverarbeitungsmodells (M), welches aus einem Eingabebild (40B) ein Bildverarbeitungsergebnis (50) berechnet, das in seiner Art Annotationen (A) der im Fine-Tuning (P7) verwendeten annotierten Mikroskopbilddaten (T) entspricht.
Das Verfahren nach dem unmittelbar vorstehenden Anspruch, wobei das Bereitstellen mehrerer Trainingsmikroskopbilder (51-54) umfasst: Wählen von Merkmalsvektoren (21-24) aus verschiedenen Clustern (C1-C4) und Erzeugen (P4) von generierten Mikroskopbildern (41-44) aus den Merkmalsvektoren (21-24) mittels des generativen Modells (Gen), wobei die mehreren Trainingsmikroskopbilder (51-54) die generierten Mikroskopbilder (41-44) umfassen und die zugehörigen Merkmalsraumdarstellungen (31-34) die gewählten Merkmalsvektoren (21-24) sind.
Das Verfahren nach einem der vorstehenden Ansprüche, wobei zumindest einige der mehreren Trainingsmikroskopbilder (51-54) entweder Teil der unannotierten Trainingsmikroskopbilder (10) sind, mit denen das generative Modell (Gen) trainiert wurde, oder zusammen mit den unannotierten Trainingsmikroskopbildern (10) derselben Datensammlung entstammen.
Ein computerimplementiertes Verfahren zum Erzeugen eines Bildverarbeitungsmodells, umfassend: Nutzen eines Encoders (Enc), um aus unannotierten Trainingsmikroskopbildern (10) Merkmalsraumdarstellungen (31-34) in einem semantischen Merkmalsraum (30) zu berechnen (P1'); Erzeugen von annotierten Trainingsdaten (AT) für ein selbstüberwachtes Training eines Basismodells (BM), umfassend: Bereitstellen mehrerer Trainingsmikroskopbilder (51-54); Definieren (P3) von Clustern (C1-C4) im Merkmalsraum (30); Zuordnen von Clusteridentifizierungen (ID1-ID4) zu den mehreren Trainingsmikroskopbildern (51-54) gemäß einer Zugehörigkeit von Merkmalsraumdarstellungen (31-34) der mehreren Trainingsmikroskopbilder (51-54) zu den Clustern (C1-C4); Verwenden der mehreren Trainingsmikroskopbilder (51-54) zusammen mit den Clusteridentifizierungen (ID1-ID4) als annotierte Trainingsdaten (AT); selbstüberwachtes Trainieren (P5) des Basismodells (BM) mit den annotierten Trainingsdaten (AT), so dass das Basismodell (BM) nach dem selbstüberwachten Trainieren (P5) dazu eingerichtet ist, zu einem Eingabebild (40A) eine zugehörige Clusteridentifizierung (ID1-ID4) zu berechnen; und Fine-Tuning (P7) des Basismodells (BM) mittels annotierter Mikroskopbilddaten (T) zum Erzeugen eines Bildverarbeitungsmodells (M), welches aus einem Eingabebild (40B) ein Bildverarbeitungsergebnis (50) berechnet, das in seiner Art Annotationen (A) der im Fine-Tuning (P7) verwendeten annotierten Mikroskopbilddaten (T) entspricht.
Das Verfahren nach dem unmittelbar vorstehenden Anspruch, wobei zumindest einige der mehreren Trainingsmikroskopbilder (51-54) Teil der unannotierten Trainingsmikroskopbilder (10) sind.
Das Verfahren nach einem der beiden unmittelbar vorstehenden Ansprüche, wobei das Bereitstellen mehrerer Trainingsmikroskopbilder (51-54) umfasst: Wählen von Merkmalsvektoren (21-24) aus verschiedenen Clustern (C1-C4) und Erzeugen (P4) von generierten Mikroskopbildern (41-44) aus den Merkmalsvektoren (21-24) mittels eines generativen Modells (Gen), wobei die mehreren Trainingsmikroskopbilder (51-54) die generierten Mikroskopbilder (41-44) umfassen und die zugehörigen Merkmalsraumdarstellungen (31-34) die gewählten Merkmalsvektoren (21-24) sind.
Das Verfahren nach dem unmittelbar vorstehenden Anspruch, weiterhin umfassend: Bilden des generativen Modells (Gen) durch Training (P9) mit den unannotierten Trainingsmikroskopbildern (10), so dass das generative Modell (Gen) nach dem Training (P9) dazu gestaltet ist, aus einem zufälligen Merkmalsvektor (21-24), der einem Merkmalsraum (30) entstammt, ein generiertes Mikroskopbild (41-44) zu erzeugen, welches einer Verteilung der unannotierten Trainingsmikroskopbilder (10) zu entstammen scheint.
Das Verfahren nach einem der beiden unmittelbar vorstehenden Ansprüche, weiterhin umfassend: Gemeinsames Trainieren des Encoders (Enc) und des generativen Modells (Gen) anhand der unannotierten Trainingsmikroskopbilder (10).
Das Verfahren nach einem der vorstehenden Ansprüche, wobei das Definieren von Clustern (C1-C4) im Merkmalsraum (30) durch ein zufälliges Festlegen von Bereichen im Merkmalsraum (30) erfolgt.
Das Verfahren nach einem der Ansprüche 1 - 8 , weiterhin umfassend: Festlegen einer Lage der Cluster (C1-C4) im Merkmalsraum (30) einerseits basierend auf einer Lage der Merkmalsraumdarstellungen (31-34) der unannotierten Trainingsmikroskopbilder (10) und andererseits auch basierend auf einer Zufallskomponente.
Das Verfahren nach einem der vorstehenden Ansprüche, wobei eine Anzahl der Cluster (C1-C4) abhängig von einer Bilderanzahl der unannotierten Trainingsmikroskopbilder (10) festgelegt wird; wobei die Anzahl der Cluster (C1-C4) umso größer gewählt wird, je größer eine Streuung der Merkmalsraumdarstellungen (31-34) der unannotierten Trainingsmikroskopbilder (10) ist.
Das Verfahren nach einem der vorstehenden Ansprüche, wobei das Basismodell (BM) als Klassifikationsmodell mit einem Modellrumpf (M1) und mindestens einer Klassifikationsschicht (CL1-CLN) gestaltet ist; wobei durch das selbstüberwachte Trainieren (P5) die Klassifikationsschicht (CL1-CLN) lernt, aus einem Verarbeitungsergebnis, das vom Modellrumpf (M1) zu einem Eingabebild (40A) berechnet wird, eine Zuordnung zu den Clustern (C1-C4) zu schätzen; wobei für das Fine-Tuning (P7) der Modellrumpf (M1) des Basismodells (BM), gefolgt von einem Weiterverarbeitungsnetz (M2), aber ohne die Klassifikationsschicht (CL1-CLN) des Basismodells (BM), verwendet wird, um das Bildverarbeitungsmodell (M) zu erzeugen.
Das Verfahren nach einem der vorstehenden Ansprüche, wobei das Definieren von Clustern (C1-C4) in mehreren Clustering-Durchgängen (I1-IN) mit jeweils verschiedener Clusterbildung erfolgt, so dass zumindest manche Merkmalsvektoren (21, 22), die einmal innerhalb desselben Clusters (C1) liegen, in einer anderen Clusterbildung zu verschiedenen Clustern (C5, C6) gehören, wobei im selbstüberwachten Training (P5) des Basismodells (BM) für jeden Clustering-Durchgang (I1-IN) eine eigene Klassifikationsschicht (CL1-CLN) verwendet wird, aber für alle Clustering-Durchgänge (I1-IN) derselbe Modellrumpf (M1).
Ein computerimplementiertes Verfahren zum Erzeugen eines Bildverarbeitungsmodells, umfassend: Trainieren (P1) eines generativen Modells (Gen) mit unannotierten Trainingsmikroskopbildern (10), so dass das generative Modell (Gen) nach dem Training dazu gestaltet ist, aus einem Merkmalsvektor (20), der einem Merkmalsraum (30) entstammt, ein generiertes Mikroskopbild (40) zu erzeugen, welches einer Verteilung der unannotierten Trainingsmikroskopbilder (10) zu entstammen scheint; automatisches Erzeugen von annotierten Trainingsdaten (AT) für ein selbstüberwachtes Training eines Basismodells (BM), umfassend: A) Wählen (P3') beieinander liegender Punkte (25-28) im Merkmalsraum (30); B) Erzeugen (P4) einer Gruppe (49) an generierten Mikroskopbildern (45-48) aus den Punkten (25-28) mittels des generativen Modells (Gen); C) Ermitteln (P10) einer pixelweisen Varianz (Var) zwischen den generierten Mikroskopbildern (45-48) der Gruppe (49); D) Erzeugen (P11) einer Segmentierungsmaske (S) zu den generierten Mikroskopbildern (45-48) der Gruppe (49) durch Vergleichen der pixelweisen Varianz (Var) mit einem vorgegebenen Schwellwert; E) Mehrmaliges Wiederholen der Prozesse A) bis D), um mehrere Gruppen (49) an generierten Mikroskopbildern mit zugehörigen Segmentierungsmasken (S) zu erzeugen; F) Verwenden von zumindest einem der generierten Mikroskopbilder (47) jeder Gruppe (49) und der jeweils zugehörigen Segmentierungsmaske (S) als annotierte Trainingsdaten (AT) für das selbstüberwachte Training des Basismodells (BM); selbstüberwachtes Trainieren (P5) des Basismodells (BM) mit den annotierten Trainingsdaten (AT), so dass das Basismodell (BM) nach dem Training dazu eingerichtet ist, zu einem Eingabebild (40A) eine zugehörige Segmentierungsmaske (S_out) zu berechnen; und Fine-Tuning (P7) des Basismodells (BM) mittels annotierter Mikroskopbilddaten (T) zum Erzeugen eines Bildverarbeitungsmodells (M), welches aus einem Eingabebild (40B) ein Bildverarbeitungsergebnis (50) berechnet, das in seiner Art Annotationen (A) der im Fine-Tuning (P7) verwendeten annotierten Mikroskopbilddaten (T) entspricht.
Ein computerimplementiertes Verfahren zum Erzeugen eines Bildverarbeitungsmodells, umfassend: Trainieren eines generativen Modells (Gen) mit unannotierten Trainingsmikroskopbildern (10), so dass das generative Modell (Gen) nach dem Training dazu gestaltet ist, aus einem Merkmalsvektor, der einem Merkmalsraum (30) entstammt, ein generiertes Mikroskopbild (40) zu erzeugen, welches einer Verteilung der Trainingsmikroskopbilder (10) zu entstammen scheint; automatisches Erzeugen von annotierten Trainingsdaten (AT) für ein selbstüberwachtes Training eines Basismodells (BM), umfassend: A) Wählen (P12) mehrerer Merkmalsvektorpaare (35; 36) im Merkmalsraum (30), wobei sich zwei Merkmalsvektoren (35A-35B; 36A-36B) von jedem der Merkmalsvektorpaare (35; 36) in einer Richtung des Merkmalsraums (30) unterscheiden; B) Erzeugen (P4') von Mikroskopbildpaaren (55; 56) zu den Merkmalsvektorpaaren (35; 36) unter Nutzung des generativen Modells (Gen); und C) Verwenden der Mikroskopbildpaare (55; 56) als annotierte Trainingsdaten (AT) für das selbstüberwachte Training des Basismodells (BM); selbstüberwachtes Trainieren (P5) des Basismodells (BM) mit den annotierten Trainingsdaten (AT); und Fine-Tuning (P7) des Basismodells (BM) mittels annotierter Mikroskopbilddaten (T) zum Erzeugen eines Bildverarbeitungsmodells (M), welches aus einem Eingabebild (40B) ein Bildverarbeitungsergebnis (50) berechnet, das in seiner Art Annotationen (A) der im Fine-Tuning (P7) verwendeten annotierten Mikroskopbilddaten (T) entspricht.
Das Verfahren nach dem unmittelbar vorstehenden Anspruch, wobei zu jedem Mikroskopbildpaar (55; 56) als Angabe die Richtung erfasst wird, in welcher sich dessen zwei Merkmalsvektoren (35A-35B; 36A-36B) unterscheiden, und wobei diese Angabe als zusätzliche Eingabedaten in die annotierten Trainingsdaten (AT) aufgenommen wird.
Das Verfahren nach Anspruch 15 oder 16 , weiterhin umfassend: zufälliges Festlegen der Richtung, um welche sich die zwei Merkmalsvektoren (35A-35B; 36A-36B) von jedem der Merkmalsvektorpaare (35; 36) unterscheiden.
Das Verfahren nach einem der vorstehenden Ansprüche, wobei das Basismodell (BM) für das selbstüberwachte Trainieren (P5) einen Modellrumpf (M1) gefolgt von einem Modellschlussteil (CL) umfasst; wobei nach Abschluss des selbstüberwachten Trainierens (P5) der Modellschlussteil (CL) durch ein Weiterverarbeitungsnetz (M2) ersetzt wird (P6); und wobei im Fine-Tuning (P7) der Modellrumpf (M1) des Basismodells (BM) gefolgt von dem Weiterverarbeitungsnetz (M2) verwendet wird, um das Bildverarbeitungsmodell (M) zu erzeugen.
Das Verfahren nach dem unmittelbar vorstehenden Anspruch, wobei im Fine-Tuning (P7) anhand der annotierten Mikroskopbilddaten (T) Modellparameterwerte des Weiterverarbeitungsnetzes (M2) festgelegt werden, wobei Modellparameterwerte des Modellrumpfes (M1) im Fine-Tuning (P7) entweder konstant gehalten werden oder mit einer Lernrate verändert werden, die kleiner ist als eine Lernrate für das vorausgegangene selbstüberwachte Trainieren (P5) oder für ein Anpassen der Modellparameterwerte des Weiterverarbeitungsnetzes (M2).
Das Verfahren nach einem der vorstehenden Ansprüche, wobei das Basismodell (BM) durch das Fine-Tuning (P7) dazu angepasst wird, eines oder mehreres aus Folgendem zu einem Eingabebild (40B) zu berechnen: • ein Ergebnisbild, in welchem dargestellte Objekte deutlicher sichtbar oder in höherer Bildqualität dargestellt sind, oder eine Darstellung von Artefakten oder bestimmter Strukturen unterdrückt wird; • eine Auflösungssteigerung, ein Entrauschen, eine Entfaltung oder eine virtuelle Einfärbung des Eingabebildes (40B); • ein Ergebnisbild, in welchem Bildinhalte zu Probenbereichen, die im Eingabebild (40B) nicht enthalten sind, ergänzt werden; • ein Bestimmen abgebildeter Objekttypen, eine Segmentierung bestimmter Objekttypen, eine Konfluenz, eine Anzahl oder Eigenschaften dargestellter Objekte, Angaben über eine lokale Defokussierung oder Verschmutzung; eine Verzerrung oder perspektivische Darstellung; einen Weißabgleich ein De-Vignetting, eine Bildqualität, Bildeigenschaften, eine Probenqualität oder einen Probenzustand.

Description

TECHNISCHES GEBIET Die vorliegende Offenbarung bezieht sich auf ein Mikroskopiesystem und computerimplementierte Verfahren zum Erzeugen von Bildverarbeitungsmodellen. Insbesondere kann ein Foundation Model erzeugt und anschließend für spezielle Bildverarbeitungsaufgaben angepasst werden. Die Erfindung betrifft zudem die Thematik, wie ein hochwertiges Bildverarbeitungsmodell auch dann gelernt werden kann, wenn nur ein geringer Umfang spezieller Trainingsdaten für die gewünschte Anwendung vorliegt. HINTERGRUND Maschinell gelernten Bildverarbeitungsmodellen kommt in der Mikroskopie eine stark wachsende Bedeutung zu. Beispielsweise werden Bildverarbeitungsmodelle zur Automatisierung folgender Anwendungen verwendet: Erkennung interessierender Probenbereiche; Zählen von Objekten; Konfluenzbestimmung; Entfernen von Bildartefakten oder störenden Strukturen aus aufgenommenen Bildern; virtuelles Einfärben bzw. Wechsel einer Kontrastart oder Bewertung einer Qualität der Probe oder der Bildaufnahme. Das Training eines Bildverarbeitungsmodells erfolgt typischerweise durch überwachtes Lernen mit Hilfe von annotierten Bilddaten. Eine Annotation stellt ein Ziel bzw. eine „ground truth“-Angabe dar. Das Bildverarbeitungsmodell soll aus eingegebenen Bilddaten ein Ergebnis berechnen, welches möglichst mit den vorgegebenen Annotationen übereinstimmt. Die Annotationen sind je nach Anwendung gewählt und geben für ein zugehöriges Mikroskopbild ein der Anwendung entsprechend gewünschtes Bildverarbeitungsergebnis an, z.B. Bildkoordinaten eines interessierenden Probenbereichs; eine Anzahl an Objekten eines bestimmten Typs oder eine Konfluenz (Angabe einer durch bestimmte Zellen bedeckten Fläche). Mikroskopbilddaten an sich können zwar in verhältnismäßig einfacher Weise in großer Menge aufgenommen werden. Auch bestehen umfangreiche Datenbanken an Mikroskopbilddaten. Diese Mikroskopbilddaten sind aber in der Regel nicht annotiert bzw. es ist meist keine für die geforderte Anwendung relevante Annotation vorhanden. Typischerweise werden manuell oder halbautomatisiert Annotationen erstellt, damit anschließend ein Training des Bildverarbeitungsmodells möglich ist. Der Annotationsaufwand übersteigt oftmals erheblich den Aufwand zum Aufnehmen der Mikroskopbilder. Der problematische Annotationsaufwand wird dadurch weiter verschärft, dass für qualitativ hochwertige Bildverarbeitungsmodelle der Umfang an Trainingsdaten möglichst groß sein sollte. Daher besteht das Bedürfnis, ohne große Mengen annotierter Mikroskopbilddaten ein Bildverarbeitungsmodell zu trainieren. Im Bereich von Sprachmodellen wurden über die letzten Jahre große Fortschritte erzielt, wobei nicht annotierte Trainingsdaten für ein selbstüberwachtes Training benutzt werden. Anschließend kann das Modell in einem Fine-Tuning mit annotierten Trainingsdaten an eine bestimmte Anwendung angepasst werden. Sprachmodelle nutzen typischerweise eine Transformer-Struktur, wie bezüglich Transformer-Encoder beschrieben in:Devlin, J., Chang, M. W., Lee, K., Toutanova, K.: „Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding“. arXiv:1810.04805v2 [cs.CL] 24 May 2019. Transformer-Decoder für Sprachmodelle sind unter anderem durch die als GPT bekannten Netze populär geworden, wie z.B. beschrieben in:Radford, A., et al., (2018) „Improving Language Understanding by Generative Pre-training“,https://web.archive.org/web/20200609115647/https://cdn.openai.com/research -covers/language-unsupervised/language_understanding_paper.pdfOpenAI (2023), „GPT-4 Technical Report“,https://web.archive.org/web/20230314180351/https://cdn.openai.com/papers/g pt-4.pdf Ein Training oder Pre-Training erfolgt zunächst an Textsammlungen, indem z.B. per Masking ein Wort bzw. Token der Trainingsdaten ausgeblendet wird und vom Modell vorhergesagt werden soll. In dieser Weise können Trainingstexte ohne (manuell ergänzte) Annotationen für das Training verwendet werden. Die Eingabesequenz für Transformer-basierte Netze muss nicht oder nicht ausschließlich Text beinhalten, sondern kann auch Bilddaten umfassen, wie beschrieben für das als Vision Transformer bekannte Netz in:Dosovitskiy, A., et al.: „An image is worth 16x16 words: Transformers for image recognition at scale“, arXiv:2010.11929v2 [cs.CV] 3 Jun 2021; Wu, H., et al., „CvT: Introducing Convolutions to Vision Transformers“, arXiv:2103.15808v1 [cs.CV] 29 Mar 2021. Das für Textdaten typische Masking zum selbstüberwachten Lernen kann dabei für Bilddaten genutzt werden. Ein Teil der Bilddaten wird ausgeblendet und das Modell soll den ausgeblendeten Bildanteil vorhersagen. Ein solches Vorgehen wird näher beschrieben in:He, K., et al., „Masked Autoencoders Are Scalable Vision Learners“, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 16000-16009 In dieser Weise können zwar nicht annotierte Bilddaten für ein Training oder Pre-Training genutzt werden. Das Vorgehen ist allerdings auf eine Transformer-Str