DE-102012014022-B4 - Verfahren und Einrichtung zur objekt- und szenenbezogenen Speicherung von Bild-, Sensor- und/oder Tonsequenzen

DE102012014022B4DE 102012014022 B4DE102012014022 B4DE 102012014022B4DE-102012014022-B4

Abstract

Verfahren zur objekt- und szenenbezogenen Speicherung von Bild-, Sensor-und/oder Tonsequenzen, wobei in den Bild-, Sensor- und/oder Tonsequenzen Objekte gefunden und Informationen über die Objekte erzeugt werden, wobei eine Szene aus diesen Objekten gebildet wird, die Informationen über die räumlichen Beziehungen der Objekte und/oder der aufnehmenden Sensoren zueinander enthält, wobei eine Speicherung von Bild-, Sensor- und/oder Tondaten derart durchgeführt wird, dass die Bild-, Sensor- und/oder Tondaten auf eine ganz- oder teilweise mögliche Zuordnung zu den gefundenen Objekten überprüft werden, wobei bei einer möglichen Zuordnung neben dieser Entsprechung nur die geänderten Informationen gespeichert werden, wobei abschließend die gefundenen Objekte nicht immer wieder als Ganzes gespeichert werden, sondern nach der ersten Speicherung als Referenzobjekte nur der Verweis auf das gefundene Objekt zusammen mit den Abweichungen des gefundenen Objektes von dem Referenzobjektübertragen oder gespeichert wird, wobei ein räumliches Modell der Objekte aufgebaut wird, und wobei 3-dimensionale Polygonnetze oder Splines zur Modellierung der Oberflächen eingesetzt werden.

Inventors

Thomas, Dr. Waschulzik

Assignees

Thomas Waschulzik

Dates

Publication Date: 20260507
Application Date: 20120714

Claims (15)

Verfahren zur objekt- und szenenbezogenen Speicherung von Bild-, Sensor-und/oder Tonsequenzen, wobei in den Bild-, Sensor- und/oder Tonsequenzen Objekte gefunden und Informationen über die Objekte erzeugt werden, wobei eine Szene aus diesen Objekten gebildet wird, die Informationen über die räumlichen Beziehungen der Objekte und/oder der aufnehmenden Sensoren zueinander enthält, wobei eine Speicherung von Bild-, Sensor- und/oder Tondaten derart durchgeführt wird, dass die Bild-, Sensor- und/oder Tondaten auf eine ganz- oder teilweise mögliche Zuordnung zu den gefundenen Objekten überprüft werden, wobei bei einer möglichen Zuordnung neben dieser Entsprechung nur die geänderten Informationen gespeichert werden, wobei abschließend die gefundenen Objekte nicht immer wieder als Ganzes gespeichert werden, sondern nach der ersten Speicherung als Referenzobjekte nur der Verweis auf das gefundene Objekt zusammen mit den Abweichungen des gefundenen Objektes von dem Referenzobjektübertragen oder gespeichert wird, wobei ein räumliches Modell der Objekte aufgebaut wird, und wobei 3-dimensionale Polygonnetze oder Splines zur Modellierung der Oberflächen eingesetzt werden.
Verfahren nach Anspruch 1 , wobei aufgrund der gespeicherten Datenmenge und den aus dem Datenstrom erzeugten Objekten und/oder Szenen von Objekten die Bildqualität durch Eliminieren des Rauschens einzelner Kamerabilder so verbessert wird, dass die Details, die auf Grund der Auflösungsbegrenzung eines Sensors oder des Blickwinkels einer Kamera in einer bestimmten Kameraeinstellung nicht mehr zu erkennen sind, aus anderen Aufnahmen in das generierte Bild eingeblendet werden, und diese Detailinformationen in dem Referenzobjekt gesammelt und abgespeichert werden, um zur weiteren Verarbeitung anschließend zur Verfügung zu stehen.
Verfahren nach einem der Ansprüche 1 und 2 , wobei die Details, die aufgrund der beschränkten Intensitätsauflösung des Kamerasensors bei der aktuellen Bildeinstellung und Beleuchtung nicht mehr zu detektieren sind, aus dem Referenzobjekt eingeblendet werden.
Verfahren nach einem der Ansprüche 1 bis 3 , wobei zur Reduzierung des Speicherplatzbedarfes die in verschiedenen Bild-, Sensor-, und/oder Tondaten enthaltenen redundanten Informationen bedarfsweise nur einmal in dem Referenzobjekt und/oder in einer Szene des Objektes abgespeichert werden, die anderen Daten aus dem Wissen über die Objekte und Szenen der Objekte, der Beleuchtung, dem Hintergrund, der Orientierung der Objekte und dergleichen Daten rekonstruiert werden, so dass nur die Abweichungen, die nicht mit dem Modell in Einklang stehen, zusätzlich zu dem Modell zu speichern sind.
Verfahren nach einem der Ansprüche 1 bis 4 , wobei die mit umfangreichen Informationen angereicherten Objekte und/oder Szenen von Objekten direkt für Interaktionen nutzbar sind, so dass ein Betrachter in einer Szene Objekte drehen und von anderen Perspektiven, in anderen Auflösungen oder in anderen spektralen Bereichen betrachten kann, oder diese Informationen sind zu einer externen Verwendung zu exportieren.
Verfahren nach einem der Ansprüche 1 bis 5 , wobei ein Betrachter von Objekten und/oder Szenen von Objekten diese aus einem Blickwinkel betrachten kann, der bei der Originalfassung nicht aufgenommen wurde, und dass die Lagebeziehungen der Objekte zueinander und die errechneten Bilddaten für diesen neuen Blickwinkel, die aus dem ursprünglichen Blickwinkel der Aufnahme nicht zu erkennen waren, auf Grund des Modellwissens und den in den Referenzobjekten gesammelten Informationen bestimmt werden.
Verfahren nach einem der Ansprüche 1 bis 6 , wobei eine automatische Annotation von Objekten und/oder Szenen von Objekten durchgeführt wird, die sowohl zur Verbesserung der Suchfunktionalität innerhalb der Bild- und/oder Tondaten verwendet wird, als auch die Speicherung von Objekten, Szenen oder Tönen in unterschiedlicher verlustbehafteter Komprimierung je nach Art und Bedeutung des Objektes oder der Szene erlaubt.
Verfahren nach einem der Ansprüche 1 bis 7 , wobei die Aufteilung eines Sensorbildes in Segmente mit unterschiedlicher Relevanz oder mit unterschiedlichem semantischen Zusammenhang erfolgt, so dass je nach Relevanz eine andere Komprimierungsstufe beim Einsatz verlustbehafteter Komprimierungsverfahren verwendet wird, und dass die Aufteilung eines Sensorbildes mittels einer Bewegungsanalyse oder einer Online-Objekterkennung in einen statischen Hintergrund und einen dynamischen Anteil bewegter Objekte erfolgt, so dass eine Komprimierung der objektbezogenen Information auch von dem Objekt oder Objekttyp abhängig ist.
Verfahren nach einem der Ansprüche 1 bis 8 , wobei zur Erhöhung des Durchsatzes oder einer einfachen Separation verschiedener Objektklassen, Szenenbestandteile oder semantische Zusammenhänge eine Speicherung der unterschiedlichen Komprimierungsstufen oder semantischen Zusammenhänge auf unterschiedlichen Speichermedien erfolgt, so dass Objekte, Szenenbestandteile oder semantische Zusammenhänge einfach geändert, ersetzt oder gelöscht werden können, ohne die anderen Objekte zu beeinflussen oder durch deren Datenvolumen beeinflusst zu werden.
Verfahren nach einem der Ansprüche 1 bis 9 , wobei zur gezielten Ausnutzung der für die Aufnahmen vorhandenen Speichermedien eine dynamische Steuerung des Kompressionsfaktors - für die 'unterschiedlichen Objekt- und oder Szenenkategorien erfolgt, so dass Filter und Filterparameter von erkannten Objekten, von Lagebeziehungen von Objekten in einer Szene, von der Lagebeziehung des Blickwinkels in Relation zu einer geplanten virtuellen Kameratrajektorie, von der Größe der räumlichen Details, von der Frequenz der Bildinformation, von der Frequenz der Toninformation oder von der aktuellen Beleuchtungssituation abhängig sind.
Verfahren nach einem der Ansprüche 1 bis 10 , wobei eine Bibliothek an häufig vorkommenden Objekten zur Verbesserung der Erkennung und Segmentierung von Objekten eingerichtet wird und dass die Objektbibliothek Modelle und/oder spezielle, Algorithmen zur Identifikation der Bibliotheksobjekte enthält.
Verfahren nach einem der Ansprüche 1 bis 11 , wobei die Toninformation, die von einem Objekt ausgeht, bei diesem Objekt gespeichert wird und dass die Toninformation beim Rendering einer Szene auch entsprechend dem Blickwinkel synthetisiert wird, so dass die räumliche Zuordnung der Toninformation bei der Wiedergabe aus anderen Blickwinkeln entsprechend den tatsächlichen räumlichen Verhältnissen bei den Aufnahmen entsprechen kann.
Verfahren nach einem der Ansprüche 1 bis 12 , wobei die Akquisition der Sensorinformation von der Qualität der bisherigen Digitalisierung oder von den erkannten Objekten oder den semantischen Zusammenhängen in einer Szene gesteuert wird, um insbesondere für die Applikation relevante Details oder Aspekte gezielt zu gewinnen.
Einrichtung zur Durchführung des Verfahrens nach Anspruch 1 bis 13 , wobei die Einrichtung eine oder mehrere Kameras parallel oder sequentiell zur Aufnahme aufweist, wobei die Daten mehrerer Sensoren in ein Szenenmodel integrierbar sind, wobei die Kameras zur automatischen Erfassung der Datenmengen eine große Bandbreite von Blickwinkeln, Schärfeebenen, Auflösungsstufen oder eine große spektrale Bandbreite aufweisen und wobei die Kameras so zueinander angeordnet sind, dass die Aufnahme von Objekten, die in einen überwachten Bereich eintreten, zunächst mit einem hohen Detaillierungsgrad vorgesehen ist.
Einrichtung zur Durchführung des Verfahrens nach Anspruch 14 , wobei mehrere informationsverarbeitende Einheiten parallel den Datenstrom von einer oder mehrerer Kameras analysieren, wobei deren Ergebnisse zur Objekterkennung zwischen den informationsverarbeitenden Einheiten austauschbar sind und wobei die Information über die Ausrichtung der Kameras im Raum dazu genutzt wird, dass vor der Objekterkennung eine Datenverdichtung oder Vorverarbeitung vorgesehen ist, um die Informationen, die von einem Objekt ausgehen, einander zuzuordnen.

Description

Die Erfindung betrifft ein Verfahren und eine Einrichtung zur objekt- und szenenbezogenen Speicherung von Bild-, Sensor- und/oder Tonsequenzen, insbesondere in der Mikroskopie, der optischen Qualitätssicherung, in der Überwachungs- und Sicherheitstechnik und in dergleichen Bereichen, in denen eine Speicherung von Bild-, Sensor- und/oder Tonsequenzen zur späteren Bearbeitung, Analyse und/oder Visualisierung sowie Wiedergabe durchgeführt wird. Aus dem Stand der Technik ist bekannt, dass Bild- und/oder Tondaten in den Applikationen, wie Mikroskopie, optische Qualitätssicherung, Überwachungs- und Sicherheitstechnik sowie der Filmindustrie zur Bearbeitung gespeichert werden. Im MPEG-4 Standard werden Bildsequenzen abgespeichert und die Speicherung wird dadurch optimiert, dass nur einzelne Bilder und die Unterschiede zu den Folgebildern gespeichert werden. Durch die fortscheitende Verbesserung der Bildanalysealgorithmen und preiswerteren Möglichkeiten der parallelen Verarbeitung von Daten, z. B. durch Multicore-CPUs, ergeben sich immer bessere Möglichkeiten, die in den Videoinformationen enthaltenen Objekte zu erkennen und aus den Videodaten die 2,5D- bzw. 3D-Form und Texturinformation der Objekte zu bestimmen. Damit wird es möglich, die Bildinformationen direkt den aufgenommen realen Objekten zuzuordnen und das Szenenrendering für die Wiedergabe auf der Basis der bei den Objekten und Szenen gespeicherten Information durchzuführen. Nachteilig ist, dass in vielen Applikationen durch die zunehmende Anzahl der Sensoren die Datenströme wachsen und die Kosten für die Übertragung und Speicherung der Daten erheblich zunehmen. Durch die Verbesserung der Objekterkennung und die Verfügbarkeit der immer günstiger werdenden Parallelverarbeitung entstehen neue Verhältnisse bei denen es attraktiver wird, die Sensorinformationen weiter vorzuverarbeiten und zu verdichten, auch um die Verwendbarkeit der Sensorinformationen zu verbessern. Eine frühe Segmentierung und Erkennung der in dem Datenstrom enthaltenen Objekte führt zu einer früheren Veredelung der Daten, da auswertende Programme auf der viel höheren Abstraktionsebene der Objekte auf den Datenstrom zugreifen können. Aus den Objekten, die in den Sensordaten erkannt werden, können dann Szenen zusammengesetzt werden, welche die gefundenen Objekte, ihre räumlichen Relationen, die Beleuchtung, die Sensorpositionen und die zeitlichen Veränderungen enthalten. Bei Bedarf können aus den Objekten auch die Rohdaten rekonstruiert werden, aus denen dann eine Erkennung anderer Objekte vorgenommen werden kann, ohne dass ein schädigender Informationsverlust bei dem ersten Objekterkennungs- und Komprimierungsschritt auftritt. Durch die Vielzahl der verfügbaren Rechnerkerne können z. B. auch Rechnerkerne für die Erkennung einer Untermenge der insgesamt zu erkennenden Objekte ausgewählt werden. Der Datenstrom wird parallel allen oder mehreren Rechnerkernen zur Verfügung gestellt und die auf den Rechnerkernen ablaufenden Algorithmen suchen dann in diesem Datenstrom die Objekte, für deren Erkennung die Algorithmen entwickelt worden sind oder für deren Erkennung ihre Parameter geeignet sind. Es gibt ein Protokoll für die Kommunikation der auf den informationsverarbeitenden Einheiten ablaufenden Prozesse, über das die erkannten Objekte zusammen mit der Positionsinformation und den damit erklärten Bildinformationen an die anderen informationsverarbeitenden Einheiten zurückgemeldet werden. Auf Grund dieser Information können die anderen Suchprozesse ihre Suchbereiche in den Sensordaten anpassen. Dabei können sowohl Suchbereiche ausgelassen werden, in denen die Sensordaten bereits ausreichend erklärt worden sind, da dort keine weiteren Objekte mehr zu finden sind, als auch Suchbereiche intensiver bearbeitet werden, da in der Nähe von bestimmten Objekten andere Objekte mit erhöhter Wahrscheinlichkeit auftreten können. Durch diesen Ansatz können sehr einfach Bibliotheken für die Erkennung von unterschiedlichen Objekten miteinander kombiniert werden, welche große Mengen an Objekten erkennen, da nur das Protokoll der Kommunikation zwischen den Rechnerkernen standardisiert werden muss und die Algorithmen, die für die Erkennung einer Untermenge von Objekten zuständig sind, weitgehend unabhängig voneinander implementiert werden können. WO 97/13372 A2 offenbart Videokodierungs- und -dekodierungsprozesse die eine Komprimierung und Dekomprimierung von digitalisierten Videosignalen ermöglichen, die die Anzeigebewegung in Videosequenzen mehrerer Bildrahmen darstellen. Der Encoder-Prozess verwendet eine objekt- oder merkmalsbasierte Videokomprimierung, um die Genauigkeit und Vielseitigkeit der Codierung von Interframe-Bewegungen und Interframe-Bildmerkmalen zu verbessern. Videoinformationen werden relativ zu Objekten oder Merkmalen beliebiger Konfigurationen komprimiert, anstatt wie bei herkömmlichen Videokomprimierungsverfahren feste, regelmäßige Pixelanordnungen. Dies reduziert die Fehlerkomponenten und verbe