Vorhersage von Videoinhalten

VideoPredict

Vorhersage von Videoinhalten

Motivation

Mit der Bekanntmachung zur „Förderung von deutsch französischen Projekten zum Thema Künstliche Intelligenz“ vom 1. Oktober 2020 wird ein vertiefter Wissenstransfer aus der Wissenschaft in die Wirtschaft sowie eine verbesserte Entwicklung innovativer Technologien in Deutschland und Europa, von der insbesondere KMU profitieren, gefördert. Die Förderbekanntmachung ist eingebettet in die nationale Strategie für Künstliche Intelligenz (KI). Mit der Umsetzung der Bekanntmachung wird insbesondere das Handlungsfeld „Forschung in Deutschland und Europa stärken, um Innovationstreiber zu sein“ der KI-Strategie adressiert. Die Vorhersage zukünftiger Videoinhalte ist ein anspruchsvolles Problem für die Anwendung der Künstlichen Intelligenz (KI). Sie ist enorm wichtig für eine Reihe von KI-basierten Anwendungen, wie zum Beispiel selbstfahrende Autos oder Roboter. Dabei verwenden die meisten aktuellen Ansätze sogenannte Faltungsmerkmale von vorherigen Szenen zur Vorhersage. Das heißt, es findet eine Beschreibung über eine gewichtete Bewertung der Merkmale der vorherigen Momente statt. Dieses Verfahren ist allerdings sehr intransparent.

Ziele und Vorgehen

Ziel des Vorhabens „VideoPredict“ ist es, die Kausalität der Geschehnisse zu modellieren, die aufeinander folgende Szenen bedingen. Dabei lernt das Modell grundlegende Ursachen für Ereignisse und kann dann die Folgen vorhersagen. Dafür wird ein neuronales Netzwerk konstruiert, das visuelle Eindrücke in einzelne Komponenten aufteilt. Genauso wie es im menschlichen Gehirn passiert. Bei der Informationsverarbeitung im Gehirn wird das „Wo“ und das „Was“ eines Objekts getrennt in zwei parallelen verarbeitet. Das heißt die räumliche Wahrnehmung und die Erkennung des Objekts werden aufgeteilt. Das zu entwickelnde Modell operiert nach dem gleichen Prinzip. Die Erkennung eines Objektes wird von der Verarbeitung seiner Bewegung getrennt und erst später wieder zusammengeführt, um die Szene zu rekonstruieren. Die Vorhersage der Objektbewegungen gelingt dann, indem die Bewegung nicht in ihrer Gesamtheit von Start- zu Endpunkt berechnet wird, sondern in Teilschritte zerlegt wird. Ein Modell kann diese Zwischenpunkte in einer langen Bewegung viel leichter lernen, weil die Unsicherheit darüber, was als Nächstes passiert, nicht so groß ist.

Innovationen und Perspektiven

Dieser Ansatz führt einerseits zu einer besseren Vorhersage und erlaubt andererseits auch ein strukturiertes Verständnis der Videoinhalte. Die Vorhersagen werden erklärbarer und somit das Lernsystem insgesamt vertrauenswürdiger. Am Projekt arbeiten Wissenschaftler aus Tübingen und Paris in einer deutsch-französischen Kollaboration. Die Partner sind jeweils Experten für Maschinelles Lernen und Computer Vision, mit den Forschungsschwerpunkten Kausalität auf der einen Seite, und Videoverstehen und Handlungserkennung auf der anderen Seite. Somit ist dieses Projekt ein idealer Beitrag zu einer verstärkten Zusammenarbeit zwischen Forschungseinrichtungen beider Länder. Über die akademische Kollaboration hinaus, wird das Modell in der letzten Phase des Projekts in Zusammenarbeit mit den Industriepartnern und Robotik-Teams in der Anwendung erprobt.

Projektinformation

Projektleitung

Max-Planck-Institut für Intelligente Systeme
Max-Planck-Ring 4
72076 Tübingen

Volumen

199.991,00 €

Laufzeit

10/2021 – 09/2025

Projektpartnerinnen und -partner

Max-Planck-Institut für Intelligente Systeme
Institut national de recherche en informatique et en automatique, Paris