Eintrag vom 11.06.2026
Angebotsnr. 120440
Stellenbeschreibung
Die semantische 4D-Belegungsvorhersage (Semantic 4D Occupancy Forecasting) ist von entscheidender Bedeutung für sicheres autonomes Fahren, da sie es Fahrzeugen ermöglicht, zukünftige Szenendynamiken und -geometrien zu antizipieren. Das Training moderner State-of-the-Art-Modelle stützt sich jedoch stark auf vollständig überwachte Methoden (fully supervised methods), die massive und extrem teure, dichte 3D-Voxel-Annotationen erfordern.
Um diesen Datenengpass zu überwinden, verlagert sich die Spitzenforschung zunehmend hin zu selbstüberwachten (self-supervised) und schwach überwachten (weakly-supervised) Paradigmen, die vortrainierte 2D-Foundation-Modelle (z. B. DINOv2, CLIP oder SAM) nutzen. Durch die Ausrichtung (Alignment) dieser reichhaltigen Open-Vocabulary 2D-Semantikmerkmale an räumlichen 3D-/4D-Repräsentationen mithilfe fortschrittlicher Transformer-Architekturen ist es möglich, ein robustes räumlich-zeitliches Verständnis ohne dichte 3D-Ground-Truth-Daten zu erreichen.
Aufbauend auf diesen Durchbrüchen konzentriert sich diese Masterarbeit auf die Entwicklung eines Foundation-Model-basierten Frameworks für die visionsbasierte 4D-Belegungsvorhersage. Deine Aufgabe wird es sein, eine Architektur zu entwerfen, die reichhaltige Multi-View-Semantiken in eine 4D-Vorhersage-Pipeline destilliert und so die Lücke zwischen skalierbaren, rein kamerabasierten Eingaben und hochpräzisen (high-fidelity) Umgebungsvorhersagen schließt.
Aufgaben:Entwicklung eines Transformer-basierten Netzwerks zur Vorhersage der zukünftigen semantischen 4D-Belegung aus sequenziellen Multi-View-Kameradaten mittels schwacher oder Selbstüberwachung.
Aufbau und Training der PyTorch-Pipeline sowie Entwurf von Alignment-Mechanismen, um semantische Merkmale aus 2D-Foundation-Modellen in die räumlich-zeitliche 4D-Repräsentation zu destillieren.
Benchmarking gegen vollständig überwachte Baselines auf großen Datensätzen (z. B. nuScenes, OpenOccupancy) mit besonderem Fokus auf Vorhersagegenauigkeit (IoU), semantischer Präzision und Label-Effizienz.
Anforderungen:- Masterstudent*in der Informatik, Künstlichen Intelligenz, Robotik o.ä.
- Sehr gute Programmierkenntnisse in Python, fundierte Erfahrung mit Deep-Learning-Frameworks (insb. PyTorch)
- Starkes Hintergrundwissen im Bereich 3D Computer Vision
- Kenntnisse zu Vision Transformers (ViT), Foundation Models (DINO, CLIP), Paradigmen des selbst- bzw. schwach überwachten Lernens
- Sehr gute Englisch- und Deutschkenntnisse (C1-Level)
Das solltest du mitbringen
- Gewünschtes Studium
-
- Ingenieurwissenschaften
Informatik
Mechatronik & Informationstechnik
Computer Science
Mechatronics and Information Technology
- Gesuchter Karrierestatus
-
- Deutschsprachniveau
-
GER B2
So sieht der Arbeitsplatz aus
- Unternehmensbereich
-
- Arbeitszeitmodell
-
Vollzeit
- Homeoffice
-
Teilweise Home Office
- Sprache am Arbeitsplatz
-
Deutsch und Englisch
Unternehmensinformationen
- Art des Unternehmens
-
KMU
- Unternehmensbranche
-
So bewirbst du dich
- Bewerbungsprozess
-
https://xitaso.com/karriere/bewerbungsprozess/