Entry from the 11.06.2026
Position number 120440
Description
Die semantische 4D-Belegungsvorhersage (Semantic 4D Occupancy Forecasting) ist von entscheidender Bedeutung für sicheres autonomes Fahren, da sie es Fahrzeugen ermöglicht, zukünftige Szenendynamiken und -geometrien zu antizipieren. Das Training moderner State-of-the-Art-Modelle stützt sich jedoch stark auf vollständig überwachte Methoden (fully supervised methods), die massive und extrem teure, dichte 3D-Voxel-Annotationen erfordern.
Um diesen Datenengpass zu überwinden, verlagert sich die Spitzenforschung zunehmend hin zu selbstüberwachten (self-supervised) und schwach überwachten (weakly-supervised) Paradigmen, die vortrainierte 2D-Foundation-Modelle (z. B. DINOv2, CLIP oder SAM) nutzen. Durch die Ausrichtung (Alignment) dieser reichhaltigen Open-Vocabulary 2D-Semantikmerkmale an räumlichen 3D-/4D-Repräsentationen mithilfe fortschrittlicher Transformer-Architekturen ist es möglich, ein robustes räumlich-zeitliches Verständnis ohne dichte 3D-Ground-Truth-Daten zu erreichen.
Aufbauend auf diesen Durchbrüchen konzentriert sich diese Masterarbeit auf die Entwicklung eines Foundation-Model-basierten Frameworks für die visionsbasierte 4D-Belegungsvorhersage. Deine Aufgabe wird es sein, eine Architektur zu entwerfen, die reichhaltige Multi-View-Semantiken in eine 4D-Vorhersage-Pipeline destilliert und so die Lücke zwischen skalierbaren, rein kamerabasierten Eingaben und hochpräzisen (high-fidelity) Umgebungsvorhersagen schließt.
Aufgaben:Entwicklung eines Transformer-basierten Netzwerks zur Vorhersage der zukünftigen semantischen 4D-Belegung aus sequenziellen Multi-View-Kameradaten mittels schwacher oder Selbstüberwachung.
Aufbau und Training der PyTorch-Pipeline sowie Entwurf von Alignment-Mechanismen, um semantische Merkmale aus 2D-Foundation-Modellen in die räumlich-zeitliche 4D-Repräsentation zu destillieren.
Benchmarking gegen vollständig überwachte Baselines auf großen Datensätzen (z. B. nuScenes, OpenOccupancy) mit besonderem Fokus auf Vorhersagegenauigkeit (IoU), semantischer Präzision und Label-Effizienz.
Anforderungen:- Masterstudent*in der Informatik, Künstlichen Intelligenz, Robotik o.ä.
- Sehr gute Programmierkenntnisse in Python, fundierte Erfahrung mit Deep-Learning-Frameworks (insb. PyTorch)
- Starkes Hintergrundwissen im Bereich 3D Computer Vision
- Kenntnisse zu Vision Transformers (ViT), Foundation Models (DINO, CLIP), Paradigmen des selbst- bzw. schwach überwachten Lernens
- Sehr gute Englisch- und Deutschkenntnisse (C1-Level)
Your skills
- Field of study preferred
-
- Engineering sciences
Informatics
Mechatronics & information technologies
Computer Science
Mechatronics and Information Technology
- Favored career stage
-
- German language level
-
GER B2
This is what the workplace looks like.
- Sector
-
- Working time model
-
Full-time
- Home office
-
Partial Home Office
- Language at workplace
-
German and english
Company information
- Type of company
-
SME
- Industry branch
-
How to apply
- Application process
-
https://xitaso.com/karriere/bewerbungsprozess/