Sonarbildsynthese mit erhöhter Diversität und Realismus durch duale Diffusionsmodelle und GPT-Prompting
Die Sonarbildsynthese ist entscheidend für die Weiterentwicklung von Anwendungen in der Unterwassererkundung, Meeresbiologie und Verteidigung. Herkömmliche Methoden basieren oft auf umfangreichen und kostspieligen Datenerfassungen mit Sonarsensoren, was die Datenqualität und -vielfalt beeinträchtigt. Um diese Einschränkungen zu überwinden, schlägt diese Studie ein neues Framework zur Sonarbildsynthese vor, das Diffusionsmodelle und GPT-Prompting nutzt.
Herausforderungen der Sonarbildanalyse
Die Analyse von Sonaraufnahmen ist komplex und bringt verschiedene Herausforderungen mit sich. Zu den wichtigsten gehören:
- Komplexität der Sonaraufnahmen: Sonaraufnahmen setzen sich aus dem Ziel, dessen Schatten und einem Hintergrund mit Nachhall zusammen.
- Umwelteinflüsse: Turbulenzen, Rauschen und eine geringe Auflösung erschweren die Analyse der Bilder zusätzlich.
- Begrenzte Verfügbarkeit von Daten: Öffentlich zugängliche Datensätze sind oft klein, weisen eine geringe Auflösung auf und repräsentieren nicht die Vielfalt realer Szenarien.
- Manuelle Modellierung: Die Simulation von Sonaraufnahmen ist zeitaufwendig und erfordert den Einsatz verschiedener komplexer Tools.
- Geringe Diversität: Simulierte Daten weisen oft nicht die Diversität realer Sonaraufnahmen auf.
- Semantische Lücke: Die Interpretation von Sonarcharakteristika durch ML-Modelle ist für Domänenexperten oft nicht nachvollziehbar.
Ansätze zur Verbesserung der Sonarbildanalyse
Um die genannten Herausforderungen zu bewältigen, wurden verschiedene Ansätze entwickelt:
Traditionelle ML-Techniken:
- Markov Random Field (MRF) Modelle in Kombination mit Scale Causal Multigrid (SCM) Algorithmen
- Undecimated Discrete Wavelet Transform (UDWT) kombiniert mit Principal Component Analysis (PCA) und k-Means Clustering
Deep Learning (DL) Methoden:
- FS-UTNet: Framework für die Detektion von Unterwasserzielen mit Few-Shot Learning
- RotNet, Denoising Autoencoders und Jigsaw: Lernen von Repräsentationen für die Klassifizierung von Sonaraufnahmen ohne große Datensätze
- EsonarNet: Leichtes Vision-Transformer-Netzwerk für effiziente Segmentierung
- Global Context External-Attention Network (GCEANet): Zero-Shot Klassifizierung
- YOLOv7: Objektdetektion mit hoher Präzision durch Integration von Swin-Transformer und Convolutional Block Attention Module (CBAM)
- EfficientNet: Feature-Extraktion mit dualen Aufmerksamkeitsmechanismen (SE und ECA) und modifiziertem BiFPN für die Fusion von Merkmalen unterschiedlicher Skalierung
- DSA-Net: Objektdetektion mit Dual Spatial Attention Network (DSAM) und Generalized Focal Loss (GFL)
- LIME und SP-LIME: Verbesserung der Interpretierbarkeit von Klassifizierungsmodellen
Generative AI (GenAI) Techniken:
- Diffusion Models
- Generative Adversarial Networks (GANs)
- Variational Autoencoders (VAEs)
Ein neues Framework für die Sonarbildsynthese
Das vorgeschlagene Framework nutzt fortschrittliche GenAI-Techniken, um die Diversität und Realismus von synthetischen Sonaraufnahmen zu verbessern. Das Framework besteht aus drei Phasen:
Phase 1: Erstellung eines umfangreichen Datensatzes
In der ersten Phase wird ein großer und vielfältiger Datensatz von Sonaraufnahmen erstellt. Dieser Datensatz kombiniert öffentlich verfügbare Bilder, Simulationen des S3 Simulators und stilisierte Sonaraufnahmen. Die Bilder werden mit Hilfe von CLIP-basierten Vision-Language Models mit detaillierten Beschreibungen versehen.
Phase 2: Training eines dualen Diffusionsmodells
In der zweiten Phase wird ein Denoising Diffusion Probabilistic Model (DDPM) trainiert, das mit LoRA (Low-Rank Adaptation) feinabgestimmt und in GPT-basierte Prompts integriert wird, um grobe Sonaraufnahmen zu generieren.
Phase 3: Verfeinerung der Bilder
In der dritten Phase werden die groben Aufnahmen mit Hilfe von domänenspezifischen Sprachanweisungen, die durch ein Vision-Language Model (VLM) verarbeitet werden, zu detaillierten Ergebnissen verfeinert. LoRA Fine-Tuning und GPT verbessern die Genauigkeit der Inhalte weiter.
Bewertung der Ergebnisse
Die Qualität der generierten Sonaraufnahmen wird anhand von qualitativen und quantitativen Analysen bewertet. Zu den verwendeten Metriken gehören:
- Fréchet Inception Distance (FID)
- Peak Signal-to-Noise Ratio (PSNR)
- Structural Similarity Index (SSIM)
- Inception Score (IS)
Beiträge des Frameworks
Das neue Framework leistet folgende Beiträge zur Sonarbildsynthese:
- Es ermöglicht die Erstellung von hochwertigen, realistischen Sonaraufnahmen mit erhöhter Diversität.
- Es stellt einen der umfangreichsten und vielfältigsten Datensätze für die Sonarforschung bereit.
- Es nutzt innovative Bildgenerierungstechniken, die auf DDPMs, LoRA und GPT-basiertem Prompting basieren.
- Es verbessert die Interpretierbarkeit von ML-Modellen für die Sonarbildanalyse.
Fazit
Das vorgeschlagene Framework bietet eine vielversprechende Lösung für die Herausforderungen der Sonarbildsynthese. Durch die Kombination von DDPMs, LoRA und GPT-Prompting ermöglicht es die Generierung von hochwertigen, realistischen und vielfältigen Sonaraufnahmen. Dieses Framework hat das Potenzial, die Entwicklung von Anwendungen in der Unterwassererkundung, Meeresbiologie und Verteidigung voranzutreiben.
Bibliographie
- [1] Natarajan, P.; Basha, K.; Nambiar, A. Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting. *arXiv* **2024**, arXiv:2410.08612.
- [2] Peng, C.; Jin, S.; Bian, G.; Cui, Y. DS-SIAUG: A Self-Training Approach Using a Disrupted Student Model for Enhanced Side-Scan Sonar Image Augmentation. *Sensors* **2024**, *24*, 5060.
- [3] Lian, L.; Li, B.; Yala, A.; Darrell, T. LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models. *arXiv* **2023**, arXiv:2305.13655.
- [4] Wu, S.; Zhou, S.; Zhang, D.; Zhang, Y.; Han, J.; Sun, X.; Zhang, W. Side-Scan Sonar Image Synthesis Based on a Diffusion Model. *Remote Sens.* **2023**, *15*, 2767.