KI für Ihr Unternehmen – Jetzt Demo buchen

Veröffentlichung des Trainingscodes für NEO: Ein Fortschritt in der Entwicklung nativer Vision-Language-Modelle

Kategorien:
No items found.
Freigegeben:
January 6, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Das EvolvingLMMs-Lab hat den Trainingscode für NEO, ein fortschrittliches natives Vision-Language-Modell (VLM), quelloffen veröffentlicht.
    • NEO zeichnet sich durch eine native, monolithische Architektur aus, die die Kodierung, Ausrichtung und logische Verarbeitung von Bild- und Textinformationen in einem einzigen Modell vereint.
    • Trotz eines vergleichsweise kleineren Trainingsdatensatzes von 390 Millionen Bild-Text-Paaren erreicht NEO eine hohe visuelle Wahrnehmungsleistung, die mit führenden modularen VLMs konkurriert.
    • Die Veröffentlichung beinhaltet den Trainingscode, die Modellgewichte (2B und 9B Parameter in verschiedenen Trainingsstadien) und den Evaluierungscode.
    • NEO zielt darauf ab, die Forschung an nativen VLMs zugänglicher zu machen und ein kosteneffizientes, erweiterbares Ökosystem zu fördern.

    Die Landschaft der Künstlichen Intelligenz (KI) wird kontinuierlich durch Innovationen im Bereich der multimodalen Modelle erweitert. Eine aktuelle Entwicklung, die für Fachleute in der KI-Branche von besonderem Interesse ist, ist die Veröffentlichung des Trainingscodes für NEO durch das EvolvingLMMs-Lab. NEO ist ein natives Vision-Language-Modell (VLM), das einen neuen Ansatz für die Integration von visuellen und sprachlichen Informationen verfolgt.

    Die Evolution der Vision-Language-Modelle

    Vision-Language-Modelle haben in den letzten Jahren erhebliche Fortschritte gemacht und ermöglichen es KI-Systemen, sowohl Bilder als auch Text zu verarbeiten und miteinander in Beziehung zu setzen. Traditionell wurden in diesem Bereich häufig modulare Architekturen eingesetzt, bei denen separate Encoder für visuelle und sprachliche Daten verwendet und deren Ausgaben anschließend zusammengeführt wurden. NEO verfolgt hingegen einen "nativen" Ansatz.

    Native vs. Modulare Architekturen

    Der Unterschied zwischen nativen und modularen VLMs liegt primär in ihrer Architektur:

    • Modulare VLMs: Diese Modelle bestehen typischerweise aus getrennten Komponenten für die Bildverarbeitung (Bild-Encoder) und die Textverarbeitung (Text-Encoder). Die Ergebnisse dieser Module werden dann oft über Mechanismen wie Cross-Attention zusammengeführt. Beispiele hierfür sind Modelle, die CLIP oder andere vortrainierte Encoder nutzen und diese mit Sprachmodellen kombinieren.
    • Native VLMs: Ein natives VLM, wie NEO, zielt darauf ab, die Kodierung, Ausrichtung und logische Verarbeitung von Pixel- und Wortinformationen innerhalb einer einzigen, dichten und monolithischen Modellarchitektur zu vereinen. Dies bedeutet, dass visuelle und sprachliche Informationen von Grund auf in einem gemeinsamen semantischen Raum verarbeitet werden, anstatt sie nachträglich zu fusionieren.

    Die Motivation hinter nativen VLMs ist es, die Beschränkungen modularer Ansätze zu überwinden, die oft mit Komplexität bei der Integration und potenziellen Inkonsistenzen in der Repräsentation einhergehen können. Durch eine von Grund auf integrierte Architektur sollen effizientere und kohärentere multimodale Repräsentationen erzielt werden.

    NEO: Ein detaillierter Blick auf die Architektur und Leistung

    NEO wurde vom EvolvingLMMs-Lab entwickelt und demonstriert einen vielversprechenden Weg für die Entwicklung skalierbarer und leistungsstarker nativer VLMs. Die zugrundeliegende Forschung wurde in einem prägnanten Paper mit dem Titel "From Pixels to Words -- Towards Native Vision-Language Primitives at Scale" vorgestellt.

    Architektonische Innovation und Effizienz

    Ein Kernmerkmal von NEO ist seine native Architektur, die eine einheitliche Kodierung, Ausrichtung und logische Verarbeitung von Pixel- und Wortdaten innerhalb eines einzigen, dichten Modells ermöglicht. Dies unterscheidet es von vielen anderen VLMs, die auf modularen Ansätzen basieren.

    Ein bemerkenswerter Aspekt von NEO ist seine überlegene Trainingseffizienz. Obwohl es nur mit etwa 390 Millionen Bild-Text-Beispielen trainiert wurde, entwickelt NEO eine starke visuelle Wahrnehmungsfähigkeit von Grund auf. Diese Leistung kann mit der von führenden modularen VLMs konkurrieren und übertrifft andere native Ansätze.

    Das Projekt legt zudem Wert auf einen vielversprechenden Fahrplan für skalierbare und leistungsstarke native VLMs. Es werden diverse wiederverwendbare Komponenten bereitgestellt, die ein kosteneffizientes und erweiterbares Ökosystem fördern sollen.

    Verfügbare Modelle und Benchmarks

    Das EvolvingLMMs-Lab hat mehrere Varianten von NEO-Modellen mit 2 Milliarden (2B) und 9 Milliarden (9B) Parametern veröffentlicht. Diese sind in verschiedenen Trainingsstadien verfügbar:

    • Pre-Training (PT): Modelle nach der initialen Vortrainingsphase.
    • Mid-Training (MT): Modelle nach einer mittleren Trainingsphase.
    • Supervised Fine-Tuning (SFT): Modelle, die durch überwachtes Fine-Tuning weiter spezialisiert wurden.

    Diese Modelle sind über Hugging Face zugänglich, was die Zugänglichkeit und die Möglichkeit zur experimentellen Nutzung für die Community erhöht.

    In Benchmark-Tests zeigt NEO eine konkurrenzfähige Leistung über verschiedene Aufgaben hinweg. Insbesondere in der Kategorie der nativen VLMs mit 2B und 8B Parametern erzielt NEO in mehreren Metriken, wie MMMU, MMB, SEED_I und DocVQA, hohe Werte, die in einigen Fällen die Ergebnisse modularer VLMs erreichen oder übertreffen. Dies deutet darauf hin, dass der native Ansatz von NEO in der Lage ist, trotz effizienterer Trainingsdaten und einer integrierten Architektur eine hohe Leistungsfähigkeit zu erzielen.

    Open-Source-Verfügbarkeit und Implikationen

    Die Entscheidung, den Trainingscode von NEO quelloffen zur Verfügung zu stellen, ist ein wichtiger Schritt für die KI-Community. Der Code ist auf GitHub unter einer Apache-2.0-Lizenz verfügbar, was die Nutzung und Weiterentwicklung fördert.

    Die Bereitstellung des Codes und der Modelle ermöglicht es Forschern und Entwicklern, die Architektur von NEO zu untersuchen, eigene Experimente durchzuführen und auf dieser Grundlage neue multimodale KI-Anwendungen zu entwickeln. Dies trägt zur Demokratisierung der Forschung im Bereich der nativen VLMs bei und kann die Innovationsgeschwindigkeit erheblich beschleunigen.

    Für Unternehmen, die im Bereich der KI-gestützten Inhaltsgenerierung, Bildanalyse oder visuellen Fragestellung tätig sind, bietet NEO potenzielle Vorteile. Die native Architektur könnte zu effizienteren und robusteren multimodalen Systemen führen, die eine tiefere Integration von visuellen und sprachlichen Informationen ermöglichen. Dies ist besonders relevant für Anwendungen, die ein kohärentes Verständnis komplexer Inhalte erfordern, bei denen Text und Bild untrennbar miteinander verbunden sind.

    Ausblick und weitere Entwicklungen

    Die Veröffentlichung von NEO unterstreicht den anhaltenden Trend zur Entwicklung leistungsstärkerer und effizienterer Vision-Language-Modelle. Es zeigt, dass der native Ansatz, der eine tiefere Integration von Modalitäten anstrebt, ein vielversprechendes Forschungsgebiet darstellt.

    Die Community wird nun die Möglichkeit haben, die Stärken und Schwächen von NEO in der Praxis zu testen und zu bewerten. Die bereitgestellten Trainings- und Evaluierungs-Kits erleichtern diesen Prozess und könnten zu einer Welle von Weiterentwicklungen und Anpassungen führen. Es bleibt abzuwarten, wie sich dieser native Ansatz im Vergleich zu den etablierten modularen Architekturen langfristig positionieren wird und welche neuen Anwendungsfelder sich daraus ergeben.

    Die fortlaufende Entwicklung und Open-Source-Verfügbarkeit solcher Modelle sind entscheidend für den Fortschritt der KI. Sie ermöglichen es einer breiteren Gemeinschaft, an der Gestaltung und Verbesserung dieser Technologien teilzuhaben und deren Potenzial für vielfältige reale Anwendungen zu erschließen.

    Bibliography

    - EvolvingLMMs-Lab. (o. J.). EvolvingLMMs-Lab/NEO - Native Vision-Language Models. Abgerufen von https://github.com/EvolvingLMMs-Lab/NEO - Diao, H., Li, M., Wu, S., Dai, L., Wang, X., Deng, H., Lu, L., Lin, D., & Liu, Z. (2025). From Pixels to Words -- Towards Native Vision-Language Primitives at Scale. arXiv preprint arXiv:2510.14979. Abgerufen von https://arxiv.org/abs/2510.14979 - Hugging Face. (o. J.). NEO1_0 - a Paranioar Collection. Abgerufen von https://huggingface.co/collections/Paranioar/neo1-0 - Hugging Face. (2023, 3. Februar). A Dive into Vision-Language Models. Abgerufen von https://huggingface.co/blog/vision_language_pretraining - Hugging Face. (2025, 12. Mai). Vision Language Models (Better, faster, stronger). Abgerufen von https://huggingface.co/blog/vlms-2025 - Hugging Face. (2024, 11. April). Vision Language Models Explained. Abgerufen von https://huggingface.co/blog/vlms - huggingface. (o. J.). GitHub - huggingface/nanoVLM: The simplest, fastest repository for training/finetuning small-sized VLMs. Abgerufen von https://github.com/huggingface/nanoVLM - m-a-p. (o. J.). m-a-p/neo_7b · Hugging Face. Abgerufen von https://huggingface.co/m-a-p/neo_7b

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen