Hast du das richtige Profil, um in der Tech-Branche zu arbeiten? Finde es in nur 2 Minuten heraus 🚀 Mach den Test!

Data & KI

Cloud & Dev

WeiterbildungEN

Data Analyst

Data Scientist

Data Engineer

Analytics Engineer

Machine Learning Engineer

Data Marketing & AI

MLOps

ETL Developer

DataOps Engineer

Zertifizierungen

Power BI

Live Q&A
Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date: Mittwoch 1 April
Time: De 17h30 à 18h30
Speaker: Jochen Kronenberg

New windowAnmelden

WeiterbildungEN

DevOps Engineer

Cloud Engineer

Zertifizierungen

AWS Solutions Architect

Live Q&A
Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date: Mittwoch 1 April
Time: De 17h30 à 18h30
Speaker: Jochen Kronenberg

New windowAnmelden
Alle Weiterbildungen
Expertise

Unsere Expertise

Ihr Team weiterbilden

Top-Talente einstellen

Auszubildende einstellen

Über uns

DataScientest wird Liora

Unsere Kunden

Kontaktieren Sie uns

Unsere Engagements

Live Q&A
Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date: Mittwoch 1 April
Time: De 17h30 à 18h30
Speaker: Jochen Kronenberg

New windowAnmelden
VerAnstaltungen

Unsere Veranstaltungen

Webinare

Live Q&A

Vor Ort Veranstaltungen

Live Q&A
Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date: Mittwoch 1 April
Time: De 17h30 à 18h30
Speaker: Jochen Kronenberg

New windowAnmelden
Ressourcen

Decoded by Liora | Blog

Arbeitsvermittler

Karriere Management

Ambassadors

Freunde werben Freunde

Berufsbeschreibungen

Live Q&A
Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date: Mittwoch 1 April
Time: De 17h30 à 18h30
Speaker: Jochen Kronenberg

New windowAnmelden
Warum liora?

Über uns

Methodik

Bewertungen & Testimonials

Live Q&A
Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date: Mittwoch 1 April
Time: De 17h30 à 18h30
Speaker: Jochen Kronenberg

New windowAnmelden

Microsofts neues kompaktes KI-Modell ist erstaunlich leistungsstark

5 März 2026

Microsoft Research präsentierte Phi-4-reasoning-vision-15B, ein bahnbrechendes Open-Weight-KI-Modell, das sehen, schlussfolgern und komplexe Probleme lösen kann, mit lediglich 15 Milliarden Parametern, einem Bruchteil der Größe konkurrierender Systeme. Das am 4. März 2026 veröffentlichte multimodale Modell wechselt dynamisch zwischen schneller visueller Erkennung und mehrstufigem Denken und erzielt starke Leistungen in Mathematik, Wissenschaft und Benutzeroberflächenverständnis, während es deutlich weniger Rechenleistung benötigt als größere Rivalen.

Die Architektur des Modells stellt eine deutliche Abkehr vom Branchentrend hin zu immer größeren Systemen dar. Microsoft Research konzipierte Phi-4-reasoning-vision-15B mit einer Mid-Fusion-Architektur, die SigLIP-2 als Vision-Encoder mit dem Sprach-Backbone Phi-4-Reasoning kombiniert, laut der technischen Dokumentation des Forscherteams.

Was dieses Modell besonders auszeichnet, ist seine selektive Reasoning-Fähigkeit. Das System nutzt standardmäßig schnelle, direkte Inferenz für einfache Wahrnehmungsaufgaben wie optische Zeichenerkennung (OCR), wechselt jedoch automatisch zu strukturiertem, mehrstufigem Denken, wenn es komplexen Mathematik- oder Wissenschaftsproblemen begegnet. Microsoft erreichte dies durch eine gezielte Trainingsstrategie: 20 Prozent der Trainingsdaten wurden so konzipiert, dass sie Chain-of-Thought-Prozesse anregen, während 80 Prozent sich auf Wahrnehmungsaufgaben konzentrierten, die direkte Antworten erfordern.

Technische Innovation

Das Entwicklungsteam priorisierte Datenqualität vor Quantität und trainierte das Modell mit 200 Milliarden multimodalen Token aus sorgfältig kuratierten Quellen. Die Microsoft-Forscher überprüften Datensätze manuell, nutzten GPT-4o, um korrekte Antworten für fehlerhafte Daten zu generieren, und erstellten synthetische Daten speziell für textreiche visuelle Domänen wie Diagramme und mathematische Gleichungen.

Das Modell integriert einen Encoder für dynamische Auflösung, der sich Microsoft-Studien zufolge als überlegen erwies, um hochauflösende Daten wie Bildschirmaufnahmen zu verarbeiten. Diese Optimierung ermöglicht es dem System, komplexe visuelle Eingaben zu verarbeiten, während es die Rechenleistung effizient nutzt.

Open-Weight Release und Anwendungen

Microsoft hat die Modellgewichte auf Microsoft Foundry und HuggingFace unter einer offenen Lizenz veröffentlicht, zusammen mit Fine-Tuning-Code auf GitHub. Das Unternehmen berichtet, dass Phi-4-reasoning-vision-15B in unabhängigen Benchmarks einen „wünschenswerten Kompromiss zwischen Genauigkeit und Kosten“ bietet, im Vergleich zu anderen Open-Weight-Modellen wie Qwen.

Das Modell überzeugt bei Erstellung von Bildunterschriften, Visual Question Answering und Dokumentenanalyse. Seine hochauflösende Wahrnehmung und geringe Latenz machen es besonders geeignet für die Entwicklung agentenbasierter Modelle, die mit grafischen Benutzeroberflächen interagieren, so Microsoft.

Microsoft nennt jedoch Einschränkungen. Die Grenze zwischen Reasoning- und Standard-Modi wird implizit erlernt und kann „ungenau“ sein, wie das Forscherteam feststellte. Die Bestimmung der optimalen Datenmischung für hybride Denkansätze bleibt eine offene Forschungsfrage.

Die Veröffentlichung signalisiert eine breite Trendwende in der KI-Entwicklung hin zu wettbewerbsfähiger Leistung durch überlegene Datenkuratierung und architektonische Innovation, statt bloß Parametergrößen zu skalieren.

Sources

Microsoft Research

Erhalte einen Einblick in die Zukunft – direkt in Dein Postfach. Abonniere unseren Newsletter, um die Tech-Trends von morgen, exklusive Tipps und Angebote für unsere Community zu entdecken.

Zum Newsletter anmelden

Microsofts neues kompaktes KI-Modell ist erstaunlich leistungsstark

Technische Innovation

Open-Weight Release und Anwendungen

Sources

Wie kann die Ausbildung finanziert werden?

Wie kann die Ausbildung finanziert werden?

Programming with Python

Microsofts neues kompaktes KI-Modell ist erstaunlich leistungsstark

Der Newsletter der Zukunft

Technische Innovation

Open-Weight Release und Anwendungen

Sources

Der Newsletter der Zukunft