{"id":183730,"date":"2026-01-28T12:43:22","date_gmt":"2026-01-28T11:43:22","guid":{"rendered":"https:\/\/liora.io\/de\/?p=183730"},"modified":"2026-02-06T04:38:17","modified_gmt":"2026-02-06T03:38:17","slug":"multimodal-learning-die-technik-die-die-kuenstliche-intelligenz-revolutioniert","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/multimodal-learning-die-technik-die-die-kuenstliche-intelligenz-revolutioniert","title":{"rendered":"Multimodal Learning: Die Technik, die die k\u00fcnstliche Intelligenz revolutioniert"},"content":{"rendered":"<p><strong>Multimodales Lernen ist eine Weiterentwicklung des Machine Learning, die darin besteht, mehrere Datenquellen wie Text, Bild und Audio gleichzeitig zu nutzen, um wesentlich komplexere Aufgaben zu l\u00f6sen. Hier erf\u00e4hrst du alles, was du \u00fcber diese neue Technik wissen musst, die die Grenzen der KI erweitern wird!<\/strong><\/p>\nIn den letzten Jahren hat die k\u00fcnstliche Intelligenz beeindruckende Fortschritte gemacht. Ihre Entwicklung ist insbesondere mit dem<a href=\"https:\/\/liora.io\/de\/python-machine-learning-wo-soll-ich-anfangen\"> maschinellen Lernen (Machine Learning)<\/a> und tiefen neuronalen Netzen verbunden.\n\nDiese Fortschritte wurden jedoch haupts\u00e4chlich bei &#8222;unimodalen&#8220; Aufgaben erzielt. Dieser Begriff bedeutet, dass der Schwerpunkt auf einer einzigen Art von Datenquellen liegt, z. B. Text oder Bild.\n\nIn der realen Welt stammen die Informationen jedoch aus mehreren sensorischen Quellen und kombinieren Text, Bild, Audio oder sogar Video.\n\nDie n\u00e4chste <a href=\"https:\/\/liora.io\/de\/ki-in-der-industrie-eine-europaeische-kuenstliche-intelligenz-fuer-industrieroboter\">Herausforderung f\u00fcr die KI<\/a> besteht also darin, diese verschiedenen Modalit\u00e4ten gleichzeitig und integriert zu nutzen, um ein reichhaltigeres und vollst\u00e4ndigeres Verst\u00e4ndnis zu erreichen. Um dies zu erreichen, verwenden die Forscher die Technik des &#8222;multimodalen Lernens&#8220;.\n<h2 class=\"wp-block-heading\" id=\"h-multimodal-learning-und-die-verschiedenen-datentypen-verstehen\">Multimodal Learning und die verschiedenen Datentypen verstehen<\/h2>\nWenn du deinen Kopf aus dem Fenster steckst, erh\u00e4ltst du sofort eine Vielzahl von Informationen. Dies h\u00e4ngt mit der Kombination unserer f\u00fcnf Sinne zusammen: H\u00f6ren, Sehen, Riechen, Schmecken und F\u00fchlen, die es uns erm\u00f6glichen, gleichzeitig Ger\u00e4usche, Bilder, Texturen und D\u00fcfte wahrzunehmen.\n\nMultimodal Learning zielt darauf ab, diese Idee der gleichzeitigen Nutzung verschiedener Daten im Bereich der KI anzuwenden. Sehen wir uns zun\u00e4chst die verschiedenen Arten von Quellen an.\n\nText ist eine der am h\u00e4ufigsten verwendeten Modalit\u00e4ten im Machine Learning. Textdaten enthalten reichhaltige und strukturierte Informationen, und mithilfe der <a href=\"https:\/\/liora.io\/de\/nlp-language-translation-alles-was-du-wissen-musst\">nat\u00fcrlichen Sprachverarbeitung (NLP)<\/a> l\u00e4sst sich leicht Wissen aus ihnen extrahieren.\n\nDiese Daten k\u00f6nnen aus Dokumenten, Zeitungsartikeln, Nachrichten in sozialen Netzwerken oder jeder anderen Art von Text stammen. Die NLP-Techniken, die zu ihrer Verarbeitung verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entit\u00e4ten und Textklassifizierung.\n\nBilder sind ihrerseits eine wesentliche Quelle visueller Informationen im Multimodal Learning. Dank der wachsenden Beliebtheit von <a href=\"https:\/\/liora.io\/de\/convolutional-neural-network-2\">Faltungsneuronennetzen (CNN)<\/a> konnten gro\u00dfe Fortschritte beim Verst\u00e4ndnis von Bildern erzielt werden.\n\nMithilfe von Computer Vision-Techniken k\u00f6nnen Bilder analysiert und interpretiert werden, um daraus Wissen zu gewinnen. Beispiele daf\u00fcr sind die Erkennung von Objekten, die Gesichtserkennung oder die Segmentierung von Bildern.\n\nDie Audiomodalit\u00e4t umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams. Sie werden mithilfe von Audioverarbeitungstechniken analysiert, um akustische und sprachliche Merkmale zu extrahieren.\n\nZu den am h\u00e4ufigsten verwendeten Methoden geh\u00f6ren Spracherkennung, Erkennung von Schallereignissen,<strong> Quellentrennung und Klassifizierung.<\/strong>\n\nSchlie\u00dflich ist Video eine leistungsstarke Quelle f\u00fcr multimodale Daten, da es visuelle und Audio-Informationen kombiniert. Computer Vision und Audioverarbeitungstechniken erm\u00f6glichen es auch hier, Wissen aus einer Sequenz zu extrahieren.\n\nDies erm\u00f6glicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivit\u00e4ten oder sogar die Erkennung von Gesten.\n\nDiese Verschmelzung von <strong>visuellen und auditiven Modalit\u00e4ten<\/strong> erm\u00f6glicht es Maschinen, Szenen und Ereignisse besser zu verstehen.\n\nMit der Verbreitung von Smartphone-Kameras und sozialen Netzwerken wie TikTok und YouTube, die sich dem Teilen von Videos widmen, haben KIs nun Zugang zu einem riesigen Pool an Ressourcen, mit denen sie trainieren k\u00f6nnen.\n\nIn der Zukunft, wenn <strong>humanoide Roboter<\/strong> mit Ber\u00fchrungssensoren an ihren Fingern aufkommen, k\u00f6nnten K\u00fcnstliche Intelligenzen auch den Tastsinn empfangen und ihn zum Lernen nutzen&#8230;\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"900\" height=\"500\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning1.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning1.png 900w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning1-300x167.png 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning1-768x427.png 768w\" sizes=\"(max-width: 900px) 100vw, 900px\"><figcaption><\/figcaption><\/figure>\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Lerne mehr \u00fcber Multimodal Learning<\/a><\/div><\/div>\n\n<h2 class=\"wp-block-heading\" id=\"h-welche-anwendungen-gibt-es-fur-multimodal-learning\">Welche Anwendungen gibt es f\u00fcr Multimodal Learning?<\/h2>\n<strong>Multimodales Lernen<\/strong> wird auf vielf\u00e4ltige Weise in vielen Bereichen der k\u00fcnstlichen Intelligenz angewendet.\n\nEiner der wichtigsten<strong> Anwendungsf\u00e4lle<\/strong> ist die Erkennung und das Verst\u00e4ndnis von Szenen. Durch die Kombination von visuellen, Audio- und Videoinformationen ist es m\u00f6glich, komplexe Szenen genauer und detaillierter zu analysieren und zu interpretieren.\n\nEs geht z. B. darum, bewegte Objekte in einem Video zu erkennen und zu verfolgen, wie z. B. Personen in \u00dcberwachungsvideos.\n\nDie Kombination von visuellen und Audio-Informationen hilft, verd\u00e4chtige Ereignisse wie aggressives Verhalten, Eindringen oder Notsituationen in den Bildern von Sicherheitskameras automatisch zu erkennen. Es ist also eine wertvolle Hilfe bei der \u00dcberwachung.\n\nEs ist auch m\u00f6glich, menschliche Aktivit\u00e4ten in Videos anhand von visuellen und Audio-Informationen zu erkennen und zu verstehen. In einem Video, das bei einer Sportveranstaltung aufgenommen wurde, helfen z. B. die Erkennung von Gesten und das Verst\u00e4ndnis von sozialen Interaktionen der KI, eine Sportart zu erkennen.\n\nEin weiteres Anwendungsfeld f\u00fcr Multimodal Learning ist die \u00dcbersetzung. Dieser Ansatz erm\u00f6glicht u. a. die gleichzeitige \u00dcbersetzung von Sprache und Bildern bei einer m\u00fcndlichen Pr\u00e4sentation, die von visuellen Folien begleitet wird. Dies erleichtert das Verst\u00e4ndnis f\u00fcr ein mehrsprachiges Publikum.\n\nEbenso k\u00f6nnen textbasierte Anweisungen automatisch in visuelle Anweisungen \u00fcbersetzt werden. Das Ziel kann z. B. sein, einen Roboter bei der Ausf\u00fchrung seiner Aufgaben zu leiten.\n\nEs gibt auch Generatoren f\u00fcr Bildbeschriftungen, die auf Multimodal Learning basieren. Dies ist sehr n\u00fctzlich f\u00fcr Menschen mit Sehbehinderungen oder um den Prozess der Untertitelung zu automatisieren.\n\nMithilfe einer auf Multimodal Learning basierenden Konversationsschnittstelle kann ein virtueller Assistent mit den Nutzern interagieren, indem er Sprache, Text und Bilder verwendet. Das Erlebnis wird dadurch nat\u00fcrlicher und immersiver, da es m\u00f6glich wird, seine Absichten und Bed\u00fcrfnisse auf verschiedene Arten auszudr\u00fccken.\n<h2 class=\"wp-block-heading\" id=\"h-multimodal-learning-und-generative-ki\">Multimodal Learning und generative KI<\/h2>\n<a href=\"https:\/\/liora.io\/de\/generative-antagonistische-netzwerke-oder-gan-was-ist-das\">Generative K\u00fcnstliche Intelligenz<\/a> beruht auch auf Multimodal Learning. Diese Art von KI nutzt neuronale Netze, um neue Inhalte zu generieren: Bilder, Videos, Texte&#8230;\n\nZum Beispiel basieren <a href=\"https:\/\/liora.io\/de\/chatgpt-code-umwandeln-so-gehts-in-sekundenschnelle\">KI-Chatbots wie ChatGPT<\/a> auf generativer KI, um Text aus Prompts zu erzeugen. Durch die Integration verschiedener Modalit\u00e4ten sind sie in der Lage, auf reichhaltigere und nat\u00fcrlichere Weise mit den Nutzern zu interagieren.\n\nDie fortschrittlichsten Dialogsysteme wie GPT-4 von OpenAI integrieren sowohl Text als auch Sprache und Bilder, um Anfragen zu verstehen und auf kontextbezogene und personalisierte Weise zu beantworten.\n\nIn \u00e4hnlicher Weise erstellt die <strong>KI DALL-E<\/strong> Bilder aus textbasierten Prompts. Sie wurde sowohl mit Text als auch mit Bildern trainiert, um zu lernen, wie man sie miteinander verbindet.\n\nGenerative KI kann eine personalisiertere Mensch-Maschine-Interaktion erm\u00f6glichen, realistische 3D-Bilder und Videos f\u00fcr Filme oder Videospiele oder sogar neue Produktdesigns erstellen.\n<h2 class=\"wp-block-heading\" id=\"h-verschiedene-ansatze-und-techniken\">Verschiedene Ans\u00e4tze und Techniken<\/h2>\nZun\u00e4chst einmal spielen <strong>Fusionsmodelle<\/strong> eine Schl\u00fcsselrolle bei der Kombination von Informationen. Multimodale neuronale Netze erm\u00f6glichen das Lernen von<strong> integrierten Darstellungen, indem gemeinsame Merkmale<\/strong> aus multimodalen Daten extrahiert werden.\n\nDiese Neural Networks k\u00f6nnen durch die Verwendung spezifischer Fusionsschichten aufgebaut werden, die die Merkmale jeder Modalit\u00e4t ber\u00fccksichtigen und die Informationen auf geeignete Weise kombinieren.\n\nEine weitere Methode ist das<a href=\"https:\/\/liora.io\/de\/transfer-learning\"> Transferlernen<\/a>, bei dem das von einer Modalit\u00e4t erlernte Wissen auf eine andere \u00fcbertragen werden kann.\n\nDies kann sehr n\u00fctzlich sein, wenn die Daten in einer bestimmten Modalit\u00e4t begrenzt sind. Beispielsweise k\u00f6nnen Modelle, die vorab auf Aufgaben im Bereich Computer Vision trainiert wurden, auf Bildverstehensaufgaben in anderen Dom\u00e4nen \u00fcbertragen werden.\n\nEs ist auch m\u00f6glich, auf <strong>gro\u00dfen Datenmengen<\/strong> vortrainierte Modelle als Ausgangspunkt zu verwenden, um das multimodale Lernen zu beschleunigen.\n\nEin vorab<strong> trainiertes Sprachmodell<\/strong> kann verwendet werden, um Textmerkmale in einer multimodalen Aufgabe zu extrahieren, um sein Wissen zu nutzen, das er bereits beim anf\u00e4nglichen Training an einer gro\u00dfen Datenmenge erworben hat.\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"900\" height=\"500\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning2.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning2.png 900w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning2-300x167.png 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning2-768x427.png 768w\" sizes=\"(max-width: 900px) 100vw, 900px\">\n\n<figcaption><\/figcaption><\/figure>\n<a href=\"https:\/\/liora.io\/de\/weiterbildung-machine-learning-engineer\">\nAlles lernen \u00fcber Multimodal Learning\n<\/a>\n\nSchlie\u00dflich ist die<strong> Darstellung der multimodalen<\/strong> Daten ein entscheidender Schritt, da sie die F\u00e4higkeit des Modells beeinflusst, die verschiedenen Modalit\u00e4ten zu verstehen und zu nutzen.\nDas <strong>Erlernen gemeinsamer Darstellungen<\/strong> zielt zum Beispiel darauf ab, gemeinsame Darstellungsr\u00e4ume zwischen den verschiedenen Modalit\u00e4ten zu finden.\nDies erm\u00f6glicht es, gemeinsame Merkmale zu extrahieren, die gemeinsame Informationen erfassen und das Gesamtverst\u00e4ndnis multimodaler Daten erleichtern.\nUm diese <strong>gemeinsamen Repr\u00e4sentationen zu erlernen,<\/strong> werden insbesondere Techniken des Co-Lernens oder des adversativen Lernens verwendet.\n\n<strong>Eine Alternative sind selbstkodierende neuronale Netze:<\/strong> Architekturen, die lernen, Eingabedaten \u00fcber eine latente Repr\u00e4sentation zu rekonstruieren.\nSie k\u00f6nnen verwendet werden, um relevante multimodale Merkmale zu extrahieren, die dann f\u00fcr die Fusion und das Lernen von multimodalen Modellen genutzt werden.\n\n?Auch interessant:\n<table dir=\"ltr\" border=\"1\" cellspacing=\"0\" cellpadding=\"0\">\n<colgroup>\n<col width=\"426\"><\/colgroup>\n<tbody>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Deep Neural Network&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/deep-neural-network\"><a href=\"https:\/\/liora.io\/de\/deep-neural-network\" target=\"_blank\" rel=\"noopener\">Deep Neural Network<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Deep Learning vs. Machine Learning&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/deep-learning-vs-machine-learning\"><a href=\"https:\/\/liora.io\/de\/deep-learning-vs-machine-learning\" target=\"_blank\" rel=\"noopener\">Deep Learning vs. Machine Learning<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Deep Learning - was ist das eigentlich ?&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/deep-learning-oder-tiefes-lernen-was-ist-das-denn\"><a href=\"https:\/\/liora.io\/de\/deep-learning-oder-tiefes-lernen-was-ist-das-denn\" target=\"_blank\" rel=\"noopener\">Deep Learning &#8211; was ist das eigentlich ?<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Deep Fake Gefahren&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/deep-fake-gefahren-massnahmen-und-rechtslage\"><a href=\"https:\/\/liora.io\/de\/deep-fake-gefahren-massnahmen-und-rechtslage\" target=\"_blank\" rel=\"noopener\">Deep Fake Gefahren<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Python Deep Learning Basics&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/python-deep-learning-die-basics\"><a href=\"https:\/\/liora.io\/de\/python-deep-learning-die-basics\" target=\"_blank\" rel=\"noopener\">Python Deep Learning Basics<\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2 class=\"wp-block-heading\" id=\"h-die-herausforderungen-des-multimodal-learning\">Die Herausforderungen des Multimodal Learning<\/h2>\nDieses multimodale Lernen bringt verschiedene Herausforderungen mit sich und erfordert besondere Aufmerksamkeit, um die verschiedenen Datentypen effektiv zu nutzen.\n\nEines der <strong>Hauptprobleme<\/strong> ist die Ausrichtung der Modalit\u00e4ten. Daten aus verschiedenen Quellen m\u00fcssen so ausgerichtet werden, dass sie koh\u00e4rent und interpretierbar sind.\n\nWenn du z. B. ein Video mit einer Tonspur analysierst, m\u00fcssen die visuellen und akustischen Informationen vor\u00fcbergehend unbedingt aneinander ausgerichtet werden, damit die Szene als <strong>Ganzes verst\u00e4ndlich<\/strong> ist. Um diese Einschr\u00e4nkung einzuhalten, werden verschiedene Synchronisationstechniken verwendet.\n\nAuch das Zusammenf\u00fchren von Informationen aus verschiedenen Modalit\u00e4ten kann eine komplexe Aufgabe sein. Es gibt verschiedene Methoden, um Text-, Bild-, Audio- und Videoinformationen effektiv zu kombinieren, wie z. B. die Verkettung oder die Verwendung<strong> multimodaler neuronaler Netze,<\/strong> um integrierte Darstellungen zu erlernen.\n\nUnabh\u00e4ngig davon, welcher Ansatz verwendet wird, m\u00fcssen bei der Zusammenf\u00fchrung Interaktionen und Abh\u00e4ngigkeiten erfasst werden, um ein umfassendes Verst\u00e4ndnis und einen \u00dcberblick zu erm\u00f6glichen.\n\nEine weitere Herausforderung besteht darin, die Daten so darzustellen, dass die relevanten Informationen aus jeder Modalit\u00e4t erfasst werden, damit sie beim Lernen effektiv genutzt werden k\u00f6nnen.\n\nIm Allgemeinen werden <a href=\"https:\/\/liora.io\/de\/style-transfer-deep-learning\">Deep-Learning-Techniken<\/a> verwendet, um signifikante Merkmale zu extrahieren. Beispielsweise k\u00f6nnen enkodierende neuronale Netze verwendet werden, um Informationen zu erfassen, die von den Modalit\u00e4ten geteilt werden.\n<h2 class=\"wp-block-heading\" id=\"h-beispiele-fur-multimodal-learning-systeme\">Beispiele f\u00fcr Multimodal Learning Systeme<\/h2>\nHier sind einige Beispiele.\n\nDas US-amerikanische Unternehmen OpenAI hat DALL-E entwickelt, ein <strong>KI-System<\/strong>, das Text in Bilder umwandelt. Es handelt sich dabei um ein neuronales Netz, das aus 12 Milliarden Parametern besteht.\n\nDie Firma hat auch <strong>CLIP<\/strong> entwickelt. Dieses multimodale System f\u00fchrt eine Vielzahl von visuellen Erkennungsaufgaben durch und kann Bilder ohne Beispieldaten in Kategorien einteilen.\n\nGoogle hat seinerseits <strong>ALIGN<\/strong> entwickelt: ein KI-Modell, das auf einem Datensatz mit vielen Bild-Text-Paaren trainiert wird. Laut mehreren Benchmarks ist es das leistungsf\u00e4higste Modell dieser Art.\n\nDer kalifornische Riese hat auch die<strong> KI MURAL<\/strong> f\u00fcr die Bild-Text-Zuordnung und Sprach\u00fcbersetzung entwickelt. Dieses Modell nutzt Multitasking-Lernen, das auf Bild-Text-Paare angewendet wird, in Verbindung mit deren \u00dcbersetzung in \u00fcber 100 Sprachen.\n\nEin weiteres Projekt von Google ist <strong>VATT<\/strong>: eine multimodale Video-Audio-Text-KI. Sie kann Vorhersagen aus Rohdaten treffen, Beschreibungen von Ereignissen in Videos generieren oder sogar Videos aus einem Prompt erstellen.\n\nMicrosoft-Forscher haben NUWA entwickelt, um neue Bilder und Videos zu produzieren oder bestehende zu ver\u00e4ndern. Dieses Modell wird mit Bildern, Videos und Text trainiert. Es hat gelernt, den n\u00e4chsten Frame in einem Video vorherzusagen oder unvollst\u00e4ndige Bilder zu f\u00fcllen.\n\nEin weiteres <strong>Microsoft Resarch-Projekt ist Florence<\/strong>, das in der Lage ist, Raum, Zeit und Modalit\u00e4t zu modellieren. FLAVA schlie\u00dflich wird von Meta mit Bildern und 35 verschiedenen Sprachen trainiert und erweist sich als leistungsf\u00e4hig f\u00fcr eine Vielzahl multimodaler Aufgaben.\n<h2 class=\"wp-block-heading\" id=\"h-schlussfolgerung-multimodales-lernen-die-nachste-grenze-der-ki\">Schlussfolgerung: Multimodales Lernen, die n\u00e4chste Grenze der KI<\/h2>\nMultimodales Lernen bringt Maschinen n\u00e4her an das menschliche Gehirn und seine multisensorische Wahrnehmung heran, indem es KI-Systemen erm\u00f6glicht, aus mehreren Arten von Daten gleichzeitig zu lernen.\n\nIn naher Zukunft k\u00f6nnte dieser Ansatz es der <a href=\"https:\/\/liora.io\/de\/kuenstliche-intelligenz\">k\u00fcnstlichen Intelligenz<\/a> erm\u00f6glichen, sich der menschlichen Intelligenz weiter anzun\u00e4hern oder sie sogar zu \u00fcbertreffen&#8230;\n\nUm Machine Learning und alle seine Techniken zu beherrschen, kannst du dich f\u00fcr Liora entscheiden. Unsere Data Science-Kurse beinhalten alle ein oder mehrere Module, die sich mit Machine Learning, Deep Learning und KI besch\u00e4ftigen.\n\nZu den behandelten Themen geh\u00f6ren Klassifizierung, Regression und Clustering mit scikit-learn, <a href=\"https:\/\/liora.io\/de\/text-mining-definition-techniken-anwendungsfaelle\">Text Mining<\/a> und Zeitreihenanalyse, sowie CNN und RNN mit Keras, <a href=\"https:\/\/liora.io\/de\/tensorflow\">TensorFlow<\/a> und PyTorch.\n\nUnsere verschiedenen Kurse werden vollst\u00e4ndig im Fernstudium absolviert und vermitteln dir alle Kompetenzen, die du f\u00fcr die Berufe Data Scientist, Data Analyst, Data Engineer, ML Engineer oder auch f\u00fcr die neuen KI-Berufe wie Prompt Engineer ben\u00f6tigst.\n\nUnsere Organisation <strong>ist durch den Bildungsgutschein f\u00f6rderf\u00e4hig<\/strong>, staatlich anerkannt und du kannst ein von MINES Paris Executive Education ausgestelltes Diplom und ein Cloud-Zertifikat von unseren Partnern AWS und Microsoft Azure erhalten. Entdecke Liora!\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"900\" height=\"500\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning3.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning3.png 900w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning3-300x167.png 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/08\/multimodal_learning3-768x427.png 768w\" sizes=\"(max-width: 900px) 100vw, 900px\">\n\n<figcaption><\/figcaption><\/figure>\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Weiterbildungen<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Multimodales Lernen ist eine Weiterentwicklung des Machine Learning, die darin besteht, mehrere Datenquellen wie Text, Bild und Audio gleichzeitig zu nutzen, um wesentlich komplexere Aufgaben zu l\u00f6sen. Hier erf\u00e4hrst du alles, was du \u00fcber diese neue Technik wissen musst, die die Grenzen der KI erweitern wird!<\/p>\n","protected":false},"author":78,"featured_media":183731,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-183730","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/183730","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/78"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=183730"}],"version-history":[{"count":3,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/183730\/revisions"}],"predecessor-version":[{"id":216542,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/183730\/revisions\/216542"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/183731"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=183730"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=183730"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}