{"id":177625,"date":"2023-06-03T14:07:06","date_gmt":"2023-06-03T13:07:06","guid":{"rendered":"https:\/\/liora.io\/de\/?p=177625"},"modified":"2026-02-06T06:42:44","modified_gmt":"2026-02-06T05:42:44","slug":"kosmos-1-microsoft-das-tool-das-auf-alles-eine-antwort-hat","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/kosmos-1-microsoft-das-tool-das-auf-alles-eine-antwort-hat","title":{"rendered":"Kosmos-1 Microsoft: Das Tool, das auf alles eine Antwort hat!"},"content":{"rendered":"<p><strong>Obwohl die F\u00e4higkeiten von ChatGPT oder anderen LLMs die Leute beeindrucken. Diese bleiben in Wirklichkeit darauf beschr\u00e4nkt, nur auf Textfragen zu antworten. Microsoft behauptet seinerseits, mit Kosmos-1 ein multimodales Modell (MLLM) geschaffen zu haben, das Bilder, Videos oder Audios analysieren kann, um Fragen zu beantworten.<\/strong><\/p>\t\t\n\t\t\t<h3>Kosmos-1 Microsoft: Warum ein multimodales Modell erstellen?<\/h3>\t\t\n\t\t<p>In einem Artikel mit dem Titel &#8222;<a href=\"https:\/\/arxiv.org\/abs\/2302. 14045\" target=\"_blank\" rel=\"noopener\"><i>Language Is Not All You Need: Aligning Perception with Language Models<\/i><\/a>&#8220; berichten die KI-Forscher von Microsoft, dass es ihr Ziel ist, die Wahrnehmung in MLLMs zu integrieren, damit diese <b>sehen, h\u00f6ren und sprechen k\u00f6nnen<\/b>. Dar\u00fcber hinaus legt der Artikel nahe, dass multimodale Wahrnehmung der erste Schritt in Richtung allgemeine <a href=\"https:\/\/liora.io\/de\/kuenstliche-intelligenz-lensa-verwandelt-deine-fotos-in-kunstwerke\">k\u00fcnstliche Intelligenz<\/a> ist. Das System w\u00e4re in der Lage, wie ein Mensch zu denken<b>.<\/b><\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"800\" height=\"549\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/kosmos_visual_question_answering.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/kosmos_visual_question_answering.jpg 945w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/kosmos_visual_question_answering-300x206.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/kosmos_visual_question_answering-768x527.jpg 768w\" sizes=\"(max-width: 800px) 100vw, 800px\">\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t[elementor-template id=&#8220;182277&#8243;]\t\t\n\t\t\t<h3>Ist Kosmos-1 ein multimodales Modell?<\/h3>\t\t\n\t\t<p>Microsoft behauptet, dass sein <strong>MLLM Kosmos-1<\/strong> mehrere Informationseing\u00e4nge erhalten, Anweisungen befolgen und kontextabh\u00e4ngig lernen kann.<\/p><p>Um seine F\u00e4higkeiten zu veranschaulichen, zeigt der Artikel eine Diskussion \u00fcber ein Foto eines K\u00e4tzchens und eine Person, die einen Zettel mit einem gezeichneten L\u00e4cheln h\u00e4lt. Kosmos-1 wird dann \u00fcber die humorvolle Seite des Bildes befragt, und<a href=\"https:\/\/liora.io\/de\/kuenstlicher-schlaf-ki-auch-eine-ki-wird-manchmal-muede\"> das Modell erkl\u00e4rt, dass das Bild lustig ist<\/a>, weil die Katze eine Maske tr\u00e4gt, die ihr ein L\u00e4cheln verleiht. Andere Beispiele zeigen, dass Kosmos-1 Microsoft verschiedene Aufgaben erf\u00fcllen kann, z. B. erkl\u00e4ren, wie man einen Computer unter Windows 10 neu startet, eine Webseite f\u00fcr eine Suche vorlesen, die Gesundheitsdaten eines Ger\u00e4ts interpretieren oder Bilder untertiteln kann. Diese verschiedenen Algorithmen bieten ihr jedoch keine F\u00e4higkeiten zur Videoanalyse.<\/p><p>Was die Wissenschaftler aber am meisten interessiert, ist sein Potenzial bei der Beantwortung von Fragen auf Webseiten. Denn was <strong>Microsoft<\/strong> m\u00f6chte, ist, Sprachmuster zu verwenden, um die Relevanz von Bing im Vergleich zu Google zu verbessern.<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"800\" height=\"574\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/kosmos_answering_questions.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/kosmos_answering_questions.jpg 1007w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/kosmos_answering_questions-300x215.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/kosmos_answering_questions-768x551.jpg 768w\" sizes=\"(max-width: 800px) 100vw, 800px\">\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t<p>Dank der MLLM kommen die Forschungsinstitute einer allgemeinen KI einen Schritt n\u00e4her. Wir hoffen, dass Skynet eine Fiktion bleibt und nicht Wirklichkeit wird. Auf jeden Fall, wenn dir dieser Artikel gefallen hat und du dich f\u00fcr Data Science interessierst, eine Karriere in diesem Bereich planst oder einfach nur verhindern willst, dass <strong>Skynet<\/strong> geboren wird, dann z\u00f6gere nicht l\u00e4nger und entdecke unsere Ausbildungsangebote oder Artikel auf Liora.<\/p><p>Quelle: zdnet.com<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Weiterbildungen<\/a><\/div><\/div>\n\n\t\t<p>?Auch interessant:<\/p><table dir=\"ltr\" border=\"1\" cellspacing=\"0\" cellpadding=\"0\"><colgroup><col width=\"268\"><\/colgroup><tbody><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Hi! Paris die KI-Hochburg&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/hi-paris-alles-ueber-die-pariser-hochburg-in-sachen-ki-und-data-science\"><a href=\"https:\/\/liora.io\/de\/hi-paris-alles-ueber-die-pariser-hochburg-in-sachen-ki-und-data-science\" target=\"_blank\" rel=\"noopener\">Hi! Paris die KI-Hochburg<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;KI in der Gastronomie&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/ki-in-der-gastronomie-firmenich-und-microsoft-praesentieren-die-erste-von-ki-kreierte-geschmacksrichtung\"><a href=\"https:\/\/liora.io\/de\/ki-in-der-gastronomie-firmenich-und-microsoft-praesentieren-die-erste-von-ki-kreierte-geschmacksrichtung\" target=\"_blank\" rel=\"noopener\">KI in der Gastronomie<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Gr\u00fcnder der Qanon Bewegung durch KI entlarvt&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/q-gruender-der-qanon-bewegung-durch-ki-entlarvt\"><a href=\"https:\/\/liora.io\/de\/q-gruender-der-qanon-bewegung-durch-ki-entlarvt\" target=\"_blank\" rel=\"noopener\">Gr\u00fcnder der Qanon Bewegung durch KI entlarvt<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;KI Diskriminierung&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/ki-diskriminierung-das-solltest-du-wissen\"><a href=\"https:\/\/liora.io\/de\/ki-diskriminierung-das-solltest-du-wissen\" target=\"_blank\" rel=\"noopener\">KI Diskriminierung<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;AWS Skill Builder&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/aws-skill-builder-alles-ueber-dieses-trainingsprogramm\"><a href=\"https:\/\/liora.io\/de\/aws-skill-builder-alles-ueber-dieses-trainingsprogramm\" target=\"_blank\" rel=\"noopener\">AWS Skill Builder<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Dataiku KI Tool&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/dataiku-ein-unverzichtbares-tool-fuer-data-science-und-ki\"><a href=\"https:\/\/liora.io\/de\/dataiku-ein-unverzichtbares-tool-fuer-data-science-und-ki\" target=\"_blank\" rel=\"noopener\">Dataiku KI Tool<\/a><\/td><\/tr><\/tbody><\/table>","protected":false},"excerpt":{"rendered":"<p>Obwohl die F\u00e4higkeiten von ChatGPT oder anderen LLMs die Leute beeindrucken. Diese bleiben in Wirklichkeit darauf beschr\u00e4nkt, nur auf Textfragen zu antworten. Microsoft behauptet seinerseits, mit Kosmos-1 ein multimodales Modell (MLLM) geschaffen zu haben, das Bilder, Videos oder Audios analysieren kann, um Fragen zu beantworten. Kosmos-1 Microsoft: Warum ein multimodales Modell erstellen? In einem Artikel [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":177626,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-177625","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/177625","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=177625"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/177625\/revisions"}],"predecessor-version":[{"id":217481,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/177625\/revisions\/217481"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/177626"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=177625"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=177625"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}