Bedeutung & Anwendung – Verständlich und ohne Fachbegriffe
Multimodale LLMs sind KI-Programme, die nicht nur Text verstehen, sondern auch Bilder, Ton und teilweise Videos. Sie können zum Beispiel ein Foto ansehen und beschreiben, was darauf zu sehen ist.
Unternehmen nutzen multimodale LLMs zum Beispiel, um Rechnungen aus Fotos auszulesen, Screenshots bei technischen Problemen zu analysieren oder Meetings als Text zusammenzufassen. Das spart Zeit bei Aufgaben, die früher von Hand erledigt werden mussten.
Bekannte multimodale Modelle sind GPT-4o von OpenAI, Gemini von Google und Claude von Anthropic. Sie unterscheiden sich darin, welche Medientypen sie verarbeiten können und wie genau die Ergebnisse sind.
Multimodale LLMs sind eine Weiterentwicklung reiner Text-KI. Sie können mit verschiedenen Medientypen arbeiten und eröffnen dadurch neue Einsatzmöglichkeiten im Arbeitsalltag. Achten Sie beim Einsatz auf den Datenschutz, da Bilder und Audiodaten sensible Informationen enthalten können.
Die bereitgestellten Informationen dienen ausschließlich der allgemeinen Orientierung. Für Richtigkeit, Vollständigkeit und Aktualität wird keine Gewähr übernommen. Die Inhalte sind nicht rechtsverbindlich und nicht Bestandteil einer Leistungsbeschreibung.