Zum Inhalt springen

SLM (Small Language Model)

Zuletzt aktualisiert: 18.05.2026Autor: Redaktion DomainProvider.de · Lesezeit: 5 Min.

Ein Small Language Model (SLM) ist ein kompaktes KI-Sprachmodell, das im Vergleich zu grossen Sprachmodellen (LLMs) mit deutlich weniger Parametern auskommt und dadurch auf Endgeräten, kleinen Servern oder in eingeschränkten Rechenumgebungen betrieben werden kann. Bekannte Beispiele sind Microsofts Phi-Reihe, Googles Gemma-Modelle oder kleinere Varianten von Mistral und Llama. SLMs bieten Vorteile bei Datenschutz, Geschwindigkeit und Kosten – bei einem bewussten Trade-off gegenüber dem breiteren Wissen und der höheren Flexibilität grosser LLMs.

Was unterscheidet ein SLM von einem LLM?

Die Grenze zwischen SLM und LLM ist nicht exakt definiert, doch in der Praxis haben sich Richtwerte etabliert. Modelle mit weniger als etwa 10 Milliarden Parametern werden häufig als Small Language Models eingestuft, während LLMs typischerweise 70 Milliarden Parameter und mehr umfassen.

Der wesentliche Unterschied liegt nicht allein in der Grösse, sondern in den daraus resultierenden Eigenschaften:

Rechenanforderungen
SLMs benötigen weniger GPU-Speicher und können auf Consumer-Hardware, Laptops oder sogar Smartphones ausgeführt werden. LLMs erfordern in der Regel leistungsstarke Serverinfrastruktur mit mehreren GPUs.
Antwortgeschwindigkeit
Durch die geringere Modellgrösse erzeugen SLMs Antworten schneller, da weniger Berechnungen pro Token erforderlich sind.
Wissensumfang
LLMs verfügen über ein breiteres Allgemeinwissen und können komplexere Zusammenhänge herstellen. SLMs sind in Spezialgebieten oft überraschend leistungsfähig, zeigen aber bei breiten Wissensfragen eher Schwächen.
Kosten
SLMs verursachen deutlich geringere Betriebskosten, da weniger Rechenleistung und Energie benötigt werden.

Welche SLMs gibt es?

Die Entwicklung kompakter Sprachmodelle hat in den letzten Jahren stark an Dynamik gewonnen. Zu den bekanntesten SLMs gehören:

  • Microsoft Phi-3 / Phi-3.5: Modelle mit 3,8 Milliarden Parametern, die trotz ihrer Grösse bei Benchmarks oft mit deutlich grösseren Modellen mithalten können. Phi setzt auf hochwertige, kuratierte Trainingsdaten.
  • Google Gemma 2: Open-Source-Modelle in Varianten mit 2B und 9B Parametern, optimiert für Effizienz und gute Leistung auf Consumer-Hardware.
  • Mistral 7B: Ein 7-Milliarden-Parameter-Modell, das bei seiner Veröffentlichung grössere Modelle in vielen Benchmarks übertraf. Von der französischen Firma Mistral AI entwickelt.
  • Meta Llama 3.2 (1B / 3B): Die kleinsten Varianten der Llama-Familie, speziell für den Einsatz auf mobilen Geräten und Edge-Szenarien konzipiert.
  • Qwen 2.5 (0.5B bis 7B): Modelle von Alibaba Cloud in verschiedenen Grössen, die mehrere Sprachen unterstützen.

Wann ist ein SLM die bessere Wahl?

SLMs eignen sich besonders dann, wenn bestimmte Rahmenbedingungen den Einsatz grosser Cloud-basierter Modelle ausschliessen oder unwirtschaftlich machen:

  • Datenschutz und Compliance: Wenn sensible Daten das Unternehmen nicht verlassen dürfen (z. B. aus DSGVO-Gründen), ermöglicht ein lokal betriebenes SLM die Textverarbeitung ohne Datenübermittlung an externe Server.
  • Offline-Fähigkeit: In Umgebungen ohne stabile Internetverbindung – etwa auf Baustellen, in Fahrzeugen oder abgelegenen Standorten – kann ein SLM direkt auf dem Gerät arbeiten.
  • Spezialaufgaben: Für klar eingegrenzte Aufgaben wie die Klassifikation von Support-Tickets, die Extraktion von Rechnungsdaten oder die Prüfung von Texten reicht ein spezialisiertes SLM oft aus.
  • Latenzanforderungen: Wenn Antworten in Echtzeit benötigt werden (z. B. in Chatbots oder Eingabehilfen), bietet ein lokales SLM kürzere Antwortzeiten als ein Cloud-Aufruf.
  • Kostenoptimierung: Bei hohem Anfragevolumen können die API-Kosten für grosse LLMs erheblich sein. Ein selbst betriebenes SLM verursacht nach der Einrichtung nur noch Infrastrukturkosten.

Wie erreichen SLMs ihre Leistungsfähigkeit?

Kompakte Modelle nutzen verschiedene Techniken, um trotz geringerer Parameterzahl gute Ergebnisse zu erzielen:

Kuratierte Trainingsdaten
Statt möglichst viele Daten zu verwenden, setzen SLMs auf sorgfältig ausgewählte, hochwertige Texte. Microsofts Phi-Modelle wurden beispielsweise teilweise mit synthetisch erzeugten Lehrbuch-Texten trainiert.
Destillation
Ein grosses Modell (Teacher) erzeugt Antworten, mit denen ein kleineres Modell (Student) trainiert wird. Das SLM lernt so das Verhalten des LLM nach, ohne dessen Grösse zu benötigen.
Quantisierung
Die Gewichte des Modells werden von 32-Bit- oder 16-Bit-Gleitkommazahlen auf 8-Bit- oder 4-Bit-Ganzzahlen reduziert. Das verkleinert den Speicherbedarf erheblich bei minimalem Qualitätsverlust.
Architektur-Optimierungen
Techniken wie Grouped-Query Attention oder Mixture-of-Experts (MoE) ermöglichen es, mehr Leistung aus weniger Parametern herauszuholen.

SLMs im Unternehmenseinsatz

Für Unternehmen bieten SLMs einen pragmatischen Einstieg in die Nutzung von KI-Sprachmodellen. Die Hürden sind niedriger als bei LLMs: Die Hardware-Anforderungen sind geringer, die Betriebskosten überschaubar und die Datenschutzfragen leichter zu klären.

Typische Einsatzszenarien in Unternehmen:

  • Automatische Zusammenfassung interner Dokumente und Protokolle
  • Klassifikation und Weiterleitung eingehender Kundenanfragen
  • Unterstützung bei der Texterstellung (Entwürfe, Vorlagen, Textbausteine)
  • Extraktion von Informationen aus Rechnungen, Verträgen oder Formularen
  • Integrierte Suchfunktionen über Wissensdatenbanken

Der Betrieb kann auf einem eigenen Server, in einem Docker-Container oder über spezialisierte Plattformen wie Ollama oder LM Studio erfolgen.

Fazit

Small Language Models schliessen die Lücke zwischen den Möglichkeiten grosser KI-Sprachmodelle und den praktischen Anforderungen an Datenschutz, Kosten und Infrastruktur. Sie bieten eine leistungsfähige Alternative für Unternehmen, die KI-gestützte Textverarbeitung lokal und kosteneffizient einsetzen möchten – ohne auf externe Cloud-Dienste angewiesen zu sein. Die Entscheidung zwischen SLM und LLM hängt vom konkreten Anwendungsfall ab: Für breites Allgemeinwissen und komplexe Aufgaben bleiben LLMs überlegen, für eingegrenzte, wiederkehrende Aufgaben mit Datenschutzanforderungen sind SLMs oft die bessere Wahl.