Convayla
Wissensbasis-Dateiformate: Was Ihre KI wirklich versteht
Zurück zum Magazin
technik

Wissensbasis-Dateiformate: Was Ihre KI wirklich versteht

Convayla Team7 Min. Lesezeit
📑 Inhaltsverzeichnis

📂 Warum das Dateiformat über die Qualität Ihres Agenten entscheidet

Ein KI Voice-Chat-Agent ist nur so gut wie die Wissensbasis, auf der er aufbaut. Und die Wissensbasis ist nur so gut wie die Dokumente, die Sie ihr übergeben. Das klingt trivial – ist es aber nicht. Denn nicht jedes Dateiformat liefert dem Agenten die gleiche Qualität an verwertbarer Information.

Ein schlecht strukturiertes Word-Dokument mit verschachtelten Tabellen, Fußnoten und formatierten Sondereichen kann dazu führen, dass der Agent ungenaue oder lückenhafte Antworten gibt – obwohl alle relevanten Informationen theoretisch im Dokument stecken. Die Frage ist nicht nur was Sie hochladen, sondern wie das Dokument aufgebaut ist.

In diesem Leitfaden erfahren Sie, welche der 12 unterstützten Dateiformate für welchen Zweck am besten geeignet sind, warum Markdown die erste Wahl für KI-Verarbeitung ist, und wie Sie Ihre bestehenden Dokumente mit wenigen Handgriffen optimieren.

Person am Laptop, ordnet strukturierte Dokumente für eine digitale Wissensbasis, helles modernes Büro

Wie unser Leitfaden zum Aufbau einer Wissensbasis erklärt, ist die Struktur der Dokumente mindestens genauso wichtig wie ihr Inhalt. Was dort auf konzeptueller Ebene beschrieben wird, konkretisieren wir hier auf Dateiformat-Ebene.

📋 Alle 12 unterstützten Formate im Überblick

Convayla unterstützt derzeit 12 Dateiformate für den Import in die Wissensbasis. Jedes Format eignet sich für bestimmte Inhaltstypen besser oder schlechter:

Format Ideal für Stärke Schwäche
Markdown (.md)FAQ, Anleitungen, ProzesseMaximale KI-Präzision, verlustfreie StrukturMuss manuell erstellt werden
Plaintext (.txt)Kurze Infos, GlossareEinfach, keine Formatierungs-ArtefakteKeine Hierarchie-Information
HTML (.html)Website-Inhalte, bestehende FAQ-SeitenStruktur durch Tags erhaltenOverhead durch CSS/Scripts wenn nicht bereinigt
PDF (.pdf)Offizielle Dokumente, BroschürenÜberall verfügbarLayout-PDFs oft schlecht extrahierbar
Word (.docx)Bestehende Firmen-DokumenteWeite VerbreitungKomplex formatierte Docs verlieren Struktur
Excel (.xlsx)Preislisten, Produktkataloge, TabellenStrukturierte Daten gut lesbarFormeln und Zellenreferenzen unbrauchbar
CSV (.csv)Datentabellen, ProduktlistenSauber, strukturiert, keine FormatierungKein Kontext, nur Rohdaten
JSON (.json)Strukturierte Konfigurationen, API-DatenHierarchisch, maschinenlesbarSchwer wartbar für nicht-technische Teams
XML (.xml)Produktkataloge, strukturierte DatenHierarchie erhaltenVerbose, hoher Overhead
JPG (.jpg)Schaubilder, Infografiken mit TextVisuelle Inhalte einbindbarGedruckter Text oft unzuverlässig erkannt
PNG (.png)Screenshots, DiagrammeVerlustfreie QualitätWie JPG: OCR-Abhängigkeit
Praxisbeispiel: Ein mittelständisches Beratungsunternehmen lädt seine Leistungsbeschreibung als 40-seitiges PDF hoch – der Agent gibt zunächst unpräzise Antworten auf Detailfragen. Nach Konvertierung derselben Inhalte in eine strukturierte Markdown-Datei mit klaren Abschnittstiteln verbessert sich die Treffsicherheit der Antworten spürbar. Der Aufwand für die Konvertierung: ca. 2 Stunden. Das Ergebnis: ein Agent, der Kundenfragen zu spezifischen Leistungspaketen präzise beantwortet.

✏️ Markdown: Das ideale Format für KI-Verarbeitung

Von allen 12 Formaten ist Markdown das Format, das KI-Systeme am zuverlässigsten verarbeiten. Warum? Weil Markdown Struktur und Inhalt in einem menschenlesbaren, gleichzeitig maschinenlesbaren Format kombiniert – ohne den Overhead von XML oder die Layout-Abhängigkeiten von PDF und Word.

Was Markdown auszeichnet:

  • Klare Hierarchie durch Überschriften (# H1, ## H2, ### H3) – der Agent versteht, welche Informationen übergeordnet sind und welche Details sind
  • Keine versteckten Formatierungsebenen – was Sie sehen, ist was der Agent liest
  • Strukturierte Listen für Schritt-für-Schritt-Anleitungen, Voraussetzungen, Optionen
  • Tabellen für Vergleiche und strukturierte Daten
  • Kein Rauschen – kein CSS, keine Metadaten, kein Header/Footer

Ein FAQ-Dokument in Markdown hat eine typische Struktur wie diese:

## Öffnungszeiten

**Wann haben Sie geöffnet?**
Montag bis Freitag, 9–18 Uhr. Samstags nach Vereinbarung.

**Wie kann ich einen Termin buchen?**
Per Telefon unter 030-XXXX oder über unser Online-Formular.

## Preise

**Was kostet eine Erstberatung?**
Die Erstberatung ist kostenlos und dauert ca. 30 Minuten.

Dieser Aufbau signalisiert dem Agenten exakt, welche Frage zu welcher Antwort gehört – und in welchem thematischen Kontext sie steht. Das ist schwer zu übertreffen.

Strukturierte Markdown-Datei auf einem modernen Computermonitor, klarer Text mit Überschriften und Listen, professionelles Büro-Setting

Wie unser Leitfaden zu System-Prompts zeigt, gilt dasselbe Prinzip für alle Texte, die ein KI-Agent verarbeiten soll: Struktur schlägt Masse. Ein gut strukturiertes 2-seitiges Markdown-Dokument liefert oft bessere Ergebnisse als ein 20-seitiges Word-Dokument ohne klare Gliederung.

⚖️ Was funktioniert gut – und was kostet Präzision

Nicht jedes Format leistet dasselbe. Die folgende Übersicht zeigt, wann ein Format gut funktioniert und wann Sie mit Einschränkungen rechnen müssen:

SzenarioEmpfohlenes FormatVermeiden Sie
FAQ-Katalog erstellenMarkdown (.md)PDF mit Layout, Word mit Spalten
Bestehende Broschüre einbindenPDF (fließendes Layout)Mehrspaltige Layout-PDFs
Produktkatalog mit PreisenCSV oder Excel (einfache Tabelle)Excel mit Formeln, Pivot-Tabellen
Ablauf / Prozess beschreibenMarkdown mit nummerierten ListenWord mit eingebetteten Visio-Grafiken
Website-FAQ einbindenHTML (bereinigt) oder direkt als MarkdownVollständiger HTML-Export mit CSS/JS
Rechtliche Hinweise / AGBTXT oder MarkdownPDF mit Fußnoten und Querverweisen
Schaubilder erklärenPNG + Textdokument als ErgänzungNur Bild ohne erläuternden Text

Besondere Vorsicht gilt bei gescannten PDFs: Wenn ein PDF aus eingescannten Seiten ohne Textebene besteht, kann der Inhalt nicht zuverlässig verarbeitet werden. Hier ist entweder eine OCR-Aufbereitung vor dem Upload nötig – oder eine direkte Übertragung des Inhalts in eine Markdown-Datei sinnvoller.

🛠️ 5 Tipps zur Strukturierung Ihrer Wissensbasis-Dateien

Unabhängig vom Dateiformat gilt: Eine gut strukturierte Datei liefert einem KI-Agenten konsistentere Antworten als eine schlecht strukturierte. Diese fünf Prinzipien helfen Ihnen, Ihre Dokumente agent-tauglich zu machen:

1. Themen in separate Dateien aufteilen
Statt einer riesigen "Alles-über-uns.docx" empfehlen sich mehrere fokussierte Dokumente: öffnungszeiten.md, preisliste.csv, leistungen.md, anfahrt.txt. Kleinere, fokussierte Dokumente ermöglichen präzisere Antworten zu konkreten Fragen.

2. Überschriften als Leitfaden nutzen
Jeder thematische Block sollte eine klare Überschrift haben. Für Markdown: ## für Hauptthemen, ### für Unterthemen. Für Word-Dokumente: die eingebauten Überschriften-Stile (Überschrift 1, 2, 3) statt manuell formatiertem Fetttext.

3. Redundanz vermeiden
Wenn dieselbe Information in zwei Dateien unterschiedlich formuliert ist, kann der Agent widersprüchliche Antworten geben. Pflegen Sie eine "Single Source of Truth" pro Thema.

4. Datum und Gültigkeit kennzeichnen
Fügen Sie in zeitkritische Dokumente eine kurze Kennzeichnung ein: "Stand: Mai 2026" oder "Gültig bis: Dezember 2026". Das hilft beim Wissensmanagement und signalisiert dem Agenten den Kontext.

5. Regelmäßig aktualisieren
Eine Wissensbasis, die aus dem Jahr 2024 stammt und nie aktualisiert wurde, ist eine Fehlerquelle. Planen Sie mindestens quartalsweise eine Durchsicht ein – besonders bei Preisen, Öffnungszeiten und Leistungsangeboten.

❓ Häufig gestellte Fragen

Muss ich bestehende Dokumente komplett neu erstellen, um Markdown zu nutzen?

Nein. Sie können bestehende Word- oder PDF-Dokumente zunächst unverändert hochladen und testen, wie gut der Agent damit antwortet. Für Dokumente, bei denen die Qualität nicht ausreicht, lohnt es sich, die relevanten Abschnitte in eine einfache Markdown-Datei zu übertragen. Viele Textverarbeitungsprogramme und Tools können Word-Dokumente auch direkt als Markdown exportieren.

Wie groß darf eine einzelne Wissensbasis-Datei sein?

Technisch gesehen gibt es keine strenge Obergrenze – praktisch empfiehlt sich eine Beschränkung auf das Wesentliche. Sehr lange Dokumente mit vielen Themen können dazu führen, dass der Agent bei spezifischen Fragen weniger präzise antwortet, weil er die relevante Information im Rauschen suchen muss. Faustregel: Wenn ein Dokument mehr als 15–20 thematisch unterschiedliche Abschnitte enthält, ist eine Aufteilung sinnvoll.

Kann ich JPG- und PNG-Dateien für wichtige Informationen nutzen?

Grundsätzlich ja – aber mit Einschränkungen. Bilder werden per Texterkennung verarbeitet. Das funktioniert gut bei klar lesbarem, gedrucktem Text in hoher Auflösung. Handschriftliche Notizen, kleine Beschriftungen in Diagrammen oder komplex verschachtelte Infografiken sind deutlich fehleranfälliger. Empfehlung: Nutzen Sie Bilder als Ergänzung zu Textdokumenten, nicht als alleinige Informationsquelle.

Welches Format empfehlen Sie für eine Preisliste mit vielen Varianten?

Für einfache Preislisten ist eine CSV- oder Excel-Datei (ohne Formeln) gut geeignet. Für komplexere Preisstrukturen mit Erklärungen und Bedingungen ist ein Markdown-Dokument oft zuverlässiger – weil der Agent die Erläuterungen direkt im Kontext der Preise sieht, nicht in einer separaten Zelle, die er mit der richtigen Zeile verknüpfen muss.

Testen Sie Convayla kostenlos – und erleben Sie, wie eine gut strukturierte Wissensbasis Ihren Agenten vom ersten Tag an präzise macht.

📖 Lesetipp: Wissensbasis richtig aufbauen: So trainieren Sie Ihren Voice Agent