granite-speech-3.3-8b — IBM KI-Sprachmodell-Leitfaden** Nehmen Sie Audio mit einer Mindestabtastrate von 16 kHz und geringem Hintergrundrauschen auf oder verwenden Sie entsprechende Quellen. Selbst das leistungsfähigste ASR-Modell verliert bei verrauschtem oder niedrig bitratigem Audio erheblich an Qualität. ### 2. 🔁 Die zwei Phasen als separate Workflow-Stufen behandeln Gestalten Sie Ihren CRAISEE-Workflow so, dass er die Zwei-Phasen-Architektur explizit berücksichtigt. Verwenden Sie die **Ausgabe der ersten Phase (Transkription)** als Kontrollpunkt – überprüfen Sie sie, bevor Sie sie in die zweite Phase einspeisen. So verhindern Sie, dass sich Fehler bis zur endgültigen Ausgabe fortpflanzen. ### 3. 🌐 Spracheinstellungen präzise abgleichen Geben Sie bei mehrsprachiger ASR oder AST stets die korrekte Quellsprache an. Revision 3.3.2 unterstützt Englisch, Französisch, Deutsch, Spanisch und Portugiesisch – versuchen Sie nicht, nicht unterstützte Sprachen zu transkribieren, da die Ergebnisse unzuverlässig sein werden. ### 4. 📝 Die zweite Phase für kreative Verbesserungen nutzen Die eigentliche Stärke von granite-speech-3.3-8b auf CRAISEE liegt in der Kombination von Transkription mit nachgelagerter Sprachmodell-Verarbeitung. Nutzen Sie die zweite Phase nach der Transkription, um gesprochene Inhalte **neu zu formatieren, zusammenzufassen, den Ton anzupassen oder Kernpunkte zu extrahieren** – und verwandeln Sie so rohes Audio in polierten kreativen oder professionellen Text. ### 5. 🧪 Eigene Domäne benchmarken IBM Granites veröffentlichte Evaluierungen konzentrieren sich auf standardisierte öffentliche Benchmarks. Wenn Ihr Anwendungsfall domänenspezifisches Vokabular umfasst (z. B. medizinisch, rechtlich, technisch), führen Sie zunächst einen kleinen Testlauf durch, um die Genauigkeit zu validieren, bevor Sie sich auf CRAISEE auf einen groß angelegten Workflow festlegen. --- ## Vergleich ### granite-speech-3.3-8b vs. andere Sprachmodelle auf CRAISEE | Merkmal | granite-speech-3.3-8b | Typische Einphasen-ASR-Modelle | Große multimodale Modelle (>8B) | |---|---|---|---| | **Architektur** | Zwei-Phasen (ASR + LLM) | Integrierter Einphasen-Ansatz | Ein- oder mehrphasig | | **Parametergröße** | ~8B (unter 8B-Klasse) | Variiert (oft kleiner) | 13B–70B+ | | **Mehrsprachige Unterstützung** | 5 Sprachen (EN, FR, DE, ES, PT) | Oft nur Englisch | Breitere Sprachabdeckung | | **AST-Unterstützung** | ✅ Ja (X→EN und EN→X) | ❌ Oft nur Transkription | ✅ Ja | | **Nachgelagertes LLM-Integration** | ✅ Integriert (Granite 3.3-8b) | ❌ Separates Modell erforderlich | ✅ Oft integriert | | **Recheneffizienz** | ⭐⭐⭐⭐ Hoch | ⭐⭐⭐⭐⭐ Sehr hoch | ⭐⭐ Geringer | | **Unternehmens-Zuverlässigkeit** | ⭐⭐⭐⭐⭐ IBM-Qualität | Variiert | Variiert | | **Optimal für** | Mehrsprachige ASR/AST + LLM-Workflows | Schnelle, schlanke Transkription | Komplexes multimodales Reasoning | ### Wesentliche Stärken gegenüber Alternativen - **vs. schlanke ASR-only-Modelle:** granite-speech-3.3-8b kombiniert einzigartig Transkription mit Zugang zu einem vollständig instruction-tuned Sprachmodell und ermöglicht so eine reichhaltigere Nachverarbeitung, die reine ASR-Modelle nicht bieten können. - **vs. große multimodale Modelle:** granite-speech-3.3-8b liefert wettbewerbsfähige ASR-Genauigkeit bei einem Bruchteil der Rechenkosten und ist damit die pragmatische Wahl für sprachfokussierte Workflows, die kein vollständiges multimodales Reasoning erfordern. - **vs. andere Sprachmodelle unter 8B:** IBMs Evaluierungsdaten zeigen, dass granite-speech-3.3-8b auf standardisierten englischen ASR-Benchmarks wettbewerbsfähig abschneidet und gleichzeitig mehrsprachige AST unterstützt – eine Kombination, die in der unter-8B-Klasse selten ist. > **Klare Aussage:** „Für CRAISEE-Nutzer, die zuverlässige mehrsprachige Sprachtranskription und -übersetzung mit integrierter Sprachmodell-Nachverarbeitung benötigen, stellt granite-speech-3.3-8b die vollständigste verfügbare Lösung in der Parameterkategorie unter 8B dar.„ --- *Zuletzt aktualisiert basierend auf Modellrevision 3.3.2. Aktuelle Modell-Updates finden Sie in der CRAISEE-Modell-Bibliothek oder im [IBM Granite HuggingFace-Repository](https://huggingface.co/ibm-granite/granite-speech-3.3-8b).* · CRAISEE