Was sind Spracherkennungsanbieter?
Hedy unterstützt mehrere Spracherkennungsoptionen und bietet Ihnen die Flexibilität, zwischen vollständiger Privatsphäre durch lokale Verarbeitung oder cloudbasierten Alternativen zu wählen. Sie können den Anbieter jederzeit je nach aktuellem Bedarf wechseln – verwenden Sie lokal für Offline-Sitzungen und Cloud-Dienste, wenn Sie deren spezielle Funktionen bevorzugen.
Erste Schritte
Öffnen Sie die Hedy-App
Navigieren Sie zu Einstellungen (tippen Sie auf Ihr Profil-Symbol)
Scrollen Sie zu "Speech Recognition Options"
Wählen Sie Ihren bevorzugten Anbieter aus dem Dropdown-Menü
Konfigurieren Sie bei Bedarf anbieterspezifische Einstellungen
Ihre Auswahl wird in der nächsten Aufnahmesitzung wirksam
Verfügbare Anbieter
Hedy bietet drei Spracherkennungsoptionen, jeweils mit einzigartigen Eigenschaften:
Lokale Spracherkennung: Standardoption – 100 % privat, funktioniert offline, keine Nutzungskosten. Ihr Audio verlässt Ihr Gerät niemals.
Deepgram: Cloudbasierter Dienst mit Echtzeit-Streaming und intelligenten Formatierungsfunktionen. Erfordert Ihren eigenen API-Schlüssel.
OpenAI: Cloud-Transkription mit Sprachaktivitätserkennung und automatischer Spracherkennung. Erfordert Ihren eigenen API-Schlüssel.
Lokale Spracherkennung konfigurieren
Bei der lokalen Spracherkennung können Sie für Ihr Gerät und Ihre Bedürfnisse optimieren:
Für macOS-Nutzer:
Kleines Modell: Schnellste Verarbeitung, empfohlen für Intel-Macs
Normales Modell: Ausgewogene Geschwindigkeit und Genauigkeit für die meisten Nutzer
Großes Modell: Erweiterte Fähigkeiten für nicht-englische Sprachen (erfordert 1,5-GB-Download)
Für iOS-/Android-Nutzer:
Standardmodell: Standardoption, geeignet für die meisten Geräte
Großes Modell: Alternative Modelloption (iPhone 12+ oder 2024+ Android empfohlen)
Sprachaktivitätserkennung (VAD):
VAD filtert automatisch Stille und Hintergrundgeräusche, um die Transkriptionsqualität zu verbessern. Diese Funktion ist standardmäßig für die lokale Spracherkennung aktiviert.
Aktivieren/Deaktivieren: VAD je nach Aufnahmeumgebung ein- oder ausschalten
Empfindlichkeit: Einstellen von "Hohe Empfindlichkeit" (erfasst mehr Sprache, einschließlich leiserer Geräusche) bis "Maximale Filterung" (erfasst nur klare Sprache, filtert mehr Hintergrundgeräusche)
Transkriptionsgeschwindigkeit:
Langsamer: Wartet auf vollständige Sätze, bevor angezeigt wird
Normal: Ausgewogene Geschwindigkeit und Anzeigezeitpunkt
Schneller: Nahezu Echtzeitanzeige mit häufigeren Updates
Cloud-Anbieter einrichten
Deepgram-Einrichtung:
Erstellen Sie ein Konto unter console.deepgram.com
Generieren Sie einen API-Schlüssel in Ihrem Dashboard
Wählen Sie in den Hedy-Einstellungen Deepgram aus dem Dropdown
Fügen Sie Ihren API-Schlüssel ein und tippen Sie auf "Test", um zu prüfen
Wählen Sie Ihr Modell und Ihre Spracheinstellungen
Legen Sie die maximale Sitzungsdauer fest, um Kosten zu kontrollieren
OpenAI-Einrichtung:
Holen Sie Ihren API-Schlüssel von platform.openai.com/api-keys
Wählen Sie in den Hedy-Einstellungen OpenAI aus dem Dropdown
Geben Sie Ihren API-Schlüssel ein und testen Sie die Verbindung
Wählen Sie Ihr bevorzugtes Modell
Aktivieren Sie optional die Sprachaktivitätserkennung mit anpassbarer Empfindlichkeit
Legen Sie die maximale Sitzungsdauer zur Kostenkontrolle fest
Den richtigen Anbieter wählen
Wählen Sie anhand Ihrer Prioritäten und Ihres Anwendungsfalls:
Privatsphäre zuerst: Lokale Spracherkennung verwenden – Audio verlässt Ihr Gerät niemals
Offline-Nutzung: Lokale Spracherkennung funktioniert ohne Internet
Cloud-Funktionen: Deepgram und OpenAI bieten cloudbasierte Verarbeitung
Spracherkennung: Sowohl Lokal als auch OpenAI beinhalten Sprachaktivitätserkennung
Intelligente Formatierung: Deepgram bietet automatische Formatierungsoptionen
Keine Nutzungskosten: Lokale Spracherkennung hat keine Minutengebühren
Kostenüberlegungen
Verstehen Sie die Kostenimplikationen jedes Anbieters:
Lokale Spracherkennung: Kostenlos – keine Nutzungsgebühren
Deepgram: Preis pro Minute (aktuelle Preise im Dashboard prüfen)
OpenAI: Nutzungsbasierte Preise (aktuelle Preise auf der Plattform prüfen)
Die Einstellung für die maximale Sitzungsdauer hilft, versehentliche Aufnahmen über Nacht zu verhindern und API-Kosten zu steuern.
Best Practices
Beginnen Sie mit lokaler Spracherkennung, um sich mit der Funktion vertraut zu machen
Testen Sie Cloud-Anbieter mit kurzen Aufnahmen vor wichtigen Sitzungen
Überwachen Sie Ihre API-Nutzung in den Anbieter-Dashboards, um Kosten zu verfolgen
Verwenden Sie je nach Bedarf unterschiedliche Anbieter für verschiedene Szenarien
Wechseln Sie auf lokal, wenn Sie reisen oder in Regionen mit begrenztem Internet sind
Legen Sie angemessene maximale Sitzungsdauern fest (60–120 Minuten für typische Meetings)
Fehlerbehebung
API-Schlüssel funktioniert nicht
Stellen Sie sicher, dass Sie den vollständigen Schlüssel ohne Leerzeichen kopiert haben
Vergewissern Sie sich, dass Ihr Konto über verfügbare Guthaben verfügt
Prüfen Sie, ob der API-Schlüssel die erforderlichen Berechtigungen hat
Versuchen Sie, den Schlüssel im Anbieter-Dashboard neu zu generieren
Verbindungstest fehlgeschlagen
Prüfen Sie die Stabilität Ihrer Internetverbindung
Vergewissern Sie sich, dass die Firewall WebSocket-Verbindungen nicht blockiert
Stellen Sie sicher, dass der API-Schlüssel aktiv ist und genügend Kontingent hat
Warten Sie einen Moment und versuchen Sie es erneut (vorübergehende Serviceprobleme)
Transkriptionsprobleme
Für Lokal: Versuchen Sie eine andere Modellgröße
Für Cloud: Prüfen Sie die Stabilität der Internetverbindung
Stellen Sie sicher, dass das Mikrofon korrekt konfiguriert ist
Minimieren Sie Hintergrundgeräusche während der Aufnahme
Einstellungen werden nicht gespeichert
Warten Sie, bis die Anzeige "Gespeichert" erscheint
Wechseln Sie während des Speicherns nicht den Bildschirm
Starten Sie die App neu, wenn die Probleme bestehen bleiben
Stellen Sie sicher, dass Sie eine stabile Internetverbindung haben
Ihre API-Schlüssel werden sicher im verschlüsselten Schlüsselbund Ihres Geräts gespeichert und niemals an Hedy-Server übertragen. Für maximale Privatsphäre bei sensiblen Gesprächen verwenden Sie immer die lokale Spracherkennung.
