Zum Hauptinhalt springen

Spracherkennungsanbieter in Hedy

Wählen Sie zwischen privater Transkription auf dem Gerät oder cloudbasierten Spracherkennungsdiensten, um Ihre Anforderungen optimal zu erfüllen.

Vor über einem Monat aktualisiert

Was sind Spracherkennungsanbieter?

Hedy unterstützt mehrere Spracherkennungsoptionen und bietet Ihnen die Flexibilität, zwischen vollständiger Privatsphäre durch lokale Verarbeitung oder cloudbasierten Alternativen zu wählen. Sie können den Anbieter jederzeit je nach aktuellem Bedarf wechseln – verwenden Sie lokal für Offline-Sitzungen und Cloud-Dienste, wenn Sie deren spezielle Funktionen bevorzugen.

Erste Schritte

  1. Öffnen Sie die Hedy-App

  2. Navigieren Sie zu Einstellungen (tippen Sie auf Ihr Profil-Symbol)

  3. Scrollen Sie zu "Speech Recognition Options"

  4. Wählen Sie Ihren bevorzugten Anbieter aus dem Dropdown-Menü

  5. Konfigurieren Sie bei Bedarf anbieterspezifische Einstellungen

  6. Ihre Auswahl wird in der nächsten Aufnahmesitzung wirksam

Verfügbare Anbieter

Hedy bietet drei Spracherkennungsoptionen, jeweils mit einzigartigen Eigenschaften:

  • Lokale Spracherkennung: Standardoption – 100 % privat, funktioniert offline, keine Nutzungskosten. Ihr Audio verlässt Ihr Gerät niemals.

  • Deepgram: Cloudbasierter Dienst mit Echtzeit-Streaming und intelligenten Formatierungsfunktionen. Erfordert Ihren eigenen API-Schlüssel.

  • OpenAI: Cloud-Transkription mit Sprachaktivitätserkennung und automatischer Spracherkennung. Erfordert Ihren eigenen API-Schlüssel.

Lokale Spracherkennung konfigurieren

Bei der lokalen Spracherkennung können Sie für Ihr Gerät und Ihre Bedürfnisse optimieren:

Für macOS-Nutzer:

  • Kleines Modell: Schnellste Verarbeitung, empfohlen für Intel-Macs

  • Normales Modell: Ausgewogene Geschwindigkeit und Genauigkeit für die meisten Nutzer

  • Großes Modell: Erweiterte Fähigkeiten für nicht-englische Sprachen (erfordert 1,5-GB-Download)

Für iOS-/Android-Nutzer:

  • Standardmodell: Standardoption, geeignet für die meisten Geräte

  • Großes Modell: Alternative Modelloption (iPhone 12+ oder 2024+ Android empfohlen)

Sprachaktivitätserkennung (VAD):

VAD filtert automatisch Stille und Hintergrundgeräusche, um die Transkriptionsqualität zu verbessern. Diese Funktion ist standardmäßig für die lokale Spracherkennung aktiviert.

  • Aktivieren/Deaktivieren: VAD je nach Aufnahmeumgebung ein- oder ausschalten

  • Empfindlichkeit: Einstellen von "Hohe Empfindlichkeit" (erfasst mehr Sprache, einschließlich leiserer Geräusche) bis "Maximale Filterung" (erfasst nur klare Sprache, filtert mehr Hintergrundgeräusche)

Transkriptionsgeschwindigkeit:

  • Langsamer: Wartet auf vollständige Sätze, bevor angezeigt wird

  • Normal: Ausgewogene Geschwindigkeit und Anzeigezeitpunkt

  • Schneller: Nahezu Echtzeitanzeige mit häufigeren Updates

Cloud-Anbieter einrichten

Deepgram-Einrichtung:

  1. Erstellen Sie ein Konto unter console.deepgram.com

  2. Generieren Sie einen API-Schlüssel in Ihrem Dashboard

  3. Wählen Sie in den Hedy-Einstellungen Deepgram aus dem Dropdown

  4. Fügen Sie Ihren API-Schlüssel ein und tippen Sie auf "Test", um zu prüfen

  5. Wählen Sie Ihr Modell und Ihre Spracheinstellungen

  6. Legen Sie die maximale Sitzungsdauer fest, um Kosten zu kontrollieren

OpenAI-Einrichtung:

  1. Holen Sie Ihren API-Schlüssel von platform.openai.com/api-keys

  2. Wählen Sie in den Hedy-Einstellungen OpenAI aus dem Dropdown

  3. Geben Sie Ihren API-Schlüssel ein und testen Sie die Verbindung

  4. Wählen Sie Ihr bevorzugtes Modell

  5. Aktivieren Sie optional die Sprachaktivitätserkennung mit anpassbarer Empfindlichkeit

  6. Legen Sie die maximale Sitzungsdauer zur Kostenkontrolle fest

Den richtigen Anbieter wählen

Wählen Sie anhand Ihrer Prioritäten und Ihres Anwendungsfalls:

  • Privatsphäre zuerst: Lokale Spracherkennung verwenden – Audio verlässt Ihr Gerät niemals

  • Offline-Nutzung: Lokale Spracherkennung funktioniert ohne Internet

  • Cloud-Funktionen: Deepgram und OpenAI bieten cloudbasierte Verarbeitung

  • Spracherkennung: Sowohl Lokal als auch OpenAI beinhalten Sprachaktivitätserkennung

  • Intelligente Formatierung: Deepgram bietet automatische Formatierungsoptionen

  • Keine Nutzungskosten: Lokale Spracherkennung hat keine Minutengebühren

Kostenüberlegungen

Verstehen Sie die Kostenimplikationen jedes Anbieters:

  • Lokale Spracherkennung: Kostenlos – keine Nutzungsgebühren

  • Deepgram: Preis pro Minute (aktuelle Preise im Dashboard prüfen)

  • OpenAI: Nutzungsbasierte Preise (aktuelle Preise auf der Plattform prüfen)

Die Einstellung für die maximale Sitzungsdauer hilft, versehentliche Aufnahmen über Nacht zu verhindern und API-Kosten zu steuern.

Best Practices

  • Beginnen Sie mit lokaler Spracherkennung, um sich mit der Funktion vertraut zu machen

  • Testen Sie Cloud-Anbieter mit kurzen Aufnahmen vor wichtigen Sitzungen

  • Überwachen Sie Ihre API-Nutzung in den Anbieter-Dashboards, um Kosten zu verfolgen

  • Verwenden Sie je nach Bedarf unterschiedliche Anbieter für verschiedene Szenarien

  • Wechseln Sie auf lokal, wenn Sie reisen oder in Regionen mit begrenztem Internet sind

  • Legen Sie angemessene maximale Sitzungsdauern fest (60–120 Minuten für typische Meetings)

Fehlerbehebung

API-Schlüssel funktioniert nicht

  • Stellen Sie sicher, dass Sie den vollständigen Schlüssel ohne Leerzeichen kopiert haben

  • Vergewissern Sie sich, dass Ihr Konto über verfügbare Guthaben verfügt

  • Prüfen Sie, ob der API-Schlüssel die erforderlichen Berechtigungen hat

  • Versuchen Sie, den Schlüssel im Anbieter-Dashboard neu zu generieren

Verbindungstest fehlgeschlagen

  • Prüfen Sie die Stabilität Ihrer Internetverbindung

  • Vergewissern Sie sich, dass die Firewall WebSocket-Verbindungen nicht blockiert

  • Stellen Sie sicher, dass der API-Schlüssel aktiv ist und genügend Kontingent hat

  • Warten Sie einen Moment und versuchen Sie es erneut (vorübergehende Serviceprobleme)

Transkriptionsprobleme

  • Für Lokal: Versuchen Sie eine andere Modellgröße

  • Für Cloud: Prüfen Sie die Stabilität der Internetverbindung

  • Stellen Sie sicher, dass das Mikrofon korrekt konfiguriert ist

  • Minimieren Sie Hintergrundgeräusche während der Aufnahme

Einstellungen werden nicht gespeichert

  • Warten Sie, bis die Anzeige "Gespeichert" erscheint

  • Wechseln Sie während des Speicherns nicht den Bildschirm

  • Starten Sie die App neu, wenn die Probleme bestehen bleiben

  • Stellen Sie sicher, dass Sie eine stabile Internetverbindung haben

Ihre API-Schlüssel werden sicher im verschlüsselten Schlüsselbund Ihres Geräts gespeichert und niemals an Hedy-Server übertragen. Für maximale Privatsphäre bei sensiblen Gesprächen verwenden Sie immer die lokale Spracherkennung.

Hat dies deine Frage beantwortet?