KI Lexikon –

Text-to-Speech-Synthese

Was ist Text-to-Speech-Synthese?

Bei der Text-to-Speech-Synthese (TTS) wird durch ein maschinelles System Text in eine Sprachausgabe umgewandelt. Zum Einsatz kommt Text-to-Speech-Synthese vor allem bei Sprachassistenten oder bei der Ausgabe von Sprache bei elektronischen Systemen.

Wie funktioniert Text-to-Speech-Synthese?

Text-to-Speech-Synthese basiert auf einer NLP-Komponente und einer DSP-Komponente. Die NLP-Komponente analysiert und interpretiert den Text und die DSP (Digital Signal Processing) erzeugt das Sprachsignal.

NLP schafft die Basis

Durch Natural Language Processing wird die gesamte Zeichenkette in einzelne Tokens unterteilt, die entsprechend des Modells analysiert werden. Dadurch werden die Aussprache sowie die Betonung ermittelt. NLP schafft somit die Basis für das Generieren einer natürlich klingenden Lautfolge.

DSP generiert die Laute

Auf Basis des Outputs der NLP-Komponente generiert die DSP-Komponente nun die richtige Lautfolge. Bei der Ausgabe der Sprache unterscheidet man zwei unterschiedliche Ansätze:

  • artikulatorische Synthese: Dabei wird maschinell versucht, die menschliche Sprache zu imitieren.
  • Signalmodellierung: Dabei werden zuvor aufgezeichnete Signale angepasst und miteinander kombiniert.

Einsatzgebiete von Text-to-Speech-Synthese

Durch die gute Entwicklung vor allem der genutzten Technologien, konnte Text-to-Speech-Synthese in der Vergangenheit an Bedeutung gewinnen. Auch in Zukunft wird die Relevanz steigen, um die Interaktion zwischen Menschen und Computersystemen zu optimieren. Folgende Einsatzgebiete für Text-to-Speech-Synthese sind relevant:

  • Barrierefreiheit: Websites und Anwendungen werden für Menschen zugänglich, die nicht lesen können oder eine Sehschwäche haben.
  • Support: First Level Support kann mit Hilfe von Text-to-Speech-Synthese stattfinden.
  • Echtzeit Informationen ausgeben: Durch Sprachausgabe können Kunden z.B. den Liefertermin in Echtzeit erfahren, ohne mit einem Servicemitarbeiter zu sprechen.