Die APIs von Microsofts Project Oxford helfen euch dabei, Bilder zu verarbeiten, Sprache zu erkennen und diese zu deuten. In diesem Blogpost wollen wir uns die Sprach-Erkennung mal genauer anschauen und am Beispiel einer normalen Website (HTML, CSS, JS) verwenden.

 

Voraussetzungen

Zum einen solltet ihr einen aktuellen Browser (in meinem Fall Microsoft Edge) nutzen und unter about:flags das Häkchen bei “Experimentelle JavaScript-Features aktivieren” setzen.

Um die Speech-APIs nutzen zu können, müsst ihr euch auf der ProjectOxford Seite registrieren. Klcikt dazu einfach auf Subscribe auf der Seite des jeweiligen Service. Dann gelangt ihr auf eine Website, auf der ihr die Keys einsehen könnt, die wir später für unsere Webseite brauchen.

 

1

 

2

 

Text to Speech

Wie immer gibt es den ganzen Code am Ende des Posts auch als Download.

In diesem Post möchten wir einen Text an die Website übergeben und diesen dann per API aussprechen lassen. Dazu beginnen wir mit einer simplen HTML Seite:

3

 

Die Seite soll in unserem Beispiel gar nicht spektakulär aussehen, dass überlasse ich euch. Gern könnt ihr eure Ergebnisse in die Kommentare schreiben.

Als nächstes nutzen wir eine Javascript Datei, um uns mit dem Service zu verbinden. Dabei müssen wir 2 Schritte durchlaufen:

  1. Anfordern des Tokens, der uns den API Call erlaubt
  2. Durchführen des API Calls mit dem Schlüssel

In dem Beispielcode müsst ihr jetzt nur noch die clientId und das ClientSecret auf eure Werte von der ProjectOxford Seite setzen und das Ganze sollte funktionieren.

Beispielcode TextToSpeech

Token Request

 

Audio Request

 

Ihr könnt die Sprache der Ausgabe auch entsprechend abändern, indem ihr die Variablen language und nameLanguage modifiziert. Die korrekten Werte dafür findet ihr in der Tabelle am Ende der API Doku des Speech Service.

 

Viel Spaß beim ausprobieren der API! Im nächsten Post drehen wir das Ganze um: Wir nehmen Sprache auf und lassen und Text vom Service zurückgeben.