Embedded und Offline: Sprackerkennung und Sprachsynthese ohne Mithörer

Dass nicht alle Welt sich schon komplett und ausschließlich auf cloudbasierte Spracherkenner, Sprachsynthesen und NLUs gestürzt hat, zeigt nicht zuletzt die Ankündigung des movi-Moduls für das Arduino Shield. Mit dem kleinen Hardwaremodul sollen ASR und TTS einfach huckepack auf dem Shield laufen, und das für schmales Geld. movi ist dabei nicht das erste Modul seiner Art, so kann man zum Beispiel schon seit längerem mit dem EasyVR Shield 3.0 zumindest eine stark limitierte Spracherkennung integrieren, die sich auf 28 vom User zu definierende Hotwords und ebenfalls 28 definierbare Befehle in sechs verschiedenen Sprachen beschränkt. movi kann dagegn auch ganze Sätze „verstehen“ und per Sprachsynthese antworten. Dabei ist es nicht abhängig von einer bestimmten Stimme – so lange diese Englisch spricht.

Die Vorteile solcher integrierten Lösungen für Spracherkennung, -verarbeitung und –ausgabe liegen auf der Hand: Sie kommen ohne Internetverbindung aus, laufen also immer und überall da, wo Elektrizität in Form auch von Akkus verfügbar ist. Sie speichern keine Informationen auf irgendwelchen Servern und sind daher aus Datenschutz- und Sicherheitsaspekten unschlagbar. Sie benötigen des Weiteren keine teuren Backend-Systeme wie Server und die entsprechende Infrastruktur und sind unabhängig von den Systemen der „großen“ Hersteller wie Google oder Apple – wer weiß denn schließlich, ob Google Voice kostenfrei nutzbar bleiben wird, welche technischen Änderungen Ihre Lösung zum Altmetall werden lassen könnten, oder ob es Siri und Google Voice im Jahr 2020 überhaupt noch geben wird?

Ganz abgesehen von der mangelnden Zukunftssicherheit und teilweise Integrationsfähigkeit einiger Anbieter (Siri) können Embedded-Lösungen weitestgehend frei gestaltet werden. Die einzigen Constraints sind dabei Speicherplatz und Rechenleistung, die am Ende auch die Performance des Embedded-Systems bestimmen.

Daher ist es gerade bei Embedded-Systemen von größter Bedeutung, eine leistungsfähige Software mit der größtmöglichen Kompetenz bei der Entwicklung und Integration zu verbinden. Das SemVox-Team arbeitet bereits seit über 7 Jahren intensiv an und mit Lösungen und Systemen für vom Internet unabhängige Sprachdialogsysteme und Sprachsteuerungslösungen, deren Robustheit und Performance stets aufs Neue zu beeindrucken und überzeugen vermag.

Egal auf welcher Plattform – mit unseren ODP S3-basierten Systemen bringen wir für jede Anwendung das Optimum ein. Aber nicht nur das, denn mit der ODP Workbench und dem kompletten SDK können unsere Kunden selbst an integrierten, hybriden und natürlich auch cloudbasierten Systemen arbeiten. Sprechen Sie uns einfach an, wir haben auch für Sie die perfekte Lösung!