Altavoces inteligentes

Altavoces inteligentes en casa

La clave del funcionamiento de los altavoces inteligentes es la tecnología de reconocimiento de voz que se utiliza. Mediante el reconocimiento de voz, las bocinas inteligentes pueden entender lo que se dice y actuar en consecuencia.

Los distintos fabricantes utilizan diferentes sistemas de reconocimiento de voz: Apple utiliza su asistente de reconocimiento de voz Siri, Microsoft utiliza Cortana, la serie Google Home y los altavoces Amazon Echo utilizan sus propios esquemas de reconocimiento de voz para sus altavoces inteligentes.

Aunque cada sistema de bocinas inteligentes es ligeramente diferente, al ver cómo funcionan, es posible generalizar ligeramente para ver los conceptos básicos.

Normalmente, el altavoz inteligente escucha toda la voz y espera una “palabra de activación”.

Suele haber una palabra de activación por defecto: en el caso de Amazon, el sistema Alexa espera la palabra Alexa, aunque se puede cambiar. Otros sistemas tienen otras palabras.

Una vez que el sistema escucha esta palabra se activa, graba lo que se dice y lo envía por Internet al área principal de procesamiento o servicio de reconocimiento de voz para el sistema: para el sistema de Amazon, el archivo de voz se envía al AVS (Alexa Voice Services) de Amazon en la nube.

El servicio de reconocimiento de voz descifra el discurso y envía una respuesta al altavoz inteligente.

El servicio de reconocimiento de voz utiliza una serie de algoritmos para que el sistema se familiarice con el uso que haces de las palabras y los patrones individuales del habla. De este modo, aprende cómo hablas para que el sistema pueda ofrecerte un mejor servicio.

De hecho, normalmente cuando se configura un nuevo sistema de altavoz inteligente será necesario llevar a cabo un proceso de aprendizaje del mismo.

Proceso de reconocimiento del habla del altavoz inteligente

Altavoces inteligentes

La tecnología de reconocimiento del habla se ha desarrollado enormemente en los últimos años. Hace sólo unos años, el reconocimiento del habla era un fenómeno de laboratorio, pero ahora se utiliza ampliamente en muchos ámbitos, incluidos los altavoces inteligentes.

Aunque todos escuchamos a otros hablar y realizamos el reconocimiento del habla nosotros mismos, es un proceso muy complicado cuando lo realizan los ordenadores.

Los ordenadores están programados para reconocer secciones de palabras, conocidas como “teléfonos”. A continuación, éstos se enlazan con otros teléfonos, de modo que se construyen “fonemas” que son, en realidad, diferentes palabras.

Aunque hay variaciones sobre este tema básico, el concepto básico es el mismo para todos los sistemas de reconocimiento del habla.

Leer también: La música te hace más feliz