Google Assistant, Cortana, Siri y otros sistemas de reconocimiento de voz intentan que cambie radicalmente nuestra manera de interactuar con las máquinas.
En los suburbios de Nueva York cae la noche. Para el hijo de la familia Scott, que acaba de cumplir cinco años, es hora de irse a la cama. Acostado y arropado, entona la misma frase de todos los días, un “Buenas noches, papá; buenas noches, mamá”. Pero antes de cerrar los ojos se despide también del otro miembro de la familia. “Buenas noches, Alexa”, dice dirigiéndose al aire.
No es su hermana ni tampoco su mascota. Alexa es un asistente virtual que vive dentro de Echo, un altavoz diseñado por Amazon y que está instalado en la cocina. Echo no tiene controles visibles más allá de unos simples botones, pero gracias a Alexa, una inteligencia artificial similar al Siri de Apple, es capaz de responder a preguntas formuladas en lenguaje natural y mantener conversaciones sencillas.
Si se le pregunta la distancia que separa el Sol de la Tierra, la sabe. Si se le pide que reproduzca una canción, lo hace. Si se conecta con los dispositivos inteligentes del hogar, como bombillas inteligentes o cerraduras electrónicas, se le puede solicitar a Alexa que cierre la puerta o encienda las luces con solo un comando verbal.
Es, en cierto modo, como el ordenador HAL 9000 de 2001: Una odisea del espacio, pero, afortunadamente, sin las tendencias homicidas.
Alexa es incapaz de escuchar la despedida del niño desde su cuarto, pero para el más pequeño de la casa no es un problema. Para él, incluso aunque no responda, Alexa es otra persona más que vive bajo el mismo techo. Una con una personalidad un tanto diferente a la de sus padres, sí, ya que a veces parece no entenderle del todo bien, sí, pero no por ello menos real.
Para esa generación que empieza ahora a hablar o que da sus primeros pasos en el mundo, crecer rodeados de voces digitales dispuestas a responder a cualquier pregunta u obedecer cualquier orden será algo habitual, tan natural como hoy es deslizar un dedo por la pantalla para pasar la página de un documento o disfrutar de un carrusel fotográfico.
“Es un concepto simple pero con un potencial apasionante, capaz de cambiar nuestra relación con la tecnología de forma profunda; más profunda incluso de lo que en su día fue el salto a la interfaz gráfica”, asegura Satya Nadella, CEO de Microsoft, quien cree que en un futuro muy cercano la voz será la forma principal de utilizar un PC o un móvil. Seguiremos pendientes de la pantalla para consumir información, pero la búsqueda y selección del contenido se harán en lenguaje natural.
La compañía ha apostado fuerte en este campo. Cortana, el asistente virtual de Windows 10, se usa ya en el 25 % de las búsquedas que se realizan desde ese sistema operativo. Si se suman las búsquedas realizadas a través de otras plataformas, como Siri, Alexa y Google, el total de búsquedas al mes que se realizan utilizando solo la voz superan ya los 50.000 millones, según cifras de Timothy Tuttle, fundador de MindMeld, una plataforma que ofrece a las empresas la posibilidad de crear interfaces de conversación inteligentes.
La cifra sorprende, no hay duda. Sobre todo si tenemos en cuenta lo imprecisos que pueden llegar a ser los asistentes virtuales actuales. Hay tareas que parecen resolver de forma exquisita. ¿Programar alarmas y temporizadores? Sin problema. Haz la prueba: si utilizas un iPhone o tu teléfono Android tiene un asistente, pídele que te despierte a una determinada hora. Es raro que falle.
En cambio, fracasan estrepitosamente en otros campos. A menudo son incapaces de entender correctamente las instrucciones o hay que usar comandos de voz exactos que acaban con la ilusión de estar hablando en lenguaje natural.
Los asistentes virtuales, en realidad, saben escucharnos muy bien. Gracias a técnicas de aprendizaje automático o de máquinas, la efectividad de los intérpretes de voz ha crecido en los últimos años hasta superar el 98 % en idiomas como el inglés y el español. Hoy es posible realizar una transcripción bastante acertada, en tiempo real, de una conferencia o una emisión en directo. Plataformas como Skype o YouTube aprovechan estas técnicas para ofrecer subtítulos generados de forma automática.
La parte difícil, la clave que hace que pensemos en estos asistentes como en una tecnología aún inmadura, es que muchas veces no son capaces de entender el contexto en el que se hacen las preguntas o se les asigna una tarea. Es un problema complejo; algo en lo que incluso los humanos erramos con frecuencia, pero que se vuelve especialmente frustrante a la hora de tratar con una máquina.
No saben ni siquiera cuándo estamos realmente hablando con ellas o dirigiéndonos a otra persona y mencionando su nombre en la conversación. En la última edición de la Super Bowl, por ejemplo, un anuncio de Google desencadenó una oleada de activaciones en dispositivos Google Home de toda Norteamérica porque el protagonista del anuncio pronunciaba el comando de activación –“Ok, Google”– en voz alta. Lo mismo ha ocurrido en el pasado con anuncios de Alexa o en los hogares donde uno de los miembros de la familia tiene ese mismo nombre.
Un primer paso para conseguir la ilusión de estar hablando con una inteligencia es ofrecer respuestas encadenadas. Ser capaz de entender que la conversación no ha terminado. Siri y Assistant, el nuevo asistente virtual de Google, ofrecen ya este servicio, aunque de forma limitada. Se puede preguntar, por ejemplo, “¿qué película ha ganado el Óscar al mejor director este año?” y, a continuación, tras obtener la respuesta, añadir: “¿Quién era el actor protagonista?”. Los asistentes reconocerán que la segunda pregunta está relacionada con la primera.
“Casi todo el desarrollo histórico de la inteligencia artificial se ha centrado en aprender a reconocer la voz. Es la razón por la que el aprendizaje de máquinas [o automático] ha sido una herramienta tan reverenciada. Es muy buena en esas situaciones. Pero reconocer la voz no nos da una idea de la motivación de las personas, y la motivación es la clave para entender lo que realmente se quiere conseguir al verbalizar una orden o una pregunta”, asegura Rob High, responsable del proyecto Watson de IBM, una plataforma de inteligencia artificial que saltó a la fama en 2011 tras convertirse en el primer ordenador en ganar a concursantes humanos en el concurso de televisión estadounidense Jeopardy!
High cree que Watson es el primer paso hacia la era de computación cognitiva, máquinas que serán capaces de entendernos y podrán incluso adelantarse a nuestras necesidades. “Serán capaces de poner la música que nos gusta según el estado de ánimo que perciban, por ejemplo”, vaticina. Para High, sin embargo, hablar de inteligencia artificial es hablar necesariamente de una inteligencia no humana. “No creo que tenga sentido replicar digitalmente la forma de pensar del cerebro humano. Ya tenemos 8.000 millones de cerebros humanos en este planeta (sic). Tenemos que centrarnos en desarrollar sistemas cognitivos que nos complementen”, asegura.
Todavía queda mucho para llegar al nivel de interacción que nos muestran películas como Her, donde el protagonista se enamora de una inteligencia artificial, pero eso no quiere decir que en su estado actual este tipo de asistentes no sean útiles. Su mercado, de hecho, crecerá durante la próxima década a un ritmo del 34 % anual, hasta alcanzar los 12.000 millones de dólares de facturación, según Global Markets Insights. En solo una década, el 50 % de las interacciones con máquinas podría realizarse a través de la voz. Parte de ese crecimiento vendrá de nuevos smartphones con mejores asistentes o nuevos dispositivos para el hogar.
Google, que presentó su inteligencia artificial conversacional Assistant hace solo un año, ha comenzado a extender su presencia a los terminales Android equipados con la última versión del sistema operativo y Amazon ha llegado a acuerdos con varios fabricantes de electrónica y telefonía para llevar a Alexa a sus productos.
En ambos casos se trata de plataformas de inteligencia artificial que han puesto la mirada, sobre todo, en el hogar. Estos asistentes virtuales podrían acabar convirtiéndose en el mayordomo que necesita la tecnología domótica para convencer al gran público.
Hoy en día es posible automatizar casi todos los elementos del hogar, desde la seguridad a la iluminación, pasando por la limpieza o el control de temperatura, pero cuantos más dispositivos inteligentes se colocan en casa, más engorroso se vuelve controlarlos. Hacen falta varias aplicaciones y tener siempre a mano un teléfono o una tableta como centro de control.
Los asistentes virtuales pueden ser el lubricante que elimine la fricción entre el usuario y los elementos inteligentes del hogar, ya que permiten controlarlos con la voz de manera más natural.
La otra parte de ese crecimiento vendrá también al considerar su aplicación fuera del ámbito personal. Si la voz se convierte en el nuevo método de interacción con la informática y la tecnología –no el único, pero sí el preferido–, estos asistentes también serán comunes en nuestro trabajo.
En vez de pasarnos horas analizando una hoja de Excel, pediremos un resumen de las cifras más significativas. En lugar de navegar por complejos menús, solicitaremos al ordenador que dibuje o diseñe una estructura definiendo sus características físicas. Ninguna de estas tareas se realizarán exclusivamente con voz –la imagen seguirá siendo un medio efectivo para presentar información–, pero la combinación de interfaces táctiles o gráficas con sistemas expertos capaces de entender el lenguaje natural simplificará muchas de las tareas a las que hoy dedicamos horas.
La información médica y el primer diagnóstico son también campos prometedores para este tipo de asistentes. Un estudio de la Universidad de California en San Francisco y de la Universidad de Stanford estima que el 60 % de los adultos que cuentan con un smartphone lo han utilizado en alguna ocasión para buscar información sobre salud, y con la llegada de los asistentes virtuales el número de búsquedas o consultas por voz se ha disparado.
Los asistentes actuales, sin embargo, dejan mucho que desear a la hora de responder a este tipo de preguntas. Trivializan las consultas o no son capaces de ofrecer números de atención médica o de servicios de apoyo psicológico ante frases como “estoy pensando en suicidarme” o “he sido víctima de una violación”. Según comenta Eleni Linos, una de las autoras del estudio, “son casos que deberían estar contemplados”.
Pronto hacer la compra podría ser tan sencillo como pedir lo que queremos al ordenador, decir en voz alta que nos manden a casa esos pantalones o esa chaqueta que acabamos de ver en una web o encargar una pizza. Ya se ocupará el propio asistente virtual de avisarnos cuando llegue el pedido a la puerta y, quién sabe, puede que dentro de no mucho, incluso de recogerlo.