Los asistentes de voz fueron una vez la gran promesa de la IA. Hoy no son más que el patito feo

28 comentarios Facebook Twitter E-mail

19 Marzo 2023

Javier Lacort

¿Recuerdan al iPhone 4s? Fue una de las actualizaciones más tenues del iPhone en sus —sintámonos viejos— 16 años de historia. Apenas cambiaba nada importante respecto al 4… salvo que incluía, en exclusividad, a Siri.

Visto con perspectiva, fue una puesta a punto bastante pírrica, pero en aquel momento, Siri nos obnubiló. Sus vídeos demostrativos, la mayor especialidad de Apple, inducían a pensar que el futuro pasaba por algo así: asistentes virtuales basados en la voz. Como el que Google no tardó en presentar o como el que Amazon decidió usar como piedra angular de su ecosistema digital.

En mi caso, recuerdo pensar “...y esto en 2011, a saber cómo estamos dentro de otros diez años”. No han pasado diez, sino doce, y lo que suena es un acorde triste de trompeta: Siri no ha evolucionado al mismo nivel, ni de lejos, que el resto de productos de Apple, ni de lo que lo ha hecho la industria tecnológica en general.

Su competencia tampoco está mucho mejor. Sobre todo, por agravio comparativo.

Están ahí, pero ni crecen demasiado ni emocionan a nadie

No es que Siri, Alexa o Google —o bueno, sobre todo Siri— no hayan evolucionado en estos años. Es que no resulta fiable recurrir a un asistente así en demasiadas circunstancias ni tiene profundidad real. Cuántas veces hemos zanjado una interacción tras escuchar “Esto es lo que he encontrado en Internet sobre…”.

Microsoft también presentó Cortana para cambiarlo todo integrándola en Windows, tanto para ordenadores como para móviles, con escasa trayectoria y nula relevancia. Murió en 2021.

En Xataka

GPT-4 es un salto de nivel brutal respecto a ChatGPT: nueve ejemplos para comprobarlo en persona

Ahora suena prosaico pensar que Microsoft no va a incorporar parte de la tecnología de GPT-4 y sucesivos a una interfaz conversacional en su ecosistema, no solo de generación y síntesis de texto escrito. Podíamos dudar de Ballmer, pero de la visión estratégica de Nadella no duda nadie. Lo mismo que pensar que Google no va a hacer lo propio con Bard tras su anuncio de una IA generativa integrada en Workspace.

El problema para los asistentes de voz es que hace 10 años estábamos alucinados, hace 5 ya andábamos algo desencantados, pero con la esperanza de los altavoces inteligentes que estaban a punto de llegar; y ahora nadie habla de ellos, porque OpenAI, Microsoft, Google y unos pocos más monopolizan esa conversación. Están ahí, se usan, cumplen un papel, pero ni crecen demasiado ni emocionan a nadie. El impacto del asistente de voz no está muy lejos del de contar con un conector algo más rápido.

De Amazon sabemos que una buena parte de los despidos que anunció recientemente van a recaer sobre la plantilla que se encarga de Alexa, que más allá del entusiasmo inicial ha acabado siendo usada mayoritariamente para poner temporizadores y pedirle algo de música. Y no para usos más avanzados que no pudiéramos hacer hace una década.

Ni hablemos de para acostumbrarnos a comprar compulsivamente con la voz, algo que hubiese rentabilizado mejor su enorme apuesta por esta tecnología. El hardware, habitualmente vendido a precios irrisorios, tampoco suena a un gran negocio por sí mismo. Ha sido muy habitual encontrar Echo Dot por 20 euros. Si a 20 euros le quitamos el IVA, el envío, el embalado, los materiales, el ensamblado… ¿Qué le queda a Amazon?

La suerte de los ingenieros de Google encargados de sus sistemas operativos para entornos domésticos no ha sido mucho mejor. Según The New York Times, un 16% de ellos han caído en la lista de despidos, que solo afectó al 6% de su plantilla.

En Xataka

El nuevo Midjourney V5 se ha propuesto que no podamos diferenciar una foto real de una generada

En la acera de enfrente, OpenAI ha conseguido que su interfaz conversacional cale desde el primer día, ayudando a multitud de profesiones a hacer su trabajo más eficiente y rápido, desde programadores hasta periodistas pasando por abogados o creativos. Midjourney o Stable Diffusion han logrado lo propio en la creación visual como un producto de resultados inmediatos.

Los asistentes de voz coparon titulares hablando sobre sus posibilidades futuras y se fueron deshinchando con el paso del tiempo hasta limitarse a unos usos básicos que han evolucionado poco. La nueva oleada de herramientas basadas en IA logra que se hable de ellas por sus posibilidades del presente, no del futuro.

Un año es un mundo para lo que puede evolucionar ChatGPT o Midjourney, pero una década ha servido para que Siri, Alexa o el asistente de Google evolucionen poco.

En Xataka | "Nos equivocamos": la IA de OpenAI era demasiado abierta, así que en GPT-4 impera el secretismo absoluto

Imagen destacada | Omid Armin en Unsplash.

Temas

Comentarios cerrados

Ver 26 comentarios

26 comentarios

interesante

linuxok

* *

19 Mar. 2023, 10:10

1

Es lo que pasa cuando se introducen cosas que cambian el modelo mental del usuario y le quieren forzar a hacer las cosas de una forma distinta a como está acostumbrado a hacerlas. Si a eso le sumas dudas razonables en cuanto a privacidad, pues tienes el resultado: la gente no lo usa.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 4 votos, karma: 80 Vota positivo Vota negativo
Respondiendo a linuxok

Mr. Dick

* * *

19 Mar. 2023, 11:07

4

La gente no los usaba por lo malos y limitados que eran. Nada más.
Tenemos móviles y apps que nos espían, cada cual más. Tenemos páginas webs que se comprometen a no rastrearnos si no lo queremos pero lo hacen igual y nadie se queja.
Opino que tienes razón en el hecho de que a la gente no le gusta el cambio. Pero lo de la privacidad es un problema minúsculo que no va más allá de una buzzword más de marketing. De cara al interés del usuario por supuesto. No deniego de la importancia de este.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 2 votos, karma: 50 Vota positivo Vota negativo
Respondiendo a Mr. Dick

linuxok

* *

19 Mar. 2023, 15:27

13

"Tenemos páginas webs que se comprometen a no rastrearnos si no lo queremos pero lo hacen igual y nadie se queja."
Sí, pero el hecho de que el chisme esté escuchando 24/7 y lo sepas (no es que lo intuyas, es que lo sabes), eso ya da más "miedo".
Es como que lo otro no es "tan grave". Evidentemente hablo de la percepción de la gente, no de lo que sea o no en realidad.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 10 Vota positivo Vota negativo
interesante

JuanAR

* *

19 Mar. 2023, 11:14

6

Sí que es verdad de que hay reticencia a lo nuevo, pero si te facilita las cosas lo adoptas rápido. Por ejemplo, lo de poner música o la alarma, que es raro que falle y más cómodo que hacerlo manualmente.
En cambio, si te cuesta más trabajo y al final lo tienes que acabar haciendo manualmente o no te fías del resultado, pues ya no lo usas.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 3 votos, karma: 65 Vota positivo Vota negativo
Respondiendo a JuanAR

tmpmds

* * *

19 Mar. 2023, 13:56

9

Exacto. Yo creo que si unen de alguna manera GPT con asistentes de voz, con una mínima fiabilidad, será cuando se dispare el uso.
En casa los usamos desde hace tiempo porque nos resultan útiles. Pero la verdad es que se me cayó el alma al suelo el primer día cuando intenté concatenar dos acciones "apaga X y enciende Y" y el asistente falló...
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 1 voto, karma: 30 Vota positivo Vota negativo
informatico_loco

* *

21 Mar. 2023, 11:05

21

El uso que le doy al altavoz de Google es para consultar de vez en cuando el tiempo y alguna orden esporádica para que mi Home Assistant encienda o apague alguna luz. Y poco más. Hasta el día que me canse y lo quite. Lo compré con mucha ilusión pero desde 2018 no ha avanzado prácticamente nada, aun espero la función de poder enviar un whastapp. Desde luego nunca se me ocurriría comprar algo a través del altavoz, demasiadas cosas podrían salir mal. Para comprar, mejor ver.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 2 votos, karma: 50 Vota positivo Vota negativo
pedrosalguera

* * *

19 Mar. 2023, 11:56

7

"Ahora suena prosaico pensar que Microsoft no va a incorporar parte de la tecnología de GPT-4 y sucesivos a una interfaz conversacional en su ecosistema, no solo de generación y síntesis de texto escrito. "
Esto. Decirle a tu dispositivo que cambie el fondo de pantalla, que cuando estés volviendo a casa encienda la calefacción, que te cambie los widgets a la pantalla secundaria, que por las noches active el modo no molestar a una hora concreta excepto los findes, que la ponga más tarde, que ahora solo deje pasar mensajes de tu madre y tu hijo y de nadie más, que te cree un e-mail con un contenido x y se lo envíe a un número determinado de personas, que te busque fotos de cuando estuviste en la playa con un amigo entre 2010 y 2015... Y no hablo ya de "coge esta foto, recorta la cara de x y pégala en otra que tenga un fondo de pantalla de una playa junto a Justin Bieber y pon un cartel que diga "así te veremos estas vacaciones", o "la foto de la portada de este texto cámbiala por otra con estas características, dame 10 opciones diferentes, y en la contraportada recorta la imagen del perro y quítale el fondo"
Todo esto y mil millones de cosas más sin tener que estar buscando las apps o las opciones de configuración, solo con decírselo
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 2 votos, karma: 30 Vota positivo Vota negativo
8

Comentario moderado
Respondiendo a pedrosalguera

Usuario desactivado

19 Mar. 2023, 16:03

14

Mucho de lo que dices ya lo hace Siri, supongo que los demás también, y eso que Siri es más tonta que el cagar
Menú
Respondiendo a Usuario desactivado

pedrosalguera

* * *

19 Mar. 2023, 18:56

15

Sí, es cierto, se me colaron ejemplos de cosas que ya hace, pero creo que se entiende el fondo
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 10 Vota positivo Vota negativo
asdfer

* * *

19 Mar. 2023, 21:03

17

Para lo unico bueno que sirven es para decirle que llamen a alguien en el coche
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 1 voto, karma: 25 Vota positivo Vota negativo
Respondiendo a asdfer

eufrasio

* *

19 Mar. 2023, 22:12

18

Y para poner un temporizador. Es apretar el botón de Siri y solo decir "avisa en X minutos" y ya está.
Cuando estas cocinando es muy cómodo. O cuando pongo una botella en el congelador. Para todo lo demás, el teclado.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 1 voto, karma: 25 Vota positivo Vota negativo
ynos78

* *

19 Mar. 2023, 10:25

3

Totalmente de acuerdo. A menudo, cuando se introduce una nueva tecnología o un nuevo producto que requiere que los usuarios cambien su forma de hacer las cosas, puede haber una resistencia natural al cambio. Esto se debe a que los seres humanos tienden a ser criaturas de hábito y les resulta difícil salir de su zona de confort.
Además, cuando se introducen nuevas tecnologías que involucran el manejo de datos personales, es comprensible que los usuarios tengan preocupaciones sobre su privacidad y seguridad. Si los usuarios no confían en que sus datos están siendo protegidos adecuadamente, es poco probable que se sientan cómodos usando la tecnología.
En resumen, para fomentar la adopción de nuevas tecnologías, es importante que los desarrolladores consideren cuidadosamente cómo el producto cambiará la forma en que los usuarios hacen las cosas y cómo pueden abordar las preocupaciones de privacidad y seguridad de los usuarios.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 10 Vota positivo Vota negativo
Rawl Draw

* *

19 Mar. 2023, 14:45

11

Pues no veo por qué no le tienen que poner voz a GPT o algún pariente, yo lo veo la evolución lógica. La tecnología ya está inventada.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 10 Vota positivo Vota negativo
nullusdomine

* *

21 Mar. 2023, 10:43

20

Yo aquí el fracaso que les veo es que son bastante inútiles en el momento en que compliques un poco la pregunta (cosas tan complicadas como si va a llover mañana pueden recibir respuestas de lo más surrealistas)
Al final, para encender luces, poner temporizadores y otras cosas simples vale, para algo más sofisticado va como el culo.
Y ojo, que yo no he sido capaz que se entere que significa "Abrir persianas" He tenido que decir "activar persianas"
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 10 Vota positivo Vota negativo
rafaello76

* *

21 Mar. 2023, 14:24

25

a ver si revienta la burbuja de la IA
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 10 Vota positivo Vota negativo
26

Comentario moderado
maoleon

* *

21 Mar. 2023, 12:47

22

Yo hace unas semanas integre Chat gpt a SIRI y el cambio es brutal,ahora si es un asistente de verdad, ya le puedes preguntar lo que sea,resumenes de algun articulo que estes buscando,te da las mejores respuestas y consejos es impresionante lo que puede hacer (ya no es la tipica respuesta °Encontre esto en internet°).
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 8 Vota positivo Vota negativo
Respondiendo a maoleon

pedrosalguera

* * *

21 Mar. 2023, 13:06

23

Cómo lo has hecho? Yo encontré un atajo que supuestamente debía funcionar y no hay manera
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 10 Vota positivo Vota negativo
Respondiendo a pedrosalguera

maoleon

* *

21 Mar. 2023, 13:26

24

Sigue este enlace para activarlo es facil.
https://www.youtube.com/watch?v=4qA04GfyQII&t=64s
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 8 Vota positivo Vota negativo
Respondiendo a maoleon

pedrosalguera

* * *

21 Mar. 2023, 14:52

28

Lo probaré, muchas gracias!!
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 1 voto, karma: 25 Vota positivo Vota negativo
27

Comentario moderado
Usuario desactivado

19 Mar. 2023, 14:38

10

El problema es la vía seguida por estas empresas para crear sus llamadas IA: entrenamiento en reconocer patrones con miles de millones de datos de ejemplo. Pura estadística. Pero no son sistemas que razonen, no son sistemas que aprendan luego de entrenados y no pueden explicar como obtienen sus respuestas. En algún momento el usuario se da cuenta que esta hablando con un loro.
Menú
Respondiendo a Usuario desactivado

rivelaan

* *

19 Mar. 2023, 19:39

16

Hombre llamar estadística a la IA…
Si te has leído un libro de IA sabrás que la IA no tiene nada q ver con estadística. Es un modelo con capas internas y neuronas en el que se busca minimizar una función objetivo.
La IA no tiene inteligencia, pero si aprende patrones. Una IA mal calibrada (fit) memoriza porque sufre de overfitting. Pero una IA bien calibrada si “aprende” (extrae patrones muy sutiles tanto en imágenes como en texto)
Por cierto ya hay modelos de machine learning con capacidad de trazar las decisiones. Y que ganan en competiciones a la IA clásica. Te recomiendo que leas sobre Árboles de decisión, Árboles Aleatorios y XGBOOST.
Saludos cordiales.
A.Rivela
Profesor IA - IE Business School
Partner Tree Tech SA
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 8 Vota positivo Vota negativo
reyang

* * *

20 Mar. 2023, 19:31

19

Creo que en esta web últimamente algo parecen tener en contra de los asistentes de voz especialmente Alexa, el de Amazon y en todos los artículos mencionan que la mayoría de la gente lo usa solo para poner temporizadores o contar chistes, eso evidencia que el que escribe solamente lo usa para eso y asume que los demás también lo hacen.
Los asistentes de voz tienen mucho potencial, pero que la gente no los aproveche ya es un tema muy diferente. Para mi si son utiles, pero si coincido que en el caso de Siri, el de Apple, si se quedo muy limitado.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 1 voto, karma: 4.25 Vota positivo Vota negativo
2

Comentario moderado
Respondiendo a Webserveis

Mr. Dick

* * *

19 Mar. 2023, 11:10

5

Ya hay literalmente IAs LLM del nivel de GPT3 corriendo sobre Raspberrys. Y si generan contenido "verboso" es porque han sido entrenadas para ello.
Todos los problemas que comentas se resumen a uno muy simple: Cuál es el corpus de datos que usemos para entrenarla. Y eso, es modificable.
Menú
- Reportar (spam, insultos...)
- Copiar enlace a este comentario
- 0 votos, karma: 10 Vota positivo Vota negativo
Respondiendo a Webserveis

Usuario desactivado

19 Mar. 2023, 15:21

12

Embebida. Usa un mejor traductor. Gracias.
Menú