{"id":72037,"date":"2024-05-13T19:12:46","date_gmt":"2024-05-14T01:12:46","guid":{"rendered":"http:\/\/mickyandoniehn.com\/radio\/2024\/05\/13\/openai-acaba-de-acercarnos-mas-que-nunca-a-her-su-nuevo-modelo-de-voz-nos-acompanara-y-quizas-enamorara\/"},"modified":"2024-05-13T19:12:46","modified_gmt":"2024-05-14T01:12:46","slug":"openai-acaba-de-acercarnos-mas-que-nunca-a-her-su-nuevo-modelo-de-voz-nos-acompanara-y-quizas-enamorara","status":"publish","type":"post","link":"https:\/\/mickyandoniehn.com\/radio\/2024\/05\/13\/openai-acaba-de-acercarnos-mas-que-nunca-a-her-su-nuevo-modelo-de-voz-nos-acompanara-y-quizas-enamorara\/","title":{"rendered":"OpenAI acaba de acercarnos m\u00e1s que nunca a \u2018Her\u2019: su nuevo modelo de voz nos acompa\u00f1ar\u00e1 (y quiz\u00e1s enamorar\u00e1)"},"content":{"rendered":"<\/p>\n<p>Las pel\u00edculas suelen darnos la posibilidad de conocer anticipadamente algunos avances tecnol\u00f3gicos que probablemente\u00a0<strong>acaben haci\u00e9ndose realidad<\/strong>. \u2018<a href=\"https:\/\/publicdomainreview.org\/collection\/le-voyage-dans-la-lune-1902\/\">Viaje a la Luna<\/a>\u2019, inspirada en obras literarias de Julio Verne, hablaba de viajes espaciales a principios del 1900. \u2018<a href=\"https:\/\/www.espinof.com\/criticas\/gran-clasico-ciencia-ficcion-tambien-cumbre-estilo-inhumano-2001-odisea-espacio-marco-antes-despues-obra-stanley-kubrick\">2001: Una odisea del espacio<\/a>\u2019, estrenada en 1968, introdujo el concepto de un supercomputador avanzado con inteligencia artificial (IA) capaz de razonar y de comunicarse en lenguaje natural con los humanos.<\/p>\n<p>M\u00e1s recientemente, en 2013, Joaquin Phoenix interpret\u00f3 a Theodore Twombly en \u2018<a href=\"https:\/\/www.espinof.com\/criticas\/her-vivir-sentir-amar\">Her<\/a>\u2019. Esta obra cinematogr\u00e1fica escrita y dirigida por Spike Jonze cuenta la historia de un hombre solitario y con poca vida social que empieza a interactuar con una asistente virtual llamada Samantha. Ella tiene varias caracter\u00edsticas inusuales para las m\u00e1quinas, como buen sentido del humor, empat\u00eda, deseo y una creciente necesidad de autodescubrimiento. Theodore termina enamor\u00e1ndose de ella.<\/p>\n<p>Cuando \u2018Her\u2019 lleg\u00f3 a las salas de cines, lo m\u00e1s cercano que ten\u00edamos a un asistente de voz con IA era Siri. Los anuncios de Apple nos presentaban a esta caracter\u00edstica como algo\u00a0<strong>tremendamente innovador<\/strong>, y, sobre todo, intuitivo.\u00a0<a href=\"https:\/\/youtu.be\/nqXGWQhowXk?si=wpTWRTByYb7Hsojd\">Pod\u00edamos ver a Samuel Jackson<\/a>\u00a0pidi\u00e9ndole a un\u00a0<a href=\"https:\/\/www.xataka.com\/analisis\/iphone-4s-analisis\">iPhone 4s<\/a> en lenguaje natural que le buscara una tienda cercana donde comprar hongos org\u00e1nicos, o pregunt\u00e1ndole cu\u00e1ntas onzas hay en una taza. Esta tecnolog\u00eda promet\u00eda hacernos la vida m\u00e1s f\u00e1cil. No fue as\u00ed.<\/p>\n<p>R\u00e1pidamente entendimos que lo de hablarle con lenguaje natural a Siri o a cualquier otro asistente de voz era una misi\u00f3n casi imposible. La clave para poder utilizarlos era memorizar una serie de comandos para pronunciarlos exactamente c\u00f3mo el sistema esperaba. Para algunos esto iba a solucionarse con el paso del tiempo, despu\u00e9s de todo la tecnolog\u00eda evoluciona, pero otros ten\u00edan menos esperanzas a corto plazo. Una d\u00e9cada despu\u00e9s las cosas no hab\u00edan cambiado demasiado.<\/p>\n<h2>Cuando la ciencia ficci\u00f3n empieza a hacerse realidad<\/h2>\n<p>En la actualidad utilizamos los asistentes de voz incorporados en nuestros tel\u00e9fonos para poner m\u00fasica,\u00a0<a href=\"https:\/\/www.xataka.com\/empresas-y-economia\/alexa-tenemos-problema\">programar temporizadores y poco m\u00e1s<\/a>. Productos\u00a0<strong>impulsados por IA<\/strong>\u00a0que, seg\u00fan sus creadores, ten\u00edan mucho para ofrecer, como el\u00a0<a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/rabbit-r1-companero-ia-capaz-reservar-uber-decirnos-que-comer-solo-hay-que-pedirselo-voz\">Rabbit R1<\/a>\u00a0y el\u00a0<a href=\"https:\/\/www.xataka.com\/otros-dispositivos\/he-aqui-dispositivo-compania-que-quiere-dejar-obsoleto-concepto-smartphone-asi-ai-pin-humane\">Humane AI Pin<\/a>,\u00a0<a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/rabbit-r1-humane-ai-pin-estan-demasiado-verdes-resulta-que-tenemos-mejor-dispositivo-ia-bolsillo\">todav\u00eda est\u00e1n demasiado verdes<\/a>. OpenAI, sin embargo, acaba de mostrar algo que puede revivir las esperanzas de aquellos que esperan un asistente de voz que sea mucho m\u00e1s que eso, que sea un acompa\u00f1ante virtual.<\/p>\n<p>Desde hace tiempo que\u00a0<a href=\"https:\/\/www.xataka.com\/basics\/chatgpt-que-como-usarlo-que-puedes-hacer-este-chat-inteligencia-artificial\">ChatGPT<\/a>\u00a0cuenta con un modo de conversaci\u00f3n que nos permite interactuar con el chatbot. Esta opci\u00f3n, aunque interesante, tiene muchas carencias. La s\u00edntesis de voz puede sentirse demasiado artificial y, por si esto fuera poco, los tiempos de latencia de entre 2,8 y 5,4 segundos se presentan como un obst\u00e1culo a la hora de mantener una interacci\u00f3n fluida. OpenAI pretende dejar atr\u00e1s estas limitaciones con su nuevo modelo.<\/p>\n<div class=\"ad ad-lat2\">\n<div class=\"ad-box\"><\/div>\n<\/div>\n<div class=\"article-asset-image article-asset-normal article-asset-center\">\n<div class=\"asset-content\"><\/div>\n<\/div>\n<p>ChatGPT empezar\u00e1 a funcionar con\u00a0<a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/openai-quiere-volver-a-revolucionar-ia-presenta-nuevo-modelo-multimodal-que-trabaja-voz-imagenes-video\">GPT-4o<\/a>\u00a0(la \u201co\u201d es de \u201comni\u201d, que significa que est\u00e1 en todas partes). Estamos hablando de un modelo de lenguaje grande que, a diferencia las versiones anteriores, ha sido entrenado \u00edntegramente para ofrecer\u00a0<strong>capacidades de visi\u00f3n, texto y audio<\/strong>. Presumiblemente tambi\u00e9n estamos ante un modelo del Mixture of experts (MoE), que apunta a la eficiencia sin perder capacidades. GPT-4o tiene una latencia promedio de 320 milisegundos.<\/p>\n<p>As\u00ed que estamos viendo un ChatGPT muy diferente al que conocimos por primera vez en noviembre de 2022. El chatbot con GPT-4o tiene un rendimiento equiparable a\u00a0<a href=\"https:\/\/www.xataka.com\/basics\/gpt-4-turbo-128k-que-que-se-diferencia-gpt-4-normal\">GPT-4 Turbo<\/a>\u00a0en inteligencia de texto, razonamiento y codificaci\u00f3n. Presume de una variedad de caracter\u00edsticas propias de los humanos, como la de conversar naturalmente, re\u00edr, cantar, reconocer im\u00e1genes y hasta identificar el sentido del humor del usuario. Adem\u00e1s, puede interactuar en m\u00e1s de 50 idiomas.<\/p>\n<p>Estamos acerc\u00e1ndonos r\u00e1pidamente a lo que Spike Jonze nos propon\u00eda en \u2018Her\u2019. O al menos esto es lo que creemos tras las demostraciones que la propia OpenAI he hecho en su directo del lunes. En uno de los v\u00eddeos podemos ver a uno de los miembros de OpenAI sosteniendo su iPhone con la aplicaci\u00f3n de ChatGPT. \u201c<strong>Oye, \u00bfc\u00f3mo te va?<\/strong>\u201d, pregunta, y ChatGPT saluda a trav\u00e9s de una voz femenina y describe con bastante precisi\u00f3n lo que est\u00e1 viendo, demostrando as\u00ed sus capacidades de visi\u00f3n.<\/p>\n<p>\u201cVeo que est\u00e1s usando una sudadera con capucha abierta de OpenAI. Buena elecci\u00f3n\u201d. La IA, no obstante, detecta algo que le llama la atenci\u00f3n (si es que as\u00ed podemos denominarlo) y pregunta qu\u00e9 hay con el techo, y pregunta si el joven est\u00e1 en una oficina de estilo industrial o algo parecido. El usuario invita a ChatGPT a adivinar qu\u00e9 est\u00e1 haciendo all\u00ed. \u201cPor lo que puedo ver, parece que est\u00e1s en alg\u00fan tipo de setup de grabaci\u00f3n o setup de producci\u00f3n. Esas luces, tr\u00edpodes, y posiblemente un micr\u00f3fono. Parece que podr\u00edas estar prepar\u00e1ndote para grabar una escena de v\u00eddeo o tal vez una transmisi\u00f3n\u201d.<\/p>\n<p>El miembro del equipo de OpenAI responde que est\u00e1n preparando un anuncio, pero la IA muestra lo que podr\u00eda ser intriga y especula sobre los detalles del anuncio. \u201c\u00bfEste anuncio est\u00e1 relacionado con la IA?\u201d, pregunta. \u201c\u00bfQu\u00e9 pasar\u00eda si te dijera que t\u00fa eres el anuncio?\u201d, responde el joven. \u201c<strong>\u00bfYo? \u00bfEl anuncio es sobre m\u00ed?<\/strong>\u201d, pregunta el sistema, mostrando sorpresa sobre lo que el usuario acaba de decir. La conversaci\u00f3n es realmente interesante, principalmente si tenemos en cuenta que estamos hablando con un modelo de IA multimodal.<\/p>\n<p>Pero hay mucho m\u00e1s. Greg Brockman, presidente de OpenAI, hizo una interesant\u00edsima demostraci\u00f3n de dos IA interactuando y cantando. Brockman le explica en lenguaje natural a ChatGPT de uno de los m\u00f3viles que le permitir\u00e1 hablar con otra IA. Le dice que la otra IA podr\u00e1 ver el mundo a trav\u00e9s de una c\u00e1mara, y que le podr\u00e1 hacer preguntas. \u201cBueno, bueno, bueno, eso suena bien\u201d, responde. Brockman hace lo propio con el otro m\u00f3vil.<\/p>\n<p>\u201cHabr\u00e1 otra IA que te hablar\u00e1 y esta IA no podr\u00e1 ver nada, pero podr\u00e1 hacerte preguntas (\u2026) puede preguntarte lo que quieras. Tu trabajo deber\u00eda ser \u00fatil.\u00a0<strong>Solo s\u00e9 \u2018punchy\u2019, directo, describe todo<\/strong>\u00a0y haz lo que la IA te pida\u201d. Momentos despu\u00e9s ambas IA empiezan a interactuar como podemos ver en el v\u00eddeo. En un momento Brockman le pide a una de las IA que cante una canci\u00f3n de lo que acaba de ver, y que se complemente con la otra IA l\u00ednea tras l\u00ednea.<\/p>\n<p>Lo \u00faltimo de OpenAI abre muchas puertas. GPT-4o se presenta como un modelo capaz de detectar el sarcasmo, resolver problemas matem\u00e1ticos, hacer traducci\u00f3n instant\u00e1nea, y mucho m\u00e1s. Estamos frente a una m\u00e1quina cuyas habilidades se parecen cada vez m\u00e1s a las de los humanos. Estamos frente a un avance que, aunque fue sugerido por la ciencia ficci\u00f3n, parec\u00eda impensable hace poco tiempo. OpenAI, una vez m\u00e1s, parece estar m\u00e1s avanzada que la competencia.<\/p>\n<p>El directo de hoy ha llegado acompa\u00f1ado de varios anuncios. En primer lugar, que acaba de empezar el despliegue gradual de GPT-4o entre todos los usuarios de ChatGPT, aunque aquellos que utilizan las versiones pagas\u00a0<strong>tendr\u00e1n l\u00edmites m\u00e1s altos<\/strong>. Presumiblemente, GPT-3.5 y GPT-4 seguir\u00e1n estando disponibles y los usuarios podr\u00e1n cambiar entre modelos. El nuevo sistema de voz, no obstante, ser\u00e1 exclusivo de las versiones de pago, y llegar\u00e1 en estado alfa en las pr\u00f3ximas semanas.<\/p>\n<div class=\"ad ad-lat\">\n<div class=\"ad-box\"><\/div>\n<\/div>\n<div class=\"article-asset-image article-asset-normal article-asset-center\">\n<div class=\"asset-content\"><\/div>\n<\/div>\n<p>Tambi\u00e9n se ha anunciado una aplicaci\u00f3n de escritorio de ChatGPT, que de momento llegar\u00e1 a macOS. Podremos utilizar esta app para invocar al chatbot en cualquier momento y pedirle que utilice sus capacidades de visi\u00f3n para obtener informaci\u00f3n de lo que tengamos en pantalla. Adem\u00e1s, podremos invitar a la IA a sumarse a una videoconferencia para que interact\u00fae con los participantes.<\/p>\n<p>Ya entrando en el campo de los rumores,\u00a0<a href=\"https:\/\/www.xataka.com\/aplicaciones\/gran-acuerdo-apple-openai-esta-a-punto-cerrarse-gurman-ios-18-sera-antes-despues\">se cree que Apple habr\u00eda ultimado un acuerdo con OpenAI<\/a>\u00a0para utilizar la tecnolog\u00eda de la compa\u00f1\u00eda dirigida por Sam Altman para impulsar algunas funciones de\u00a0<a href=\"https:\/\/www.xataka.com\/nuevo\/nuevo-ios-18-informacion\">iOS 18<\/a>. \u00bfPodr\u00eda servir esta tecnolog\u00eda para mejorar el asistente de voz del iPhone? En la\u00a0<a href=\"https:\/\/www.xataka.com\/eventos\/apple-anuncia-fecha-wwdc-2024-ios-18-esperadas-novedades-ia-cada-vez-cerca-hacerse-realidad\">WWDC 2024<\/a> que comenzar\u00e1 el 10 de junio probablemente recibiremos alguna respuesta.<\/p>\n<p>Para que la IA se acerque mucho m\u00e1s a lo que es Samantha en \u2018Her\u2019, deber\u00eda ser capaz de hacer tareas por nosotros, como llamar por tel\u00e9fono en nombre nuestro, chequear nuestros correos electr\u00f3nicos, examinar y organizar nuestros archivos\u00a0<strong>e incluso pedirnos un Uber<\/strong>. Ciertamente, esto ser\u00eda estupendo, pero tambi\u00e9n traer\u00eda muchos dilemas en cuanto a la seguridad y la privacidad.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Las pel\u00edculas suelen darnos la posibilidad de conocer anticipadamente algunos avances tecnol\u00f3gicos que probablemente\u00a0acaben haci\u00e9ndose realidad. \u2018Viaje a la Luna\u2019, inspirada en obras literarias de Julio Verne, hablaba de viajes espaciales a principios del 1900. \u20182001: Una odisea del espacio\u2019, estrenada en 1968, introdujo el concepto de un supercomputador avanzado con inteligencia artificial (IA) capaz &hellip;<\/p>\n","protected":false},"author":0,"featured_media":72038,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[5],"tags":[],"class_list":["post-72037","post","type-post","status-publish","format-standard","has-post-thumbnail","","category-noticias"],"jetpack_sharing_enabled":true,"jetpack_featured_media_url":"https:\/\/mickyandoniehn.com\/radio\/wp-content\/uploads\/2024\/05\/500_333-qjfk8u.jpeg","_links":{"self":[{"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/posts\/72037","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/types\/post"}],"replies":[{"embeddable":true,"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/comments?post=72037"}],"version-history":[{"count":0,"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/posts\/72037\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/media\/72038"}],"wp:attachment":[{"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/media?parent=72037"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/categories?post=72037"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/tags?post=72037"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}