{"id":52022,"date":"2023-03-06T21:12:34","date_gmt":"2023-03-07T03:12:34","guid":{"rendered":"https:\/\/mickyandoniehn.com\/radio\/2023\/03\/06\/microsoft-presenta-kosmos-1-una-ia-que-puede-interpretar-imagenes-y-resolver-acertijos\/"},"modified":"2023-03-06T21:12:34","modified_gmt":"2023-03-07T03:12:34","slug":"microsoft-presenta-kosmos-1-una-ia-que-puede-interpretar-imagenes-y-resolver-acertijos","status":"publish","type":"post","link":"http:\/\/mickyandoniehn.com\/radio\/2023\/03\/06\/microsoft-presenta-kosmos-1-una-ia-que-puede-interpretar-imagenes-y-resolver-acertijos\/","title":{"rendered":"Microsoft presenta Kosmos-1, una IA que puede interpretar im\u00e1genes y resolver acertijos"},"content":{"rendered":"<\/p>\n<p>Tras el \u00e9xito de ChatGPT y la inversi\u00f3n millonaria en OpenIA,\u00a0<strong>Microsoft<\/strong>\u00a0<a href=\"https:\/\/hipertextual.com\/2023\/02\/satya-nadella-habla-sobre-bing-con-chatgpt-la-rivalidad-con-google-y-el-mundo-del-seo-con-la-ia\">dej\u00f3 claro que su futuro est\u00e1 ligado a la inteligencia artificial<\/a>. La evidencia m\u00e1s reciente es Kosmos-1,\u00a0<strong>un nuevo modelo de IA capaz de analizar im\u00e1genes y responder una prueba de IQ<\/strong>. Seg\u00fan Microsoft, este modelo multimodal allanar\u00eda el camino para el desarrollo de una inteligencia artificial general.<\/p>\n<p>Un reporte de\u00a0<a href=\"https:\/\/arstechnica.com\/information-technology\/2023\/03\/microsoft-unveils-kosmos-1-an-ai-language-model-with-visual-perception-abilities\/\"><em>ArsTechnica<\/em><\/a>\u00a0menciona que Microsoft public\u00f3 el primer documento de Kosmos-1 en\u00a0<em>arXiv<\/em>, el servicio de la Universidad Cornell. Titulado\u00a0<a href=\"https:\/\/arxiv.org\/pdf\/2302.14045.pdf\"><em>El lenguaje no es todo lo que necesita: alinear la percepci\u00f3n con los modelos de idiomas<\/em><\/a>, el estudio muestra los resultados de u<strong>n nuevo modelo de lenguaje extenso multimodal (MLLM)<\/strong>. De acuerdo con los investigadores, la IA puede percibir modalidades generales, aprender en contexto y seguir instrucciones.<\/p>\n<p>Los primeros resultados arrojan que Kosmos-1\u00a0<strong>se desempe\u00f1a de manera impresionante en tareas de comprensi\u00f3n y percepci\u00f3n de lenguaje<\/strong>, reconocimiento de im\u00e1genes y texto visual, e incluso es capaz de responder una prueba de coeficiente intelectual. El modelo de IA puede analizar im\u00e1genes y responder preguntas sobre ellas, reconoce el texto dentro de ellas y puede subtitularlas.<\/p>\n<h2>La diferencia de Kosmos-1 con ChatGPT<\/h2>\n<p>A diferencia de ChatGPT,\u00a0<strong>Kosmos-1 considera modos de entrada como texto, im\u00e1genes, audio y video<\/strong>. Si bien los modelos LLM,\u00a0<a href=\"https:\/\/hipertextual.com\/2022\/12\/chatgpt-que-es-como-usar\">como el desarrollado por OpenAI<\/a>, han servido como una interfaz de prop\u00f3sito general en varias tareas de lenguaje natural, tienen una desventaja.<\/p>\n<p>La interfaz basada en LLM se puede adaptar a una tarea, siempre que podamos transformar a texto la entrada y la salida. A pesar de las aplicaciones exitosas en el procesamiento del lenguaje natural, todav\u00eda se est\u00e1 luchando por usar los LLM de forma nativa para datos multimodales, como im\u00e1genes y audio.<\/p>\n<p>De acuerdo con los investigadores, la IA admite de forma nativa tareas de lenguaje, percepci\u00f3n-lenguaje y visi\u00f3n. \u00abKosmos-1 es un modelo de lenguaje multimodal (MML) que puede percibir modalidades generales, seguir instrucciones, aprender en contexto y generar resultados\u00bb, mencionan.<\/p>\n<p>La IA\u00a0<strong>se entren\u00f3 utilizando extractos de\u00a0<a href=\"https:\/\/pile.eleuther.ai\/\">The Pile<\/a>, un conjunto de datos de c\u00f3digo abierto<\/strong>\u00a0de 825 GB destinado a modelos extensos. De igual modo, Microsoft ech\u00f3 mano de\u00a0<strong>Common Crawl, un gigantesco repositorio de datos de la web<\/strong>. Tras una fase de entrenamiento y puesta a punta, los ingenieros realizaron una serie de evaluaciones y los resultados son prometedores.<\/p>\n<h2>La IA de Microsoft extrae texto de im\u00e1genes y puede responder un test de IQ<\/h2>\n<p>En las pruebas,\u00a0<strong>la IA de Kosmos-1 pudo responder preguntas sobre algunas im\u00e1genes<\/strong>, como el tipo de peinado de una deportista, la raz\u00f3n por la que lloraba un ni\u00f1o o por qu\u00e9 era graciosa una foto. De igual modo\u00a0<strong>realiz\u00f3 operaciones matem\u00e1ticas simples y reconocimiento de texto y n\u00fameros<\/strong>, como la fecha de estreno en el cartel de una pel\u00edcula. En algunos casos, la IA ofrece m\u00e1s contexto y responde de manera precisa a preguntas de seguimiento.<\/p>\n<p>Tal vez lo m\u00e1s interesante de la evaluaci\u00f3n es\u00a0<strong>su desempe\u00f1o en el test de las matrices progresivas de Raven<\/strong>. La prueba consiste en analizar y completar una secuencia de formas y se utiliza\u00a0<strong>para medir la inteligencia humana y el razonamiento abstracto<\/strong>. En el test de Raven, Kosmos-1 respondi\u00f3 correctamente una pregunta el 22 por ciento de las veces, superando la probabilidad aleatoria que es del 17 por ciento.<\/p>\n<p>Los resultados indican que\u00a0<strong>el modelo es capaz de percibir patrones abstractos en un contexto no verbal<\/strong>. Seg\u00fan los cient\u00edficos, esta es la primera vez que una IA realiza pruebas de disparo cero en el test de Raven. Si bien\u00a0<strong>la evaluaci\u00f3n todav\u00eda est\u00e1 muy lejos de lo que puede obtener un adulto promedio<\/strong>, Kosmos-1 demuestra que los lenguajes multimodales son la clave para el desarrollo de una inteligencia artificial que supere a los humanos.<\/p>\n<p>Microsoft\u00a0<a href=\"https:\/\/hipertextual.com\/2023\/03\/peligros-desarrollo-inteligencia-artificial\">est\u00e1 dando los primeros pasos en la IA general<\/a>. Es importante mencionar que\u00a0<strong>Kosmos-1 no tiene relaci\u00f3n con ChatGPT<\/strong>. Los ingenieros han desarrollado este modelo sin la participaci\u00f3n de OpenAI y tienen planes de abrirlo a otros desarrolladores por medio de la p\u00e1gina de GitHub.<\/p>\n<p><strong>Fuente: hipertextual.com<\/strong><\/p>\n<p>\u00a0<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tras el \u00e9xito de ChatGPT y la inversi\u00f3n millonaria en OpenIA,\u00a0Microsoft\u00a0dej\u00f3 claro que su futuro est\u00e1 ligado a la inteligencia artificial. La evidencia m\u00e1s reciente es Kosmos-1,\u00a0un nuevo modelo de IA capaz de analizar im\u00e1genes y responder una prueba de IQ. Seg\u00fan Microsoft, este modelo multimodal allanar\u00eda el camino para el desarrollo de una inteligencia &hellip;<\/p>\n","protected":false},"author":0,"featured_media":52023,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[5],"tags":[],"class_list":["post-52022","post","type-post","status-publish","format-standard","has-post-thumbnail","","category-noticias"],"jetpack_sharing_enabled":true,"jetpack_featured_media_url":"http:\/\/mickyandoniehn.com\/radio\/wp-content\/uploads\/2023\/03\/robot_usando_macbook-o4Oeta.jpeg","_links":{"self":[{"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/posts\/52022","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/types\/post"}],"replies":[{"embeddable":true,"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/comments?post=52022"}],"version-history":[{"count":0,"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/posts\/52022\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/media\/52023"}],"wp:attachment":[{"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/media?parent=52022"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/categories?post=52022"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/mickyandoniehn.com\/radio\/wp-json\/wp\/v2\/tags?post=52022"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}