Microsoft revela Phi-2, una inteligencia artificial con la capacidad de sobrepasar a Llama 2 y Gemini

+ NOTICIAS

Microsoft dio a conocer el despliegue de Phi-2, un modelo de procesamiento del lenguaje natural (PLN) de dimensiones reducidas, que logra superar a Llama 2 y otros competidores. Creado por Microsoft Research, este modelo exhibió notables habilidades de razonamiento y comprensión del lenguaje. Tras someterlo a diversas pruebas, los investigadores constataron que Phi-2 supera en rendimiento a la inteligencia artificial de Meta y Google en ciertas tareas.

Phi-2 forma parte de una serie de modelos basados en transformadores con una cantidad reducida de parámetros. Según Microsoft, la premisa subyacente en su desarrollo es la posibilidad de alcanzar un rendimiento cercano a modelos más extensos, como Llama o Mistral. Para contextualizar, Phi-2 tiene 2.700 millones de parámetros, en comparación con los aproximadamente 1.700 billones que se estiman para GPT-4.

A pesar de esta limitación, la inteligencia artificial de Microsoft iguala o supera a modelos hasta 25 veces más grandes. En evaluaciones de habilidades matemáticas y de programación, Phi-2 demostró un desempeño superior a Llama 2, la IA de Meta. Los desarrolladores llevaron a cabo pruebas más exhaustivas al enfrentarlo a Gemini Nano 2, donde logró resolver problemas de física de manera comparable a la inteligencia artificial de Google.

«Con tan solo 2,7 mil millones de parámetros, Phi-2 supera el rendimiento de los modelos Mistral y Llama-2 en los parámetros 7B y 13B en varios puntos de referencia consolidados», destacaron los desarrolladores. «Particularmente, muestra un rendimiento superior en comparación con el modelo Llama-2-70B, que es 25 veces más grande, en tareas de razonamiento de varios pasos, incluyendo codificación y matemáticas».

¿Cómo se lograron estos resultados con menos parámetros? La clave radica en el proceso de entrenamiento. Phi-2 fue entrenado con un conjunto de datos que abarca textos sintéticos de procesamiento del lenguaje natural (PNL), fragmentos de código extraídos de Stack Overflow, desafíos de programación, y más.

Microsoft resalta la importancia de la calidad de los datos de entrenamiento en el rendimiento del modelo. A diferencia de GPT-4, Microsoft lleva a cabo una curación de datos web, filtrando la información según su valor educativo. El equipo de investigadores empleó un conjunto de datos con «calidad de libros de texto», una estrategia que se ha aplicado desde la primera iteración de Phi.

«Nuestra combinación de datos de entrenamiento abarca conjuntos sintéticos diseñados específicamente para enseñar al modelo razonamiento con sentido común y conocimientos generales, que incluyen ciencia, actividades cotidianas y teoría de la mente, entre otros».

Phi-2 fue entrenado durante un periodo de 14 días, utilizando 96 tarjetas gráficas A100 de NVIDIA. A pesar de no haberse llevado a cabo un refinamiento adicional, el modelo de procesamiento del lenguaje natural (PLN) ofrece respuestas con menor toxicidad y sesgo en comparación con Llama 2. Microsoft Research realizó pruebas exhaustivas utilizando benchmarks académicos y herramientas internas.

Desafortunadamente, Phi-2 estará limitado a proyectos de investigación. El modelo de lenguaje de dimensiones reducidas se ofrecerá como parte de Azure AI Studio para fomentar el desarrollo de modelos lingüísticos, pero su licencia actual no permite su uso en aplicaciones comerciales, como ChatGPT.

Fuente: https://hipertextual.com