Stable Diffusion ha creado su propio ChatGPT open source. Con un español algo raro, pero aceptable

Publicado: 02 Octubre 2023 | Escrito por Javier Orovengua | Correo electrónico | Visto: 521

GPT significa "Generative Pre-trained Transformer". Esto se refiere al tipo de arquitectura de modelo de lenguaje utilizado para entrenar al modelo, que es un Transformer pre-entrenado de aprendizaje profundo. Los modelos GPT son capaces de generar texto de manera autónoma después de ser entrenados en grandes conjuntos de datos de texto, lo que los hace útiles para tareas como la generación de texto, el resumen de texto y la traducción automática.

Stability AI, desarrollador de modelos de inteligencia artificial para Stable Diffusion Imaging, anunció el lanzamiento de una versión alfa de su nueva IA, StableLM. En este caso, como su nombre indica, es el "lenguaje de patrones". Quiero decir que lanzaron su propio GPT... y es de código abierto.

En un comunicado, la empresa explica que la licencia de estos diseños es Creative Commons BY-SA-4.0, por lo que "los desarrolladores son libres de revisarlos, usarlos y modificarlos con fines comerciales y de investigación". "Las compilaciones alfa están disponibles en [versiones] de 3 000 millones y 7 000 millones de parámetros, seguidas de modelos de 15 000 millones a 65 000 millones de parámetros".

Esto todavía está lejos del parámetro de 1 billón de GPT-4 o del parámetro de 175 mil millones de GPT-3, pero en Stability AI creemos que todo el rendimiento depende no solo del tamaño (parámetros), sino también de la optimización del contenido. Modelos entrenados:

"StableLM se entrena en un nuevo conjunto de datos experimental basado en The Pile [un famoso dataset usado por otros modelos open source], pero tres veces mayor. Daremos más detalles sobre este conjunto de datos a su debido tiempo. La riqueza de este conjunto de datos proporciona a StableLM un rendimiento sorprendentemente alto en tareas de conversación y codificación, a pesar de su pequeño tamaño".

🔴 ¡MÁS MODELOS OPEN SOURCES!

El equipo tras Stable Diffusion entra de lleno a la arena de GPT-4, con su nuevo modelo del lenguaje StableLM!

Por ahora en los tamaños de 3B y 7B y pronto llegando hasta los 65B. Un recurso brutal que allana el camino hacia más versiones open… https://t.co/2YqV9FKcPh — Carlos Santana (@DotCSV) April 19, 2023

El conjunto de datos mencionado anteriormente 'La colección era un modelo desarrollado simple, como una organización sin fines de lucro (tiene sostenibilidad), como GPT-J, GPT-J, GPT-EEOX y Pythia Suite. . Mirar ...

Diferente en inglés ... pero en español ...

Sin embargo, todo eso es en inglés… y los usuarios hispanohablantes que han tenido la oportunidad de usarlo (tú también puedes hacerlo, en su web de demostración oficial o en HuggingFace) cuentan historias muy diferentes que demuestran que, al menos en lo que a nuestro idioma se refiere, aún faltan muchas cosas por afinar en este modelo de IA:

¿Crees que es un lanzamiento fallido?

Tal vez después de mirar las capturas de pantalla anteriores, puedes pensar que Stability AI creó una chapuza. Pero... No, no lo es. El modelo de desarrollo de código abierto de GPT es muy diferente del modelo de desarrollo cerrado y secreto promovido por OpenAI (¿qué espera de un cambio de nombre?). Como sugiere el nombre, esta versión alfa no es el producto final, pero lo será. Depende de la descripción y personalización de las empresas e instituciones que apuesten por este modelo.

De hecho, los ingenieros de OpenAI tuvieron que experimentar un momento "WTF" muy similar antes de decidir lanzar ChatGPT como producto final. Cualquiera que haya visto la evolución desde la primera versión de Constant Diffusion hace unos meses y el rendimiento actual de los modelos derivados de ella sabe que se puede esperar una mejora continua en los próximos meses. El trabajo duro ya se ha hecho. Ahora solo cabe esperar...

A mi humilde entender le falta bastante entrenamiento, genera respuestas que son una mezcla que no se aproxima del todo a lo correcto y eso debe ser corregido, yo he creado algunos simples modelos de IA y las técnicas de depuración lo hacen factible, es posible que le falten todavía parámetros, sobre todo en castellano, por lo que dentro de unos meses, volveremos a escribir un artículo sobre como ha evolucionado este GPT de Código Abierto

Fuente: StabilityAI