En nuestra cuarta TechXperience, Javier González, Data Scientist, tomó las riendas de la ponencia y desarrolló una sesión acerca del NLP (procesamiento natural del lenguaje) y repasó algunos de los diferentes modelos de lenguaje que podemos encontrar en la actualidad.
¿Quién es Javier González Peñalosa?
Lo primero de todo debe ser presentaros a Javier González Peñalosa. Javier, realizó el grado de economía en la Universidad de Zaragoza, lo que le permitió entrar en el mundo labora en el área de la banca comercial. Pese a ello, se quiso especializar en el mundo informático mediante el master de Big Data y Business Intelligence. Esto le permitió, posteriormente, entrar en Bosonit en el puesto de Data Science.
¿Qué es NLP (Procesamiento del Lenguaje Natural)?
El NLP se centra en cómo las máquinas entienden el idioma humano, lo interpretan y procesan. No se trata únicamente de traducir palabras sino de saber interpretar sus diferentes acepciones y frases según el contexto.
El procesamiento del lenguaje natural es la combinación de dos áreas diferentes como son la lingüística y Machine Learning. No solo se encarga de traducir palabra por palabra a los modelos para que entiendan si no que es necesario que exista relación entre esas palabras.
Modelos de lenguaje
Los modelos necesitan entender todo el contexto para formar, relacionar y mostrar una referencia simple entre unas palabras y otras. En esta área se engloban diferentes tareas, siendo una de las más comunes, la clasificación de textos.
En la actualidad, si entramos a páginas como FilmAffinity o IMDB, encontramos diferentes reviews de películas y mediante el procesado de este tipo de modelos se puede comprobar si este tipo de críticas han sido positivas o negativas para la película. Esto se trata de una clasificación para medir el sentimiento de ese texto.
Otro de las tareas más comunes en materia de clasificación, sería la clasificación de spam. Mediante el procesamiento de todo el e-mail seremos capaces, con la creación de un modelo, de categorizar si un e-mail es spam o no. Aportando valor y automatizando el proceso para el usuario.
La generación de texto es otro de los modelos que tiene el NLP. Tras el lanzamiento de GPT, se puso en la palestra los modelos generativos de texto. Introduciendo un pequeño texto es capaz de coger el estilo de tu input y seguir generando texto guardando el estilo. Un ejemplo de ello, sería entrenar estos modelos con el estilo de escritura de Gustavo Adolfo Becquer y acabar siendo capaz de replicar el estilo de Becquer.
Pero el NLP no se centra únicamente en el procesamiento del texto. Con el paso de los años han ido avanzando y ha ido abarcando nuevos dominios de los que podemos destacar:
- El audio a texto: con modelos como wac2vec, somos capaces de procesar todo el texto hablado a diferentes idiomas. Un ejemplo de ello podría ser los asistentes que tenemos cada uno en nuestros móviles (p.ej: Alexa o Siri).
- Generación de imágenes: Open AI creó un proyecto llamado DALLE donde juntando sus modelos de generación de texto (GPT) y modelos generativos de imágenes, eran capaces de recrear en formato de imagen digital el texto que había escrito el usuario.
- Copilot: con su modelo de GPT-3, entrenado en un proyecto en colaboración con Microsoft, teniendo como input todos los repositorios públicos que existen GitHub. Esto le permite a los modelos generativos escribir código en diferentes lenguajes de programación a través de solo texto. Una herramienta excelente a la hora de programar, logrando avanzar mucho más rápido.