TechXperience 23 | RegExp & Pentaho por Daniel Gil

Picture of Bosonit
Bosonit

En Bosonit nos gusta compartir conocimientos y seguir aprendiendo. Por ello, disfrutamos de cada TechXperience, el espacio ideal para escuchar diferentes perspectivas sobre el mundo de la tecnología y charlar juntos sobre ellas.
 
El viernes pudimos conocer mucho más sobre nuestro compañeroDaniel Gil, Data Management Senior Consultant en Bosonit, y sobre dos herramientas de su área:RegExp & Pentaho.
 

Como nos pareció una presentación tan interesante, hoy te traemos los puntos clave para que no te quedes con las ganas. Acompáñanos.

¿Qué es RegExp?

Nuestro Data Management Senior Consultant, Daniel Gil, empezó su TechXperience introduciéndonos al mundo del Reg-Exp, que significa Regular Expresión, una herramienta muy útil, que se emplea en programación y procesamiento de datos para la búsqueda y manipulación de textos.

Es un patrón cuyo objetivo es la búsqueda en cadenas de texto -explicó- se suele utilizar en algoritmos de búsqueda o para reemplazar cadenas de texto”.

También existen las wildcard*, que funcionan de manera diferente y son una implementación menos compleja de los patrones de búsqueda”, aclaró Daniel.

Usos comunes

Entre todas sus posibilidades, Daniel nos explicó el uso de RegExp para:

  • T-SQL en SLQ Server: Por ejemplo, para filtrar resultados por descripción que no comiencen desde la letra A a la T.
  • Contar o reemplazar en excel
  • Filtrar ficheros en linux

¿Cómo se construyen los RegExp?

Una vez entrados en materia, Daniel nos explicó que: “Los patrones Regex contienen dos tipos de caracteres, Caracteres literales y meta-caracteres.​ También existen unos modificadores llamados flags o modifiers”.
 

Además, nuestro compañero expuso diferentes casos de uso para que entendiéramos mejor su explicación. De los que destacamos el siguiente:

  • Caso de uso: ​Teniendo una lista de correos, queremos filtrar todos los correos acabados en ‘.es’ y puede que existan casos en los que el nombre del correo contenga ‘.es’​ (Regexp: @.*\.es.)

Pentaho y RegExp

Para concluir su presentación, nuestro consultor de Data Management quiso enseñarnos el funcionamiento de Pentaho, una suite de software de Business Intelligence que proporciona herramientas para la integración de datos, OLAP (procesamiento analítico en línea), informes, visualización de datos, y minería de datos.
 

Pentaho Data Integration es una herramienta de ETL (Extract Transform & Load).​ Esta herramienta tiene una interfaz low-code, se trabaja arrastrando los steps del panel de diseño y configurándolas en el canvas (panel central)”, explicó Daniel.
 

Por último, nuestro compañero destacó algunas de sus ventajas:

  • Los steps principales permiten realizar la mayoría de las tareas de extracción, transformación y carga.
  • Además de los propios steps ya preconfigurados con funciones útiles como lectura de ficheros de texto, Excel, outputs a bbdd etc.
  • Permite el diseño de steps customizados.​
  • También tiene un step que permite la inyección de código javascript.​

 

Una vez más, todos los presentes pudimos aprender y compartir con nuestros compañeros una experiencia tecnológica de gran interés. Esta vez dentro del ámbito del Data Management, un área de gran importancia en Bosonit, ya que estamos especializados en el análisis, manejo y almacenamiento de datos de las organizaciones.
 

RegExp
 

Gracias a la presentación de Daniel Gil, pudimos comprender cómo RegExp y Pentaho se complementan en la gestión de datos. Por un lado, RegExp es fundamental en la fase de preparación de los datos, ayudando a limpiar y formatear el texto, y por otro, Pentaho se utiliza para integrar, analizar y visualizar estos datos, lo que es esencial en cualquier proceso de gestión de datos efectivo.
 

No te pierdas la próxima TechXperience para estar al día en las tendencias tecnológicas y comprender todas sus posibilidades. ¡Te esperamos!

Últimas noticias

Whitepaper de ciberseguridad

Descarga el informe completo “La importancia de la ciberseguridad desde el principio”