Google Data Fusion

Picture of Bosonit
Bosonit

¡Estamos encantados de traeros las últimas novedades de nuestra newsletter de Linkedin! En un acontecimiento emocionante, nuestro equipo tuvo la increíble oportunidad de visitar la renombrada oficina de Google y disfrutar de Google Summit con Carlos de Antonio. Sumergiéndonos en un mundo de innovación y tecnología de vanguardia con Data Fusion.


Esta experiencia nos permitió obtener perspectivas diferentes, nuevas conexiones y ampliar aún más nuestros conocimientos en el ámbito en constante evolución de Google Cloud. Estamos encantados de compartir nuestros aspectos más destacados y explorar la intersección de nuestra experiencia en Bosonit con el entorno pionero de Google y, en concreto, conData Fusion.

Sobre Data Fusion

El análisis de datos plantea un reto importante debido a la naturaleza dispersa y a los distintos formatos de los datos. A menudo es necesario llevar a cabo múltiples tareas de integración antes de poder obtener información valiosa. Data Fusion aborda este reto proporcionando una solución completa para la integración de datos empresariales, que abarca la ingesta, ETL, ELT y streaming.


Con un motor de ejecución optimizado para SLA y rentabilidad, Data Fusion simplifica la vida de los desarrolladores de ETL, analistas de datos e ingenieros de datos que trabajan en entornos de Google Cloud, Hybrid Cloud o Multi-Cloud. Sirve como un eje centralizado para todas las actividades de integración de datos, permitiendo un procesamiento de datos ágil y eficiente.


Data Fusion en Google Cloud es un potente servicio que permite a las organizaciones integrar, transformar y analizar datos de diversas fuentes de forma unificada y escalable. Con Data Fusion, los usuarios pueden crear canalizaciones de datos y flujos de trabajo para ingerir, procesar y gestionar datos de forma eficaz, independientemente de su formato o ubicación.

Ventajas de Data Fusion

Una de las principales ventajas de Data Fusion es su interfaz visual, que permite a los usuarios diseñar flujos de integración y transformación de datos mediante un método de arrastrar y soltar. Esta interfaz intuitiva elimina la necesidad de codificación compleja y permite a los ingenieros y analistas de datos colaborar eficazmente en la creación de canalizaciones de datos.


Data Fusion es compatible con una amplia gama de fuentes de datos, incluidos datos estructurados, semiestructurados y no estructurados, lo que permite a las organizaciones manejar diversos tipos de datos, como bases de datos relacionales, archivos CSV, documentos JSON y más. También se integra a la perfección con otros servicios de Google Cloud, como BigQuery y Cloud Storage, para almacenar y procesar datos de forma eficiente.


Al aprovechar Data Fusion, las organizaciones pueden acelerar sus procesos de integración de datos, reducir el tiempo de desarrollo y mejorar la eficiencia operativa. El servicio ofrece funciones integradas de calidad, validación y transformación de datos, lo que garantiza la precisión y coherencia de los datos en todo el proceso. También admite el procesamiento de datos en tiempo real, lo que permite a las empresas tomar decisiones más rápidas y fundamentadas basadas en datos actualizados.

Integración de datos

Las capacidades de integración de datos que ofrece Data Fusion incluyen:

  1. Análisis optimizados y transformaciones de datos aceleradas:Data Fusion permite una integración de datos eficiente, mejorando la velocidad y la eficacia de la analítica y las transformaciones de datos.
  2. Amplia gama de conectores y formatos: Gracias a la compatibilidad con más de 200 conectores y formatos, Data Fusion permite extraer y combinar datos de diversas fuentes sin problemas, lo que permite trabajar con una amplia variedad de tipos de datos.
  3. Desarrollo visual de canalizaciones: Data Fusion proporciona un entorno visual para desarrollar canalizaciones de datos, mejorando la productividad y la facilidad de uso.
  4. Gestión de datos y colaboración:Data Fusion ofrece capacidades de data wrangling para preparar y operacionalizar datos, facilitando la colaboración entre los equipos de negocio y TI.
  5. API REST para la gestión de canalizaciones: Puede aprovechar la amplia API REST para diseñar, automatizar, orquestar y gestionar el ciclo de vida de los pipelines, lo que permite una gestión y un control optimizados.
  6. Compatibilidad con varios modos de entrega de datos: Data Fusion admite los modos de entrega de datos por lotes, en streaming y en tiempo real, lo que la convierte en una plataforma integral adecuada tanto para casos de uso relacionados con lotes como con streaming.
  7. Información operativa y optimización: Data Fusion proporciona perspectivas operativas para supervisar los procesos de integración de datos, gestionar los SLA y optimizar los trabajos de integración, garantizando un procesamiento de datos eficiente y eficaz.
  8. Análisis y enriquecimiento de datos no estructurados: Data Fusion ofrece capacidades para analizar y enriquecer datos no estructurados utilizando Cloud AI, lo que permite tareas como la conversión de archivos de audio a texto, el análisis de sentimientos con NLP, la extracción de características de imágenes y documentos, y la conversión de formatos HL7 a FHIR.

Coherencia de datos

Las funciones de coherencia de datos de Data Fusion permiten a las empresas tomar decisiones con confianza al garantizar la fiabilidad de los datos:

  1. Transformaciones estructuradas y comprobaciones de la calidad de los datos: Data Fusion mitiga el riesgo de errores ofreciendo métodos estructurados para especificar transformaciones y realizar comprobaciones de la calidad de los datos mediante la herramienta Wrangler. Las directivas predefinidas mejoran aún más la coherencia de los datos.
  2. Observabilidad de los datos para la identificación de la calidad: Con Data Fusion, puede realizar un seguimiento de los perfiles de datos durante el proceso de integración, lo que le permite identificar y abordar los problemas de calidad. Esta observabilidad de los datos permite tomar decisiones informadas basadas en la salud y fiabilidad de los datos.
  3. Gestión de la variación y el cambio de los datos: A medida que los formatos de datos evolucionan con el tiempo, Data Fusion ayuda a gestionar la deriva de los datos. Detecta los cambios en los formatos de datos y ofrece opciones de personalización para la gestión de errores, garantizando un procesamiento de datos coherente y preciso a pesar de las variaciones.
  4. Metadatos: Puede recopilar metadatos técnicos, empresariales y operativos para conjuntos de datos y pipelines y descubrir metadatos fácilmente con una búsqueda.

Protección de datos

Las ventajas vinculadas a la protección de datos son:

  1. Acceso seguro a los datos locales: Data Fusion permite el acceso seguro a los datos locales a través de conexiones IP privadas. Lo que garantiza la confidencialidad e integridad de los datos durante la transmisión.
  2. Cifrado de datos en reposo: Por defecto, Data Fusion cifra los datos en reposo, proporcionando una capa adicional de seguridad. Además, los usuarios tienen la opción de utilizar claves de cifrado gestionadas por el cliente (CMEK). Para mantener el control sobre el cifrado de datos en todos los sistemas de almacenamiento compatibles.
  3. Protección contra la filtración de datos: Data Fusion ofrece protección contra la exfiltración de datos mediante el uso de VPC Service Controls. Estos controles establecen un perímetro de seguridad alrededor de los recursos de la plataforma, impidiendo el acceso no autorizado y mejorando la seguridad de los datos.
  4. Integración con Cloud Key Management Service (KMS): La información sensible, como contraseñas, URL y cadenas JDBC, puede almacenarse de forma segura en Cloud KMS. Data Fusion también admite la integración con sistemas de gestión de claves externos, lo que garantiza una sólida gestión y protección de claves.
  5. Integración con Cloud Data Loss Prevention (DLP): Data Fusion se integra perfectamente con Cloud DLP, permitiendo capacidades avanzadas de protección de datos. Los usuarios pueden aprovechar Cloud DLP para enmascarar, redactar y cifrar datos en tránsito, salvaguardando la información sensible de divulgaciones no autorizadas.


A continuación se puede ver cómo utilizar Cloud Data Fusion.


Personalmente, me he embarcado en un viaje para prepararme para la certificación Google Cloud Professional. A medida que me vaya adentrando en los entresijos de la plataforma Google Cloud, iré compartiendo mis progresos. También consejos de estudio y recursos en los próximos boletines. Acompáñanos en el análisis de los aspectos más destacados de la visita a Google.


Permanece atento a esta edición llena de información. Con tendencias, la visita a las oficinas de Google y mi viaje hacia la obtención de la certificación profesional en la nube de Google.

Últimas noticias

Whitepaper de ciberseguridad

Descarga el informe completo “La importancia de la ciberseguridad desde el principio”