La importancia de un catálogo de datos para maximizar el uso de los datos

Catálogo de datos

Retos comunes en las compañías

Algunos retos comunes que expresan las compañías:

  • Falta de claridad de donde persisten los datos empresariales, o si son copias confiables
  • Se gasta más tiempo buscando los datos que analizando
  • La semántica en los activos de datos no se comparte con los usuarios de negocio

Soluciones propuestas

Algunas soluciones:

  • Descubrimiento automático de los metadatos
  • Utilizar búsqueda inteligente
  • Semántica mantenida por la comunidad

¿Qué es un Catálogo de datos?

Un Catálogo de datos ofrece un inventario para mantener y gestionar el ciclo de vida de los activos de datos. Realizando descubrimiento, descripción y organización de las fuentes de datos. Permite a los usuarios encontrar y entender aspectos de negocio relevantes de los datos. Y recientemente utiliza Inteligencia Artificial para acelerar estos procesos.

Beneficios clave

  • Ciclo de vida de los datos — creación, mantenimiento, como es compartida, asegurada y eliminada
  • Colaboración — para gobierno de datos y gestión de requerimientos de información
  • Comunicación — comunicar la semántica asociada a los activos de datos de manera efectiva

Uno de los objetivos del uso del catálogo de datos es la reducción del tiempo que toma el proceso analítico de la compañía.

Funciones principales del catálogo de datos

Algunas de las funciones del catálogo de datos que se espera de esta plataforma son:

  1. Búsqueda de datos
  2. Descubrimiento inteligente
  3. Perfilado de datos
  4. Linaje y uso de los datos
  5. Recomendación de uso, usando mecanismos sociales
  6. Plataforma de procesos de colaboración alrededor de datos

Con estas funciones cubre las necesidades de:

  1. Datos (esquemas, tipos de datos, modelos de datos)
  2. Negocio (entidades, metadatos, relaciones)
  3. Pipelines (procesos de ETL, linaje de metadatos)
  4. Colaborativas (facilidad de auto servicio, conocimiento de usuario final)

Para soportar estas funciones el Catálogo de datos debe acomodarse al rol que lo está consultando por ejemplo:

  • Gestor de información (steward) — aprueba y rechaza procesos de acceso basados en políticas y reglas.
  • Ingenieros de datos (y Arquitectos) — construir, operacionalizar y refinar los modelos y pipline de integración.
  • Chief Data Officer/Analytics Officer — cuantifica el valor de negocio de los datos.
  • Analistas y científicos de datos — consumir y generar nuevos modelos analíticos

El impacto de AI en los Catálogos de datos

Como elemento emergente de AI en los Catálogos de datos, ha comenzado a tener un impacto muy importante en distintos aspectos como:

  • Acceso de roles inteligentes
  • Soporte de colaboración. Automatización en el auto consumo de datos
  • Búsqueda y descubrimiento utilizando inteligencia artificial
  • Auto asignación de metadatos y políticas de info descubierta
  • Detección de anomalías de datos y reportes
  • Alerta de datos sensibles sin proteger
  • Herencia de políticas basada en metadatos
  • Perfilar datos rápidamente para entender calidad estadística
  • Identificación de activos con riesgos informáticos, incluyendo PII
  • Recomendación de data sets y metadatos con funciones sociales
  • Mantenimiento del perfilado automático de los activos

Conclusión

El catálogo de datos moderno de las compañías está experimentando un cambio importante, de la visión tradicional de inventario de información a un rol activo en el ciclo colaborativo y de gestión de datos de la compañía. El uso de AI alrededor de los procesos de negocio del catálogo acelerarán su desarrollo y potencialidad en las arquitecturas de datos modernas.