¡No tengo datos para mi modelo de machine learning! una guía de solución

Camilo

Published in

camilorojas.co

2 min readMay 31, 2021

Los datos requieren atención y cuidado, sin estos rápidamente comienzan a aparecer problemas como:

Datos viejos y no representativos de la situación actual de negocio
Datos no disponibles por acceso, seguridad, regulación
Datos sin calidad que no van a permitir construir un modelo de ML
Datos costosos ofrecidos por terceros
Datos con sesgos
Datos no entendibles ya que usan metadatos distintos

Este tipo de problemas comunes son necesarios resolver para poder avanzar con un data set de calidad para una iniciativa de ML. Para poder construir modelos requerimos de datos bien estructurados, marcados y con calidad; estos permitirán acelerar el proceso de machine learning y llegar más rápido al objetivo de automatizar efectivamente algunas tareas de negocio.

Un problema común al momento de construir modelos de ML, es que en la medida que aumenta la cantidad de features a ser utilizados en el modelo analítico, normalmente por dimensionalidad, es requerido mucha más información y normalmente esta progresión es exponencial.

También al momento de adquirir datos se presentan retos como 1) costos de acceso a estos datos, 2) marcado de datos genera un esfuerzo grande en comparación al beneficio, 3) adquirir datos que vienen sesgados o desbalanceados.

Las estrategias más comunes para poder resolver estos problemas normalmente incluyen:

Utilizar fuentes no tradicionales para expandir el set de datos, como contenido no estructurado asociado (imagenes, audio, video), utilizando vectorización
Invertir tiempo en procesar y calidad de datos detectando outliers, gestión de vacios en los data sets, utilizar escalas, reducción de dimensiones, feature engineering
Utilizar estrategias sociales para llegar a través de socios a nuevas fuentes de información, encuestas de satisfacción, buscar en la cadena de valor si hay socios que puedan apoyar, crowdsourcing, etc.
Cuando hay problemas compartiendo data sets, está emergiendo la idea de utilizar modelos Federados de Machine Learning, en donde el procesamiento y entrenamiento de modelos es distribuido.
Utilizar fuentes de información de terceros y con acceso público.
Utilizar transformaciones dimensionales para expandir el set de datos, con los riesgos específicos de la industria
Generación de datos sintéticos, utilizando estrategias de simulación
Utilizar GANs para generar sets de datos

¡No tengo datos para mi modelo de machine learning! una guía de solución

Written by Camilo