¡No tengo datos para mi modelo de machine learning! una guía de solución

Camilo
camilorojas.co
Published in
2 min readMay 31, 2021

--

Los datos requieren atención y cuidado, sin estos rápidamente comienzan a aparecer problemas como:

  • Datos viejos y no representativos de la situación actual de negocio
  • Datos no disponibles por acceso, seguridad, regulación
  • Datos sin calidad que no van a permitir construir un modelo de ML
  • Datos costosos ofrecidos por terceros
  • Datos con sesgos
  • Datos no entendibles ya que usan metadatos distintos

Este tipo de problemas comunes son necesarios resolver para poder avanzar con un data set de calidad para una iniciativa de ML. Para poder construir modelos requerimos de datos bien estructurados, marcados y con calidad; estos permitirán acelerar el proceso de machine learning y llegar más rápido al objetivo de automatizar efectivamente algunas tareas de negocio.

Un problema común al momento de construir modelos de ML, es que en la medida que aumenta la cantidad de features a ser utilizados en el modelo analítico, normalmente por dimensionalidad, es requerido mucha más información y normalmente esta progresión es exponencial.

También al momento de adquirir datos se presentan retos como 1) costos de acceso a estos datos, 2) marcado de datos genera un esfuerzo grande en comparación al beneficio, 3) adquirir datos que vienen sesgados o desbalanceados.

Las estrategias más comunes para poder resolver estos problemas normalmente incluyen:

  1. Utilizar fuentes no tradicionales para expandir el set de datos, como contenido no estructurado asociado (imagenes, audio, video), utilizando vectorización
  2. Invertir tiempo en procesar y calidad de datos detectando outliers, gestión de vacios en los data sets, utilizar escalas, reducción de dimensiones, feature engineering
  3. Utilizar estrategias sociales para llegar a través de socios a nuevas fuentes de información, encuestas de satisfacción, buscar en la cadena de valor si hay socios que puedan apoyar, crowdsourcing, etc.
  4. Cuando hay problemas compartiendo data sets, está emergiendo la idea de utilizar modelos Federados de Machine Learning, en donde el procesamiento y entrenamiento de modelos es distribuido.
  5. Utilizar fuentes de información de terceros y con acceso público.
  6. Utilizar transformaciones dimensionales para expandir el set de datos, con los riesgos específicos de la industria
  7. Generación de datos sintéticos, utilizando estrategias de simulación
  8. Utilizar GANs para generar sets de datos

--

--

Interested in AI, ML, Analytics, Startups and a bunch of other stuff