Las 5Ws de la Ciencia De Datos: qué, quién, dónde, cuándo y por qué

Las 5Ws de la Ciencia De Datos: qué, quién, dónde, cuándo y por qué

8 abril, 2021 Sergio Gil López

Compártelo:

¿Qué, quién, dónde y cuándo? Hagamos un poco de historia para darnos cuenta de que la Ciencia de Datos no es un concepto tan nuevo como parece.

Comencemos la historia con Alan Turing (1952) quien plantea el conocido test de Turing; capacidad de una máquina de demostrar un comportamiento humano (inteligente) sin ser distinguido. Hotelling (1940) introduce el concepto de Applied Statistics. Arthur Samuel (1952) desarrolla el primer algoritmo capaz de ganar a un humano al juego de damas inglesas. Minsky y McCarthy (1956) acuñan un conjunto de técnicas dentro del paradigma Artificial Intelligence. Rossenblatt (1958) desarrolla la primera red neuronal (MLP). Jhon W. Tukey en 1962 publica un artículo titulado “El Futuro del Análisis de Datos” centrándose en conceptos meramente estadísticos y de análisis numérico; haciendo referencia a técnicas de 1800, ajuste por mínimos cuadrados de Gauss & Legendre.

Coetáneamente emerge el término Computing Science, surgiendo los primeros algoritmos para la extracción de patrones. Pero pese a los grandes avances, la Ciencia de Datos se enfrentó a su primer declive en los años 70 debido a las expectativas generadas; grandes inversiones y pocos revertimientos. No fue hasta cierto tiempo después, los años 80’s, cuando emerge la computación evolutiva, y la trasformación en la forma de abordar los problemas; desde Physical Driven (leyes físicas paramétricas), el knowledge driven (sistemas de reglas) al Data Driven.

Los factores contextuales, elementos clave

  • A finales de los 80 es cuando William H. Inmon propone el concepto de data warehouse ideado para reportar y analizar datos. En 1989 Gregory Piatetsky-Shapiro organizan la primera edición del workshop KDD (Knowledge Discovery in Database).
  • Hito importante; en 1995 aparece Google.
  • En 1996 el precio del almacenamiento de datos comienza su decremento. Un año después se acuña a los profesionales de datos con el término Científico del Dato (Data Scientist).
  • En 1997 Hochreiter y Schmidhuber proponen las LSTMs (Long-Short Term Memory), primer esquema de Deep Learning o Aprendizaje Profundo para series temporales.
  • También es en 1997 cuando Depp Blue gana a Kasparov una partida de ajedrez volviéndose a relanzar con fuerza el concepto de Ciencia de Datos. Con el nuevo siglo emergen capacidades y tecnologías que permiten recabar datos (tecnologías IoT), almacenarlos y explotarlos (tecnologías de la computación). Este hecho define un escenario realmente idóneo y nunca antes disponible para la explosión y el auge de la Ciencia de Datos. Así surgen técnicas matemáticas cada vez más complejas orientadas a la explotación de grandes volúmenes de datos.
  • En 2004 con el desarrollo de internet, Google escribe un whitepaper sobre tecnologías BigData.
  • Hinton en 2006 introduce el concepto Deep Learning.
  • En 2008 los procesadores del planeta ya procesan 9.57 zetabytes de datos. La proliferación de sistemas disruptivos basados en datos como Watson de IBM, GooglBrain de Google, DeepFace de Facebook, AWs de Amazon o Kinect de Microsoft vuelven a generar grandes expectativas en la Ciencia de Datos.

¿Por qué?

La transformación digital trata de apoyar los procesos de decisión; procesos de decisión cada vez más complejos (influyen gran cantidad de variables) y con mayores exigencias en tiempo, en escenarios con mucha diversidad, diseño de nuevos productos o servicios, mejorar la operación y eficiencia de procesos, automatización de producción, mejora de los procesos de mantenimiento, técnicas de control de riesgo, tratamientos médicos personalizados, detección temprana de faltas o fallos, entre otras muchas tendencias.

En un pasado la experiencia humana era el punto clave que provocaba esa diferenciación y, por ende, mejora de la competitividad. Hoy en día, la capacidad de inferencia humana se ve claramente limitada y desbordada por tal cantidad de datos y el incremento de complejidad en una economía cada vez más exigente. Así pues, la competitividad puede favorecerse incrementando la capacidad de extracción de información-conocimiento a partir de datos.

En clave de digitalización, el objetivo es lograr que las máquinas aprendan a partir de los datos, de manera que se pueda experimentar con ellas (como se ha hecho históricamente con los emuladores o simuladores basados en ecuaciones físicas) en pro de automatizar acciones, inferir conocimiento, optimizar procesos, mejorar la eficiencia, minimizar costes, detectar faltas, interpretar imágenes, texto, habla, etc.

Y si tienen tanto potencial… ¿por qué tan solo el 22 % de las empresas están desarrollando soluciones finalistas basadas en Ciencia de Datos?

  • Problema de acceso al dato, lo que añadido al teorema del “No Free Lunch”, no existe un algoritmo que resuelva todas las casuísticas, imposibilita la implementación de esquemas específicos que se ajusten a casuísticas de datos no disponibles, y es ahí donde se logra precisión y por tanto impacto. En una analogía con la tercera revolución industrial, en esta la denominada cuarta, ha llegado antes la tecnología (en la tercera revolución industrial la máquina de vapor, en la cuarta los algoritmos) que la materia prima (en la tercera revolución industrial el carbón, en la cuarta el acceso a los datos).
  • La calidad del dato, su gobernanza, la seguridad-privacidad y la escalabilidad de la propia solución son retos que han de plantearse más allá del propio desarrollo de soluciones, puesto que permitirán su integración, despliegue e ingesta continua de datos.
  • Los modelos Data Driven a diferencia del modelado físico clásico, o del Knowledge driven son sistemas matemáticos complejos, imbricados claramente con la estadística. Esa mezcla les convierte en sistemas opacos, sometidos claramente a la incertidumbre debido a su claro carácter estocástico, no determinista. Existe una necesidad de investigar en conceptos como explicabilidad, confiabilidad, trazabilidad, replicabilidad, transparencia o nuevos paradigmas como el Physic Aware ML.
  • Cambio de paradigma en el diseño software. La construcción de un modelo ligado a Ciencia de Datos comparte un aspecto esencial con la inferencia clásica basada en extracción de conocimiento, el método científico (planteamiento de hipótesis, experimentación, ratificación o modificaciones de hipótesis, conclusión); lo que lo diferencia claramente con el diseño de software clásico.
  • Problema de carencia de profesionales relacionados con Ciencia de Datos y el gap de conocimiento existente con el conocimiento clásico de los dominios. La implantación de procesos de capacitación como proceso continuo en cualquier organización será clave hasta que los planes curriculares de las universidades se adapten (como ya están haciendo a la nueva era digital), y se generen profesionales con conocimientos mixtos. Mientras tanto, la imbricación de ambos mundos (Conocimiento Clásico-Ciencia de Datos, equipos multidisciplinares) genera creatividad a la hora de formular problemas (desde el dominio) e, idear soluciones (desde la ciencia de datos) lo que maximiza enormemente el potencial de éxito.
  • Problema de despliegue una vez los modelos son diseñados y entrenados: la presencia de datos que no respondan a las casuísticas con los que han sido entrenados, presencia de datos erróneos o fuera de muestra provocan pérdida de precisión y por lo tanto necesidad de re-entrenar. La automatización o la interacción con el humano (HMI-Human-Machine-Interaction) son fundamentales en este proceso.

La Ciencia de Datos ha venido para quedarse.

Sobre Sergio Gil López

Nacido en Guadalajara, España, en 1978 es licenciado en CC. Físicas por la Universidad de La Laguna, Santa Cruz de Tenerife, España, desde 2001 en la especialidad de Astrofísica (cursó el primer ciclo en la Universidad Autónoma de Madrid). Posteriormente, en 2006, obtuvo el título de doctor en CC. Física en la Universidad de Granada (aunque su labor la realizó en el Instituto de Astrofísica de Andalucía, CSIC). Durante su doctorado realizó una estancia de tres meses en dos institutos de investigación en Alemania (IMK in Krlsruhe y ICFG1 en Jüelich) para realizar varios proyectos de colaboración científica. En 2007 comienza su labor de investigador científico en Robotiker en la unidad de Telecomunicaciones especializándose en capa física, esquemas de modulación, ecualización, codificación, transmisión de señal, esquemas de acceso al medio, detectores multiusuarios en sistemas CDMA, modelos de canal, entre otros.

Actualmente es Investigador Principal en Inteligencia Artificial y Big Data de TECNALIA aunque sigue con su labor como Data Scientist. Experto en modelado y simulación numérica, con más de 10 años de experiencia en técncias de Inteligencia Articial, Machine Learning y Optimización; desde computación evolutiva, problemas LP, NLP, MINLP, métodos heurísticos, meta-heurísticos, entre otros; esquemas de clustering/grouping, técncias de reducción dimensional, entrenamientos desbalanceados, esquemas regresivos, linear, lasso, ridge, elastic-net, SVMs, RBFs, ELMs, MLP, CART, RF, métodos de ensamblaje (bagging, boosting, stacking), xAI, entre otros.

Ha conceptualizado y diseñado esquemas numéricos (algoritmo basados en machine learning y/o Artificial Intelligence) para el control predictivo, basados en anticipación, detección de ineficiencias energéticas en plantas industriales, Smart grids, esquemas de sensado blando (inferenica máquina para la estimación de magnitudes físcias claves en los procesos de monitorización y control, pero difíciles de medir o estimar, con decalajes temporales o mediante sensores extremadamente caros), operación y mantenimiento de activos energétcios, modelos de degradación y/o estimación de vida útil (RUL), entre otros. Durante un año (2015-2016) fue contratado por Ariadna Instruments S.L. para el diseño de un algoritmo inteligente para la monitorización e identificación de la topología de la Red de Baja Tensión, detección de fraude y balances energéticos en las Smart Grids. Ganador del DataSciAwards 2019 (iniciativa Europea) en la categoría Best Use of Data Science/AI for Industry 4.0 y Ganador de los Advanced Factory Awards 2020 en la Categoría de “Investigación y desarrollo de inteligencia artificial aplicada en plantas industriales“.

Además su formación ha sido complementada con formación en diferentes cursos y seminarios de propiedad industrial e intelectual sobre modelos de protección (modelos de utilidad, patentes, españolas europeas o PCTs, secretos industriales, marcas, etc.), solicitudes de patentes, patentabilidad de algoritmos (impartió una charla invitada en la Universidad de La Coruña), fases en la solicitud de una patente, entre otros. Como resultado Sergio ha participado como co-autor de 7 patentes, en más de 37 contribuciones científicas en diferentes revistas internacionales y más de 43 contribuciones en diferentes congresos nacionales e internacionales de reconocido prestigio,  además de la codirección en el trabajo de 2 tesis doctorales y ha sido director de proyecto de varios trabajos fin de carrera y masters de doctorado en la Universidad del País Vasco, UPV/EHU. Por último reseñar que ha sido evaluador de proyectos nacionales (MCINN) y de la iniciativa EDI Project relacionados con Data Analytics.