big_data

Mira siempre por donde pisas

3 noviembre, 2015 Javier Del Ser Lorente

Compártelo:

Cuando era pequeño sentía curiosidad por absolutamente todo lo que me rodeaba, sentimiento que alegremente anunciaba a “ton y son” con un audible, repetido y poco apreciado ¿y eso, por qué? Mi madre, santa y paciente que era ella, no sólo me mantuvo en casa sin echarme de ella antes de tiempo sino que alimentó mis ansias por aprender con toneladas de libros de diversas temáticas. Hoy día, sospecho que encontró en la lectura la manera de tenerme callado todo el día sin recurrir a la Química. 

Recuerdo con muchísima nostalgia los cuatro Libros Gordos de Petete, verdadero tratado de la sabiduría de toda una generación. Compuesto por secciones monotemáticas de unas pocas páginas cada uno (fascículos), en este libro encontré respuestas a preguntas que me había hecho por pura observación.

De entre estos artículos devoraba con pasión aquellos relacionados con la Naturaleza por ser aquellos que, con mayor o menor dificultad, podía verificar por mí propia cuenta. Ya han pasado muchas primaveras desde entonces, pero retengo en mi memoria imágenes del bueno de Petete disfrazado de cualquier guisa explicando cómo viven los celentéreos (e.g. medusas y corales, entre muchos otros), las diferentes etapas del ciclo hidrológico o por qué algunos animales rumian e hibernan en invierno.

No tengo duda alguna de que esta curiosidad innata y el afán por aprender temas nuevos son absolutamente primordiales y fundamentales en ámbitos de investigación como el denominado Big Data, concepto que aglutina todas aquellas tecnologías y avances orientados al almacenamiento, gestión, análisis, extracción de conocimiento y visualización de grandes volúmenes de datos heterogéneos. Hoy en día la práctica totalidad de los sectores económicos generan intensivamente datos, pero sorprendentemente son pocos los que ponen en valor dicha información bien para la mejora de su propia actividad (inteligencia de negocio) o bien para la creación de nuevas oportunidades de negocio mediante la explotación de dichos datos. Y es que el dato se ha transformado en un recurso de negocio, un asset de valor para joint ventures entre diferentes sectores. Valga como ejemplo el BBVA quien está analizando con éxito la información de micropagos en pequeños y medianos negocios tanto para mejorar su propio servicio como para estimar patrones de movilidad susceptibles de ser aprovechados en otros campos como el Turismo o el Comercio.

El Big Data es a la analítica de datos lo que un Porsche es a la conducción. A excepción dudosa de paradigmas emergentes como el denominado Aprendizaje Profundo, los modelos de detección de patrones que subyacen en las grandes plataformas y desarrollos Big Data de hoy día son implementaciones eficientes de técnicas y métodos inventados hace varias décadas. El aprendizaje bayesiano, las redes neuronales, los árboles de clasificación y regresión… todos ellos han soplado ya varias velas en la historia de las Ciencias de la Computación y la Inteligencia Artificial. Lo verdaderamente innovador del Big Data reside en una mayor capacidad pasiva de adquisición y almacenamiento de datos, en un mayor poder de computación debido a un abaratamiento drástico del coste económico por ciclo de procesamiento de los ordenadores actuales, y en la adaptación de modelos tradicionales de detección de patrones como los arriba mencionados para analizar grandes volúmenes de datos distribuidos en granjas de computación.

Lo verdaderamente curioso de la analítica de datos es que todos sus modelos de aprendizaje de patrones se basan en el principio de aprendizaje por observación: reciben un conjunto de ejemplos (histórico) y mediante diferentes técnicas son capaces de descubrir cómo unas variables se relacionan con otras, bien para la determinación de conjuntos con cierto grado de similitud entre sus miembros (clustering) o bien para la predicción de una de ellas a partir del resto (predicción).

Pensemos en el modelo de analítica de datos como si fuera un niño pequeño al que, para aprender a hablar, le mostramos cómo vocalizar y pronunciar: si le repetimos constantemente “ama” y el niño consigue imitarnos, el modelo habrá aprendido. En el momento en que el niño comience a pronunciar, con relativa proficiencia, otras palabras (“ata”, “aita”, etc), el modelo será capaz de generalizar y descubrir patrones nuevos de valor que no había contemplado previamente.

Algún avispado lector se habrá planteado ya esta pregunta; ¿y qué mejor ejemplo de capacidad de aprendizaje que la propia Naturaleza? Efectivamente, gran parte de las técnicas de analítica de datos que utilizan compañías como Google, Amazon y Facebook se inspiran en procesos naturales. El ejemplo más evidente son las redes neuronales artificiales, que mimetizan el funcionamiento colaborativo de las neuronas que componen el sistema nervioso animal para generar un estímulo de salida a partir de una serie de estímulos de entrada. Pero el asunto trasciende mucho más allá de la neurocomputación: hay una verdadera infinidad de comportamientos animales y procesos naturales resultado de miles de años de aprendizaje y adaptación. Por ejemplo, los mecanismos de la evolución biológica de las especies como la reproducción, mutación, selección natural y supervivencia del individuo más fuerte han dado lugar a una prolífica rama de la Inteligencia Artificial conocida como la Computación Evolutiva. El estudio del comportamiento de las bandadas de pájaros y peces ha dado lugar a la llamada Computación en Enjambre, hoy en día utilizada para millones de aplicaciones.

Existen algoritmos y técnicas que imitan los procesos más inverosímiles que uno puede encontrar a lo largo del paseo de los domingos: la improvisación musical en bandas de jazz, el comportamiento del cuco a la hora de poner sus huevos en los nidos de otros pájaros (¡caradura!), el aleteo de las libélulas y el impacto de su brillo en sus compañeros de vuelo, la estructura jerárquica de las colonias de las abejas, la invasión de algas en temporadas de verano o la colonización de los corales para formar arrecifes. Todos ellos han dado lugar a nuevos modelos de agrupación, clasificación, predicción y optimización que mejoran el rendimiento de métodos clásicos de la literatura.

Una de estas técnicas recupera el hilo nostálgico de este artículo: los algoritmos de colonia de hormigas, que imitan el depósito de feromonas y la llamada estigmergia (comunicación deferida mediante el medio físico) que utilizan estos insectos a la hora de buscar comida. Mi madre me decía “mira siempre por donde pisas” cuando veía a otros niños pisar repetidamente sin piedad los hormigueros del jardín del patio.

Sabia ella, sabio Petete, sabia la Naturaleza, y afortunados los que nos dedicamos al Big Data.

Sobre Javier Del Ser Lorente

Empezó su carrera de Ingeniero Superior de Telecomunicaciones por la Universidad del País Vasco, título que finalmente obtuvo en Mayo de 2003. Seguidamente, en Noviembre de ese mismo año fue premiado con una beca doctoral de la Fundación de Centros Tecnológicos – Iñaki Goenaga para la realización de su tesis doctoral en el Centro de Estudios e Investigaciones Técnicas de Gipuzkoa (CEIT).

Defendió su tesis doctoral (Cum Laude) en Telecomunicaciones por la Universidad de Navarra en 2006, y una segunda tesis doctoral en Inteligencia Computacional por la Universidad de Alcalá de Henares en 2013, merced a la cual recibió el Premio Extraordinario de Doctorado de dicha Universidad. En la actualidad es Líder de Conocimiento en Analítica y Optimización, y Director Tecnológico del área de negocio OPTIMA (Optimización, Modelización y Analítica de Datos) en TECNALIA. Su actividad investigadora se centra en la teoría de la información y codificación, analítica de datos, aprendizaje máquina, teoría de grafos, heurística y, en general, analítica descriptiva, prescriptiva y predictiva para la resolución de problemas relacionados con redes de distribución inteligente (Smart grids), telecomunicaciones (con énfasis en radio cognitiva), investigación operativa, economía, salud y movilidad inteligente, entre muchos otros.

En estos campos ha publicado hasta la fecha más de 140 publicaciones científico-técnicas, editado 2 libros, dirigido 15 tesis de máster y 6 tesis doctorales, así como participado/dirigido varios proyectos de investigación. Ha sido el receptor, por dos ocasiones, del programa Torres Quevedo del Ministerio de Ciencia e Innovación (2007 & 2009). Es miembro senior del IEEE, y ha sido galardonado con el premio “Talento de Bizkaia” como reconocimiento a su experiencia y currículo científico. Compagina su pasión por la investigación científica con su afición por el deporte y la lectura.

3 Comentarios

  1. Compañero Javier:
    Comparto contigo la fascinación por el análisis e interpretación de los mensajes o variables ocultas que esconden los datos y su capacidad para resolver problemas y mejorar la eficacia y eficiencia de números productos, procesos o servicios.

    No obstante, hay un aspecto de todo esto que me intranquiliza. De la misma manera que, hasta ahora, la sociedad ha favorecido más a los que comercian con el valor que a los que crean valor, percibo un desequilibrio elevado entre los que crean conocimiento y los que lo gestionan y explotan.

    Si lleváramos al extremo que la primera línea del conocimiento genera datos y que son otros actores principales los que convierten esos datos en conocimiento, estaríamos transformado la actividad científico tecnológica experimental y los datos que genera en un commodity.

    Los procesos de ideación que llevan a enunciar una tesis sobre cómo resolver un problema para que en las posteriores fases experimentales de prototipaje se verifique dicha tesis, al menos parcialmente, son el alimento esencial para seguir generando muchas, nuevas y buenas ideas.

    Ojalá algún día los procesos de ideación capten la misma atención que ahora genera el tratamiento de datos.

    Reply

Dejar un comentario

* Campos obligatorios