#CIENCIAIBERO ¿Cómo resolver un problema usando la ciencia de datos?

Mar, 26 Ene 2021
Docente de la IBERO da la plática ‘¿Cómo resolver un problema usando la ciencia de datos? Una perspectiva de ingeniería’
  • La ciencia de datos consiste en extraer y generar conocimiento de los datos para resolver problemas (Pixabay).
  • Dr. Jorge Ángel González Ordiano, académico del Departamento de Estudios en Ingeniería para la Innovación.

Aunque es un término que se escucha comúnmente y resulta un poco difícil de definir, porque puede englobar muchas cosas, la ciencia de datos es más que nada generar conocimiento para resolver problemas usando datos, dijo el Dr. Jorge Ángel González Ordiano, académico del Departamento de Estudios en Ingeniería para la Innovación (DEII) de la Universidad Iberoamericana Ciudad de México.

En su plática ¿Cómo resolver un problema usando la ciencia de datos? Una perspectiva de ingeniería, que formó parte del Primer Seminario de Métodos Primavera 2021, organizado por Social Data IBERO, el Doctor aclaró que los datos por sí solos no sirven; por lo que la ciencia de datos, también conocida con otros términos, como minería de datos, métodos de big data, machine learning o predictive analytics, consiste en extraer y generar conocimiento de los datos para resolver problemas.

La resolución de esas problemáticas se hace a través de métodos matemáticos y estadísticos, y con diversos sistemas de cómputo, como Python y MATLAB, que permiten trabajar con y manipular los datos.

Ya que a veces los datos no tienen la calidad suficiente para poder extraer información de éstos, lo primero que se debe hacer es un trabajo de preprocesamiento de datos, con el fin de mejorar la calidad de los datos, para que sean útiles para poder extraer conocimiento.

Una vez hecho lo anterior, se pueden resolver muchos problemas, desde emitir en Amazon o en Google recomendaciones de páginas donde ver cosas que a cierto tipo de gente le puede interesar comprar; hasta pronosticar la generación de energía renovable, para poder mejorar los algoritmos de control del sistema eléctrico. Sin embargo, “el cielo es el límite a los problemas que podemos resolver, siempre y cuando tengamos los datos y los conocimientos para extraer información de ellos”.

El doctor González Ordiano detalló que la resolución de un problema, usando ciencia de datos, implica: formular y concretizar el problema. Por ejemplo, si se tiene un conjunto de fotos de perros y de gatos, y se desea distinguir lo que es un perro de lo que es un gato, este problema se puede concretizar dando el valor de ‘A’ a los perros y el de ‘B’ a los gatos, y a partir de ahí usar alguna de las técnicas que existen para crear un algoritmo de clasificación de imágenes.

Con la ciencia de datos también se pueden hacer pronósticos del futuro, toda vez que pronosticar el futuro usando datos tiene una suposición muy fuerte, que es: el pasado va a asemejar al futuro.

“Si quiero pronosticar cuánta energía solar va a generar un sistema fotovoltaico y los datos que tengo del pasado son puros días soleados, y yo quiero con base en eso crear un algoritmo para pronosticar el día siguiente, yo voy a pronosticar, lo más seguro, que va a ser un día soleado y que voy a generar mucha energía. Pero si llueve, como no tengo ejemplos de eso en el pasado, no lo voy a poder predecir”.

Bajo la misma suposición de que, los datos que tengo asemejan lo que va a ocurrir en el futuro, uno puede también pronosticar la incertidumbre; para esto se pueden utilizar las regresiones cuantílicas, modelos que permiten estimar intervalos, por ejemplo, “de que mañana hay un 80% de probabilidad de que ocurra algún evento”.

Finalmente, el doctor Jorge Ángel González Ordiano aclaró que, aun haciendo uso de la ciencia de datos, pronosticar el futuro es algo complejo, por lo que generalmente lo que se puede pronosticar son las cosas que van a suceder a corto plazo. Por eso dijo que, por ejemplo, el desarrollo de la pandemia de coronavirus quizá se podría pronosticar a corto plazo, pero más allá de tres semanas es muy difícil saber que habrá de ocurrir.

El seminario

El Primer Seminario de Métodos Primavera 2021, organizado por Social Data IBERO, es una propuesta interdisciplinaria y de interaprendizaje para la creación de un lenguaje común entre los diferentes departamentos académicos e institutos de investigación de la Universidad Iberoamericana Ciudad de México.

Social Data Ibero es un espacio transdisciplinario en ciencia de datos que permite el manejo de encuestas, drones, redes sociales, noticias, instrumentos médicos, geolocalización, archivos de audio, imágenes y videos, entre otras fuentes, para fortalecer la investigación que se desarrolla en la IBERO, en donde el desarrollo científico convive con la vocación humanista.

  • Notas relacionadas:

Presentan Social Data IBERO, consorcio de ciencia de datos al servicio de la sociedad

Social Data IBERO, proyecto de vanguardia sobre la ciencia de datos

Texto: PEDRO RENDÓN/ICM

 

Las opiniones y puntos de vista vertidos en este comunicado son de exclusiva responsabilidad de quienes los emiten
y no representan necesariamente el pensamiento ni la línea editorial de la Universidad Iberoamericana.

Para mayor información sobre este comunicado llamar a los teléfonos: (55) 59 50 40 00, Ext. 7594, 7759
Comunicación Institucional de la Universidad Iberoamericana Ciudad de México
Prol. Paseo de la Reforma 880, edificio F, 1er piso, Col. Lomas de Santa Fe, C.P. 01219