La importancia del pre-procesamiento en Data Analysis

by - octubre 24, 2020

Siempre que pensamos en data analysis pensamos que es la actividad que se ve en películas o el imaginario que estaremos procesando grandes bases de datos, creando un algoritmo para automatizar el proceso y más, pero no. Realmente la mayor cantidad de tiempo empleado, y normalmente donde hay más empleo, es en la limpieza, estandarización y organización de la base de datos.

Woman with data around here Data Science
This is Engineering | Pexels

Este es todo el proceso que debe realizarse antes de iniciar cualquier procesamiento, y básicamente consiste en sanitizar y asegurarse que sabemos que la base de datos es coherente, y sabemos leerla.

Importancia del pre-procesamiento


En mi experiencia procesando estadisticamente bases de datos grandes siempre es necesario hacer un pre-procesamiento que sirva inicialmente para conocer la base de datos, y segundo estandarizar los datos de acuerdo con lo que requerimos durante el procesamiento que debemos hacer. Su importancia está en que va a ser igualmente necesario hacer antes o durante el procesamiento, así que si se hace antes de comenzar ahorrará tiempo al final del procesamiento.

Considero que lo primero que se debe revisar, y que debería exigirse, es el Diccionario de variables, esta es una herramienta imprescindible, porque normalmente en una base de datos los nombres de las variables no son sobreexplicativas, por lo que desconoceremos a qué hace referencia cada una, y qué categorias están contenidas.

Hay casos en lo que no podemos disponer del diccionario de variables, por muchas razones, la más común es que con quienes trabajamos desconocen su importancia, así que lo primero que deberíamos realizar es reconstruir el diccionario de variables, y este servirá como hoja de ruta para todos los involucrados.

También es necesario revisar cómo se comportan las variables, y con la información del diccionario, identificar cuál es el comportamiento esperado de las variables, para así saber cuándo hay valores que no corresponden con la realidad, es decir, que tenga valores o categorias que no estén consideradas dentro de las opciones de respuesta.

Por otro lado, también es necesario comenzar a revisar la base de datos para identificar si las variables están en el formato que se requiere para luego procesarlas, como por ejemplo, cuando tenemos datos de georeferenciación o el un identificador de barrio que siempre debe tener 4 digitos, es más recomendable tener el formato de la variable como de tipo carácter y no númerico.

Relacionado con esto último, es necesario ir filtrando la base de datos con lo que se requieren, identificando con anterioridad las variables que se usarán, para que una vez se empiece a procesar, el peso del archivo sea menor.

Y finalmente, enlistar todo el procesamiento que se haya solicitado, para hacer un flujo de trabajo previo a comenzar a trabajar, de esta manera se puede trabajar de forma más eficiente.

Puede interesarte también

0 Comentarios