La importancia del pre-procesamiento en Data Analysis
This is Engineering | Pexels
Este es todo el proceso que debe realizarse antes de iniciar cualquier procesamiento, y básicamente consiste en sanitizar y asegurarse que sabemos que la base de datos es coherente, y sabemos leerla.
Importancia del pre-procesamiento
En mi experiencia procesando estadisticamente bases de datos grandes siempre es necesario hacer un pre-procesamiento que sirva inicialmente para conocer la base de datos, y segundo estandarizar los datos de acuerdo con lo que requerimos durante el procesamiento que debemos hacer. Su importancia está en que va a ser igualmente necesario hacer antes o durante el procesamiento, asà que si se hace antes de comenzar ahorrará tiempo al final del procesamiento.
Considero que lo primero que se debe revisar, y que deberÃa exigirse, es el Diccionario de variables, esta es una herramienta imprescindible, porque normalmente en una base de datos los nombres de las variables no son sobreexplicativas, por lo que desconoceremos a qué hace referencia cada una, y qué categorias están contenidas.
Hay casos en lo que no podemos disponer del diccionario de variables, por muchas razones, la más común es que con quienes trabajamos desconocen su importancia, asà que lo primero que deberÃamos realizar es reconstruir el diccionario de variables, y este servirá como hoja de ruta para todos los involucrados.
También es necesario revisar cómo se comportan las variables, y con la información del diccionario, identificar cuál es el comportamiento esperado de las variables, para asà saber cuándo hay valores que no corresponden con la realidad, es decir, que tenga valores o categorias que no estén consideradas dentro de las opciones de respuesta.
Por otro lado, también es necesario comenzar a revisar la base de datos para identificar si las variables están en el formato que se requiere para luego procesarlas, como por ejemplo, cuando tenemos datos de georeferenciación o el un identificador de barrio que siempre debe tener 4 digitos, es más recomendable tener el formato de la variable como de tipo carácter y no númerico.
Relacionado con esto último, es necesario ir filtrando la base de datos con lo que se requieren, identificando con anterioridad las variables que se usarán, para que una vez se empiece a procesar, el peso del archivo sea menor.
Y finalmente, enlistar todo el procesamiento que se haya solicitado, para hacer un flujo de trabajo previo a comenzar a trabajar, de esta manera se puede trabajar de forma más eficiente.
0 Comentarios