
Vol. 2 N° 2, julio-diciembre 2023 (26-34)
Lady Marieliza Espinoza Tinoco, Ana Elizabeth Congacha Aushay, Juan Carlos Díaz Ordóñez 27
Ilyas & Chu (2019) afirman que los datos pueden verse afectados por los errores previamente
mencionados, lo cual representa un problema para quienes trabajan con ellos. Estos errores han
costado un promedio de 12.9 millones de dólares cada año a varias organizaciones (Sakpal, 2021). Para
abordar este problema, Ilyas & Chu (2019) proponen dos fases para el proceso de limpieza de datos: la
detección de errores, donde identifican y validan errores y la segunda, donde se reparan errores en
mediante la aplicación de actualizaciones adecuadas a los datos para posteriores usos. En la fase de
detección de errores se pueden usar técnicas cuantitativas o cualitativas. Las primeras emplean
métodos estadísticos para identificar valores anormales, mientras las segundas se basan en enfoques
descriptivos para especificar patrones o restricciones consistentes en los datos, identificando como
errores aquellos datos que violan dichos patrones o restricciones.
En el estudio de Lentini (2021), además de incluir las fases mencionadas, encierra una fase previa
denominada “definición de metadatos”. Estos metadatos, fundamentales para comprender y mejorar
la calidad de los datos, pueden ser establecidos manualmente por expertos del dominio o descubiertos
automáticamente mediante un análisis automático del conjunto de datos, o una combinación de ambos
métodos. Cada enfoque tiene sus ventajas y limitaciones, y la elección dependerá del alcance y la
complejidad del conjunto de datos que se busca limpiar y mejorar. Por otro lado, autores como Müller
& Freytag (2003) establecen una fase de “auditoría de datos” inicial y una fase final de “post
procesamiento y control”. Si durante esta última fase se encuentran tuplas no corregidas inicialmente,
se inicia un nuevo ciclo en el proceso de limpieza de datos, comenzando por auditar los datos y
buscando características en datos excepcionales.
La calidad de los datos, en esencia, se entiende como el grado en que los datos de interés satisfacen
los requisitos, están libres de defectos y son adecuados para el propósito previsto (Hassenstein &
Vanella, 2022). Los datos de calidad son claves para el análisis de datos, en escenarios prácticos se
asocian generalmente con el preprocesamiento (Ehrlinger & Wöß, 2022). El objetivo de la preparación
de datos es proporcionar datos de alta calidad (West et al., 2021).
Según estos últimos autores los criterios para evaluar la calidad de datos son Exactitud, grado en
que los datos describen correctamente un objeto o evento en cuestión; Integridad, grado en que los
datos están completos y tiene un carácter de suficiente; Libre de Errores, grado en que los datos
proporcionados son correctos y confiables y Valor Añadido, grado en que los datos permiten obtener
beneficios mediante su uso analítico.
Las técnicas que incluyen el uso de varios programas como Excel demuestran complejidad de uso,
consumen más tiempo y demandan un amplio conocimiento del empleo de fórmulas (Dasari & Varma,
2022). En muchas ocasiones no son replicables, es decir, no servirán para otro conjunto de datos. Por
lo que las técnicas de limpieza de datos usadas en el lenguaje de programación Python resultan más
eficientes y rápidas en comparación con las de los métodos clásicos. Python como lenguaje de
programación se caracteriza por su versatilidad y su código abierto que cuenta con una amplia
variedad de librerías y herramientas especializadas en el procesamiento y manipulación de datos. Al
automatizar tareas de limpieza, validación y transformación de datos, facilita el trabajo de los analistas
y mejora la calidad de los resultados.
De acuerdo con McKinney (2011), Python ha experimentado un significativo avance en
accesibilidad, al ser ampliamente utilizado en lugar de R, Matlab, Stata, SAS y otras aplicaciones
científicas. Esto se ha logrado gracias a la madurez y escalabilidad de las bibliotecas fundamentales.
Específicamente la librería Pandas, que de acuerdo con el Equipo de Desarrollo de Pandas (2023) es un
paquete que proporciona estructuras de datos rápidas, flexibles y expresivas, diseñadas para facilitar
el trabajo con datos de manera fácil e intuitiva. Ofrece, además, un manejo sencillo de datos faltantes,