Random Forest como herramienta para mejorar la precisión en la imputación de datos meteorológicos en Chimborazo, Ecuador

Autores/as

DOI:

https://doi.org/10.61347/ei.v4i2.169

Palabras clave:

Datos faltantes, imputación, k-vecinos más cercanos (k-NN), meteorología, Random Forest (RF)

Resumen

Gestionar la información faltante en los registros meteorológicos monitoreados por el Grupo de Energías Alternativas y Ambientales (GEAA) es esencial para realizar un análisis climático preciso y tomar decisiones informadas. El objetivo de este artículo fue evaluar la efectividad del algoritmo Random Forest mediante el software estadístico R. La investigación tuvo un enfoque cuantitativo con un alcance descriptivo-comparativo; el diseño es no experimental y longitudinal. Se comparó Random Forest (k-NN) con el de k-vecinos más cercanos (k-NN o K-Nearest Neighbors) utilizando diversas métricas, como Error Cuadrático Medio (RMSE), Error Medio Absoluto (MAE), pruebas de Kolmogorow-Smirnov, sumado a ello la eficiencia computacional en cuanto al tiempo y memoria. Los resultados indicaron que Random Forest obtuvo mayor precisión con respecto a k-NN; los valores de RMSE y MAE son evidentemente más bajos. RF demandó mayor recurso computacional, la capacidad y efectividad al momento de procesar registros de alta complejidad lo convierten en la mejor opción, proporcionando mayor confiabilidad al momento de imputar y, por ende, datos de calidad.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Amat, J. (2020). Árboles de decisión, random forest, gradient boosting y C5.0. RPubs by RStudio. https://rpubs.com/joaquin_ar/255596

Bashir, N., Mir, A., Daud, A., Rafique, M., & Bukhari, A. (2024). Time Series Reconstruction With Feature-Driven Imputation: A Comparison of Base Learning Algorithms. IEEE Access, 12, 85511-85530. https://ieeexplore.ieee.org/abstract/document/10559977

Breiman, L. (2001). Random forests. Machine Learning, 45, 5–32. https://doi.org/10.1023/A:1010933404324

Céspedes, B. (2022). Aplicación del Algoritmo "Random Forest" para un modelo de clasificación sobre la tenencia de anemia de niños del Perú [Tesis doctoral, Universidad Nacional del Santa]. Repositorio Institucional Digital. https://repositorio.uns.edu.pe/handle/20.500.14278/4007

Díaz-Uriarte, R., & Alvarez, S. (2006). Gene selection and classification of microarray data using random forest. BMC Bioinformatics, 7(3). https://doi.org/10.1186/1471-2105-7-3

Dimitri, G., Cappelli, I., Scarselli, F., Fort, A., & Gori, M. (2024). Graph neural networks for missing data imputation in time series from meteorological sensors. In Proceedings of IEEE MetroXRAINE 2024 (pp. 1242–1247). https://doi.org/10.1109/metroxraine62247.2024.10796616

Economou, T., Lazoglou, G., Tzyrkalli, A., Constantinidou, K., & Lelieveld, J. (2023). A data integration framework for spatial interpolation of temperature observations using climate model data. PeerJ, 11, e14519. https://doi.org/10.7717/peerj.14519

Galván, M., & Medina, F. (2007). Imputación de datos: teoría y práctica (Estudios Estadísticos 4755). Comisión Económica para América Latina y el Caribe (CEPAL). https://ideas.repec.org/p/ecr/col027/4755.html

Han, S., Kim, H., & Lee, Y. (2020). Double random forest. Machine Learning, 109, 1569–1586. https://doi.org/10.1007/s10994-020-05889-1

Hastie, T., Tibshirani, R., & Friedman, J. (2009). Random forests. In The Elements of Statistical Learning (pp. 587-604). Springer. https://doi.org/10.1007/978-0-387-84858-7_15

Hayawi, K., Shahriar, S., & Hacid, H. (2024). Imputación de datos climáticos y mejora de la calidad mediante datos satelitales. Revista de Ciencia de Datos y Sistemas Inteligentes, 3 (2), 87-97. https://doi.org/10.47852/bonviewJDSIS42022857

Hernández-Sampieri, R., & Mendoza, C. (2018). Metodología de la investigación: Las rutas cuantitativa, cualitativa y mixta. McGraw Hill Education. https://doi.org/10.22201/fesc.20072236e.2019.10.18.6

Hou, T., Wu, L., Zhang, X., Wang, X., & Huang, J. (2023, November). STA-Net: Reconstruct Missing Temperature Data of Meteorological Stations Using a Spatiotemporal Attention Neural Network. In International Conference on Neural Information Processing (pp. 29-52). Singapore: Springer Nature Singapore. https://link.springer.com/chapter/10.1007/978-981-99-8126-7_3

Lacourly, N. (2012). Estadística multivariada. Ebooks Patagonia – J. C. Sáez Editor.

Qi, Y. (2012). Random Forest for Bioinformatics. In C. Zhang & Y. Ma (Eds.), Ensemble Machine Learning (pp. 307-323). Springer. https://doi.org/10.1007/978-1-4419-9326-7_11

Rizal, M., Wigena, A., & Afendi, F. (2022). Time series imputation using VAR-IM (case study: Weather data in meteorological station of Citeko). BAREKENG: Journal of Mathematics and its applications, 16(4), 1373-1384. https://doi.org/10.30598/barekengvol16iss4pp1373-1384

Saied, M., & Guirguis, S. (2025). Explainable artificial intelligence for botnet detection in internet of things. Scientific Reports, 15, 7632. https://doi.org/10.1038/s41598-025-90420-6

Schonlau, M., & Zou, R. (2020). The random forest algorithm for statistical learning. Stata Journal, 20(1), 3–29. https://doi.org/10.1177/1536867X20909688

Silva, L. (2024). Comparación y Evaluación de Métodos para la Imputación de Precipitación Faltante. Ciencia Latina Revista Científica Multidisciplinar, 8(5), 11486-11501. https://doi.org/10.37811/cl_rcm.v8i5.14538

Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D., & Altman, R. (2001). Missing value estimation methods for DNA microarrays. Bioinformatics, 17(6), 520–525. https://doi.org/10.1093/bioinformatics/17.6.520

Velastegui, E., & Horna, E. (2023). Comparación de técnicas de relleno de datos faltantes de la variable velocidad de viento de los años 2014 al 2021 [Tesis de grado, Escuela Superior Politécnica de Chimborazo]. https://dspace.espoch.edu.ec/items/cb89c4e1-8554-447b-8f75-926704c44060

Yarupaita, B. (2021). Modelación espacial de la susceptibilidad a incendios forestales en la región Junín utilizando el algoritmo Random Forest [Tesis de maestría, Universidad Nacional del Centro del Perú]. Repositorio Institucional UNCP. http://hdl.handle.net/20.500.12894/7524

Zúñiga, I., & Crespo, E. (2021). Meteorología y climatología. UNED - Universidad Nacional de Educación a Distancia. https://dialnet.unirioja.es/servlet/libro?codigo=789631

Descargas

Publicado

2025-09-30

Cómo citar

Naranjo Ordoñez, L. S., & Escudero Villa, A. I. (2025). Random Forest como herramienta para mejorar la precisión en la imputación de datos meteorológicos en Chimborazo, Ecuador. Esprint Investigación, 4(2), 358–375. https://doi.org/10.61347/ei.v4i2.169