Thesis Modelos predictivos de churn en telecomunicaciones: evaluación comparativa y análisis de aplicabilidad con técnicas de machine learning
Loading...
Date
0028-10
Journal Title
Journal ISSN
Volume Title
Program
Ingeniería Civil Industrial
Departament
Campus
Campus Santiago Vitacura
Abstract
Este estudio tiene como objetivo desarrollar un modelo predictivo que permita identificar a clientes con alta probabilidad de abandono (churn) en el sector de telecomunicaciones, utilizando técnicas de aprendizaje supervisado.  Para ello, se utilizó el conjunto de datos IBM Telco Customer Churn, ampliamente empleado como benchmark en problemas de clasificación binaria.  El proceso se desarrolló bajo la metodología CRISP-DM, abarcando la comprensión del negocio, preparación de los datos, modelado y evaluación.  Se implementaron y compararon múltiples algoritmos, entre ellos regresión logística, árboles de decisión, random forest, gradient boosting, XGBoost, CatBoost, KNN, Naive Bayes y redes neuronales (MLP).  Todos los modelos fueron evaluados bajo un esquema de validación cruzada y métricas como Recall, F1-Score, ROC AUC y PR AUC.  Para comparar los modelos de forma integral, se desarrolló un análisis multicriterio que incluyó dimensiones adicionales como la eficiencia computacional (tiempos de entrenamiento y testeo) y la interpretabilidad de cada modelo.  Posteriormente, se generaron más de 230.000 combinaciones de ponderaciones posibles entre estas métricas, con el fin de simular distintos escenarios de priorización por parte de los usuarios finales.  Los resultados muestran que el modelo MLP fue el más robusto, obteniendo el mejor puntaje en más del 34 % de las configuraciones. XGBoost y KNN también destacaron por su adaptabilidad a distintos criterios.  Por otro lado, modelos como la regresión logística y el árbol de decisión, aunque no lideraron en desempeño predictivo, ofrecieron ventajas en interpretabilidad y velocidad de ejecución.  Este enfoque permite no solo seleccionar el modelo con mejor desempeño promedio, sino también comprender su estabilidad frente a distintos perfiles de decisión.  Lo anterior resulta clave para facilitar la implementación de soluciones basadas en inteligencia artificial en contextos reales, donde las prioridades pueden variar entre precisión, velocidad y explicabilidad.
This study aims to develop a predictive model to identify customers with a high likelihood of churn in the telecommunications sector, using supervised learning techniques. The IBM Telco Customer Churn dataset was used as a benchmark for binary classification problems. Following the CRISP-DM methodology, the process covered business understanding, data preparation, modeling, and evaluation. Multiple algorithms were implemented and compared, including logistic regression, decision trees, random forest, gradient boosting, XGBoost, CatBoost, KNN, Naive Bayes, and neural networks (MLP). All models were evaluated using cross-validation and standard classification metrics such as Recall, F1-Score, ROC AUC, and PR AUC. To ensure a comprehensive comparison, the study incorporated additional evaluation dimensions, including computational efficiency (training and testing time) and model interpretability. An exhaustive robustness analysis was conducted by generating over 230.000 weight combinations across these metrics, simulating various prioritization scenarios. The results show that the MLP model was the most robust, achieving the highest score in more than 34% of all weight configurations. XGBoost and KNN also demonstrated strong adaptability across different evaluation profiles. In contrast, while models like logistic regression and decision trees did not excel in predictive performance, they provided advantages in terms of interpretability and low execution time.
This study aims to develop a predictive model to identify customers with a high likelihood of churn in the telecommunications sector, using supervised learning techniques. The IBM Telco Customer Churn dataset was used as a benchmark for binary classification problems. Following the CRISP-DM methodology, the process covered business understanding, data preparation, modeling, and evaluation. Multiple algorithms were implemented and compared, including logistic regression, decision trees, random forest, gradient boosting, XGBoost, CatBoost, KNN, Naive Bayes, and neural networks (MLP). All models were evaluated using cross-validation and standard classification metrics such as Recall, F1-Score, ROC AUC, and PR AUC. To ensure a comprehensive comparison, the study incorporated additional evaluation dimensions, including computational efficiency (training and testing time) and model interpretability. An exhaustive robustness analysis was conducted by generating over 230.000 weight combinations across these metrics, simulating various prioritization scenarios. The results show that the MLP model was the most robust, achieving the highest score in more than 34% of all weight configurations. XGBoost and KNN also demonstrated strong adaptability across different evaluation profiles. In contrast, while models like logistic regression and decision trees did not excel in predictive performance, they provided advantages in terms of interpretability and low execution time.
Description
Keywords
Sector de telecomunicaciones, Inteligencia artificial, Aprendizaje automático supervisado, Análisis multicriterio, Toma de decisiones basada en datos

 Política de Privacidad
 Política de Privacidad