Thesis
Selección de características: una propuesta de NSGA-II con nuevas estrategias de inicialización

Loading...
Thumbnail Image

Date

2025-07

Journal Title

Journal ISSN

Volume Title

Program

Ingeniería Civil Informática

Campus

Campus Casa Central Valparaíso

Abstract

Esta memoria aborda el problema de selección de características como una tarea de optimización multi-objetivo, motivada por el aumento en el volumen de características de los conjuntos de datos utilizados en aplicaciones modernas de aprendizaje automático. El objetivo es identificar un subconjunto reducido de características que mejore la precisión en la clasificación. Se propone el uso de la prueba estadística chi-cuadrado para inicializar el algoritmo evolutivo NSGA-II, aprovechando su naturaleza basada en población para encontrar un conjunto de soluciones no dominadas y de alta calidad. Se proponen y evalúan dos estrategias de inicialización. Se probaron seis conjuntos de datos de distintas áreas, con un rango de entre 16 y 12,600 características. Se observaron mejoras en la precisión y la generalización, especialmente al inicializar con un 10% de las características. Además, las estrategias propuestas no aumentaron significativamente el tiempo de cómputo y obtuvieron resultados competitivos frente al estado del arte en términos de hipervolumen.
This thesis addresses the feature selection problem as a multi-objective optimization task, motivated by the increasing number of features in datasets used in modern machine learning applications. The goal is to identify a reduced subset of features that improves classification accuracy. We propose using the chi-square statistical test to initialize the evolutionary algorithm NSGA-II, taking advantage of its population-based nature to find a set of non-dominated, high-quality solutions. Two initialization strategies are proposed and evaluated. Six datasets from different domains were tested, ranging from 16 to 12,600 features. Improvements in accuracy and generalization were observed, especially when initializing with 10% of the features. Moreover, the proposed strategies did not significantly increase computational time and achieved competitive results compared to the state of art in terms of hypervolume.

Description

Keywords

Selección de características, NSGA-II, Chi-cuadrado, Optimización multi-objetivo, Algoritmos evolutivos, Feature selection, Chi-square, Multi-objetive optimization, Evolutionary algorithms

Citation