Thesis Análisis y clasificación de textos ilícitos como apoyo para la gestión de espionaje policial
Loading...
Date
2023-07
Authors
Journal Title
Journal ISSN
Volume Title
Program
Ingeniería Civil Informática
Departament
Campus
Campus Casa Central Valparaíso
Abstract
Día a día, nuevas generaciones encuentran en internet un lugar más por donde coexistir y donde crear una imagen de sí mismos distinta a la que reciben de sus padres o profesores. Muchas veces, ni ellos, ni sus tutores, cuentan con la madurez y/o las herramientas suficientes para concebir los riesgos inherentes en internet. Uno de los más frecuentes suele ser la captación de menores (grooming) que, tan solo en el año 2020, tuvo un incremento del 97,5% debido a la COVID-19. Parte de las soluciones propuestas por los investigadores, se enfocaron en distinguir línes escritas por pedófilos o pseudovíctimas, y en crear perfiles con base en características psicolinguísticas, empleando clasificadores tradicionales como KNN o SVM, combinados con n-gramas. LIWC o TF-IDF. El problema, sin embargo, es que al no ser alternativas a nivel de conversaciones, resultan poco prácticas. La competencia "PAN 2012" buscó precisamente este objetivo, consiguiendo en el mejor de los casos (BOW con TF-IDF y SVM con NN) un valor F del 87,34%. con la llegada de los modelos atencionales, muchas tareas NLP se vieron beneficiadas. Producto de lo anterior, en este trabajo se propone un modelo de inteligencia rtificial BERT capaz de discriminar conversaciones con fines perversos (manipulación, explotación o abuso sexual) hacia menores. Los resultados muestran una mejora del 7,00% en el valor F con respecto al mejor candidato en "PAN 2012". La aplicación de la solución en diversos diálogos protagonizados por acechadores sexuales, revelan la eficacia, robustex y certinidad de la arquitectura, consolidándola como un primer acercamiento hace un instrumento proventivo que apoye y facilite el trabajo de los agentes policiales durante sus investigaciones.
Description
Keywords
Captación de menores en internet, Inteligencia artificial aplicada a ciberseguridad, BERT, Procesamiento de lenguaje natural (NLP)
