Publication:
ANÁLISIS Y PROPUESTA DE MEJORAS A ALGORITMOS DE DETECCIÓN INTRÍNSECA DE PLAGIO

Thumbnail Image
Date
2016
Authors
REYES FERNÁNDEZ, PABLO LUIS
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Técnica Federico Santa María
Research Projects
Organizational Units
Journal Issue
Abstract
Plagiarism is a problem that in the last years has grown due to the many electronic documents on the Internet, making the task of detecting plagiarism manually is practically impossible. Because of this there has been an increase in research of automatic detection of plagiarism. The research of automatic plagiarism detection on text has developed into two main branches:Plagiarism detection with reference It is analyzing the fragments of a document and compare it with a corpus of original documents, searching if some fragment of the document is contained in any of the documents in the corpus Intrinsic plagiarism detection It is analyzing the fragments of a document, without the need for a corpus of original documents, looking the fragments that may not have been written by the author, after to study the characteristics of document style.This work presents an investigation of current techniques on automatic plagiarism detection on text, for then focus on the intrinsic plagiarism detection. Within the scope of the intrinsic plagiarism detection, some algorithms are reviewed, more deeply the DOCODE algorithm, winner of the international competition plagiarism detection PAN 2011 in the category of intrinsic plagiarism detection. Finally, two improvements are proposed to the DOCODE algorithm, called DOCODE Normalizado and DOCODE Normalizado por Segmento, both are tested using the corpus made available by the PAN competition of 2011 and evaluated using standards set by such competition. The results show that the proposed improvements to DOCODE algorithm achieve better performance in detecting possible plagiarized fragments.
El plagio es un problema que en los últimos años a tomado mayor fuerza debido a la gran cantidad documentos electrónicos presentes en la Internet, haciendo que la tarea de detectar plagio de manera manual sea prácticamente imposible. Debido a esto ha existido un aumento en investigación de detección automática de plagio, la cual en lo que a texto se re¿ere se ha desarrollado en dos grandes ramas:Detección de plagio con referencia Consiste en analizar los fragmentos de un documento y compararlo con un corpus de documentos originales, buscando si alguno de los fragmentos del documento en análisis está contenido en alguno de los documentos del corpus. Detección intrínseca de plagio Consiste en analizar los fragmentos de un documento, y sin la necesidad de contar con un corpus de documentos originales, determinar los fragmentos que puedan no haber sido escritos por el autor a partir del análisis de características estilográ¿cas dentro del documento.Este trabajo presenta una investigación de las técnicas actuales de detección automática de plagio en texto, para luego enfocarse en la detección intrínseca de plagio. Dentro del ámbito de la detección intrínseca de plagio, se revisan algunos algoritmos, analizando con mayor profundidad el algoritmo DOCODE, ganador de la competencia internacional de detección de plagio PAN el año 2011 en la categoría de detección intrínseca de plagio. Finalmente se proponen dos mejoras al algoritmo DOCODE, llamadas DOCODE Normalizado y DOCODE Normalizado por Segmento, las cuales son probadas utilizando el corpus de prueba puesto a disposición por la competencia PAN del año 2011 y evaluadas usando estándares ¿jados por dicha competencia. Los resultados muestran que las mejoras propuestas a DOCODE logran un mejor desempeño en la detección de posibles fragmentos plagiados.
Description
Catalogado desde la version PDF de la tesis.
Keywords
DETECCION INTRINSECA DE PLAGIO , DOCODE , PLAGIO
Citation