Publication:
MODELAMIENTO PREDICTIVO MEDIANTE APRENDIZAJE SUPERVISADO DE MÁQUINA PARA DATOS INDUSTRIALES MASIVOS: CASO APLICADO A EMPRESA FERROVIARIA

No Thumbnail Available
Date
2019
Authors
CONTRERAS CANEO, CRISTIAN ANDRÉS
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Abstract
El crecimiento exponencial de datos industriales generados por sensores, equipos y dispositivos modernos está impulsando al sector de servicios a utilizar herramientas analíticas cada vez más sofisticadas que sean capaces de producir conocimiento útil y predecir eventos determinados, especialmente para aquellas que requieran reducir costos por medio del mantenimiento preventivo. El presente trabajo consiste en como analizar datos industriales masivos, en este caso particular, de una empresa ferroviaria, con un enfoque en la construcción de un modelo predictivo que pueda ser utilizado para predecir si la fuerza vertical total que una rueda de un tren ejerce sobre un riel (“peak kips”) se encuentra sobre un valor determinado. En esta instancia, los vagones implicados deberán ser retirados para su posterior reparación. Para lograr este objetivo, se utilizará Apache Spark, un software especializado para trabajar en Big Data, el cual junto con MLlib, un sistema distribuido de aprendizaje de máquina, permitirá procesar los sets de datos de entrenamiento y prueba entregados por el sistema WILD (“Wheel Impact Load Detector”) instalados en los rieles. El modelo consiste en la construcción de un árbol de decisión mediante el algoritmo de bosques aleatorios a partir de una selección de atributos de los sets de datos de entrada, utilizando la fuerza ejercida sobre el riel como la variable dependiente. La limpieza de datos, extracción de características y el entrenamiento del modelo será programado en Scala, un lenguaje claro y conciso, el cual también se utiliza como método principal para la interacción con Apache Spark. Para fines académicos, el modelamiento será ejecutado en un clúster de un solo nodo pseudo distribuido en el sistema operativo Ubuntu 16.04, y los sets de datos cargados al sistema de archivos distribuidos de Hadoop (HDFS), un almacenamiento confiable para archivos grandes que permite procesamiento paralelo.
The exponential growth of industrial data being generated by sensors, modern equipment and devices is pushing the service sector to use more sophisticated analytics tools that can produce useful knowledge and predict certain events, especially for those which require reducing loss through preventive maintenance. This work shows how to analyze massive industrial data, in this particular case from a railroad company, and aims at building a predictive model which can be used to project if a total vertical force a wheel imposes on the rail (peak kips) is above to a certain value. In this instance, the involved cars will need to be set out for repair. To achieve this, we will use Apache Spark, a specialized software for Big Data, which along with MLlib, a distributed machine learning framework, it will allow us to process the training and test data provided by the Wheel Impact Load Detector installed on the tracks. The model consists of constructing a decision tree through the Random Forest Algorithm with a selection of characteristics from the input datasets, and using the wheel peak kips as the dependent variable. Data cleaning, feature extraction and model training will be coded in Scala, a concise and clear programming language, which is also the main method to interact with Apache Spark. For academic purposes, the modeling will be set up on a pseudo-distributed single node cluster in Ubuntu 16.04, and the datasets loaded to Hadoop Distributed File System (HDFS), a reliable storage for large files that allows parallel processing.
Description
Keywords
APRENDIZAJE DE MAQUINAS , MODELAMIENTO PREDICTIVO , DATOS INDUSTRIALES MASIVOS
Citation