Proyecto de Procesamiento Masivo de Datos CC-5212, Grupo 15
- Descargar el dataset desde Kaggle (esta fue la versión del dataset utilizada en el proyecto, pero se actualiza a diario).
- Colocar los .csv en la carpeta data
- Ejecutar el notebook
youtube-trending-video-dataset-cleaning.ipynbpara generar el archivo .tsv. - Compilar el .jar con Ant.
- Copiar
data/youtube_kaggle_clean_dataset.tsv,keywordsCount.pig, ydist/mdp-project-burstdetector.jaral master del cluster. - Copiar el archivo
youtube_kaggle_clean_dataset.tsva HDFS. - Ejecutar el script de Pig con
pig keywords-count.pig - Se puede revisar el output del script con
hdfs dfs -cat /uhadoop2023/proyects/lostilines/output/part-r-00000 | more. - Crear dos topics para el stream de YouTube y el stream filtrado con
kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic groupname -example(en el proyecto se utilizaronlostilines-youtubeylostilines-youtube-filtered, respectivamente). - Ejecutar el detector de bursts con
java -jar mdp-project-burstdetector.jar BurstDetector lostilines-youtube-filtered [FIFO_SIZE] [EVENT_START_TIME_INTERVAL](aquí se utilizóFIFO_SIZE = 10yEVENT_START_TIME_INTERVAL = 6, que se mide en horas). - Ejecutar el filtro de keywords con
java -jar mdp-project-burstdetector.jar VideoFilter lostilines-youtube lostilines-youtube-filtered [keyword1] [keyword2] ...(las keywords utilizadas se detallan en la presentación, pero están contenidas en los resultados del script de Pig). - Ejecutar el simulador de YouTube con
java -jar mdp-project-burstdetector.jar YouTubeSimulator youtube_kaggle_clean_dataset.tsv lostilines-youtube [SPEEDUP](se utilizóSPEEDUP = 10000000)