mdp-project

Proyecto de Procesamiento Masivo de Datos CC-5212, Grupo 15

Cómo ejecutar

Descargar el dataset desde Kaggle (esta fue la versión del dataset utilizada en el proyecto, pero se actualiza a diario).
Colocar los .csv en la carpeta data
Ejecutar el notebook youtube-trending-video-dataset-cleaning.ipynb para generar el archivo .tsv.
Compilar el .jar con Ant.
Copiar data/youtube_kaggle_clean_dataset.tsv, keywordsCount.pig, y dist/mdp-project-burstdetector.jar al master del cluster.
Copiar el archivo youtube_kaggle_clean_dataset.tsv a HDFS.
Ejecutar el script de Pig con pig keywords-count.pig
Se puede revisar el output del script con hdfs dfs -cat /uhadoop2023/proyects/lostilines/output/part-r-00000 | more.
Crear dos topics para el stream de YouTube y el stream filtrado con kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic groupname -example (en el proyecto se utilizaron lostilines-youtube y lostilines-youtube-filtered, respectivamente).
Ejecutar el detector de bursts con java -jar mdp-project-burstdetector.jar BurstDetector lostilines-youtube-filtered [FIFO_SIZE] [EVENT_START_TIME_INTERVAL] (aquí se utilizó FIFO_SIZE = 10 y EVENT_START_TIME_INTERVAL = 6, que se mide en horas).
Ejecutar el filtro de keywords con java -jar mdp-project-burstdetector.jar VideoFilter lostilines-youtube lostilines-youtube-filtered [keyword1] [keyword2] ... (las keywords utilizadas se detallan en la presentación, pero están contenidas en los resultados del script de Pig).
Ejecutar el simulador de YouTube con java -jar mdp-project-burstdetector.jar YouTubeSimulator youtube_kaggle_clean_dataset.tsv lostilines-youtube [SPEEDUP] (se utilizó SPEEDUP = 10000000)

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
data		data
dist		dist
lib		lib
src/org/mdp/kafka		src/org/mdp/kafka
.classpath		.classpath
.gitignore		.gitignore
.project		.project
.pydevproject		.pydevproject
README.md		README.md
build.xml		build.xml
keywordsCount.pig		keywordsCount.pig
stopwords.txt		stopwords.txt
youtube-trending-video-dataset-cleaning.ipynb		youtube-trending-video-dataset-cleaning.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

mdp-project

Cómo ejecutar

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

mdp-project

Cómo ejecutar

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages