update

csolaina-cmu-F24 · csolaina-cmu-F24 · commit 270e4a7f9dde · 2025-11-11T00:09:04.000-08:00
diff --git a/Jenkinsfile b/Jenkinsfile
@@ -35,7 +35,7 @@ spec:
     SONAR_SERVER = "sonarqube"
     GCP_SA_CRED  = "gcp-sa"
 
-    // Optional override (leave empty) — if you know a working path, set it to one of:
+    // Optional override (leave empty). Accepts:
     //  - gs://hadoop-lib/hadoop-streaming/hadoop-streaming.jar
     //  - gs://<your-bucket>/lib/hadoop-streaming-3.3.6.jar
     //  - file:///usr/lib/hadoop-mapreduce/hadoop-streaming.jar
@@ -112,28 +112,23 @@ spec:
               echo "== Describe Dataproc cluster ==" && gcloud dataproc clusters describe "${CLUSTER_NAME}" --region "${REGION}" >/dev/null
               echo "== Probe GCS bucket ==" && gsutil ls "gs://${BUCKET}/" || true
 
-              # Helper: robust downloader (curl -> wget -> python)
+              # Helper downloader (curl -> wget -> python3)
               dl() {
                 local url="$1" out="$2"
-                if command -v curl >/dev/null 2>&1; then
-                  curl -fSL "$url" -o "$out" && return 0
-                fi
-                if command -v wget >/dev/null 2>&1; then
-                  wget -O "$out" "$url" && return 0
-                fi
+                if command -v curl >/dev/null 2>&1; then curl -fSL "$url" -o "$out" && return 0; fi
+                if command -v wget >/dev/null 2>&1; then wget -O "$out" "$url" && return 0; fi
                 if command -v python3 >/dev/null 2>&1; then
                   python3 - "$url" "$out" << 'PY'
 import sys, urllib.request
-u,o=sys.argv[1],sys.argv[2]
-urllib.request.urlretrieve(u,o)
+u,o=sys.argv[1],sys.argv[2]; urllib.request.urlretrieve(u,o)
 PY
                   return 0
                 fi
                 echo "No downloader available (curl/wget/python3)"; return 1
               }
 
               # Resolve streaming jar
-              HSJ="${HADOOP_STREAMING_JAR:-}"   # safe default avoids 'unbound variable'
+              HSJ="${HADOOP_STREAMING_JAR:-}"
               RESOLVED_JAR=""
 
               # 1) Use provided env if valid
@@ -146,13 +141,12 @@ PY
                     echo "Provided HADOOP_STREAMING_JAR not found: $HSJ"
                   fi
                 else
-                  # allow file:/// (cannot preflight)
-                  RESOLVED_JAR="$HSJ"
+                  RESOLVED_JAR="$HSJ"   # allow file:///
                   echo "Using provided non-GCS jar path: $RESOLVED_JAR"
                 fi
               fi
 
-              # 2) Try public GCS locations
+              # 2) Try public GCS
               if [[ -z "$RESOLVED_JAR" ]]; then
                 for C in \
                   "gs://hadoop-lib/hadoop-streaming/hadoop-streaming.jar" \
@@ -166,14 +160,13 @@ PY
                 done
               fi
 
-              # 3) Fallback to cluster local path (will still stage a known-good jar next)
+              # 3) Fallback to cluster local (then stage a known-good jar)
               if [[ -z "$RESOLVED_JAR" ]]; then
                 RESOLVED_JAR="file:///usr/lib/hadoop-mapreduce/hadoop-streaming.jar"
                 echo "Fallback to cluster-local path: $RESOLVED_JAR"
               fi
 
               # 4) Stage known-good jar to your bucket and switch to it
-              #    (ensures success even if cluster-local path doesn't exist)
               if [[ "$RESOLVED_JAR" == file://* ]]; then
                 HVER="3.3.6"
                 LOCAL="hadoop-streaming-${HVER}.jar"
@@ -192,7 +185,6 @@ PY
                 echo "Resolved jar (staged): $RESOLVED_JAR"
               fi
 
-              # Persist for next stage
               echo "export HADOOP_STREAMING_RESOLVED_JAR=\"$RESOLVED_JAR\"" > .resolved_jar.env
               echo "Preflight OK. Using streaming jar: $RESOLVED_JAR"
             '''
@@ -201,7 +193,7 @@ PY
       }
     }
 
-    stage('Prep inputs (upload .py to GCS)') {
+    stage('Stage code (mapper/reducer) & data to GCS') {
       steps {
         container('cloud-sdk') {
           withCredentials([file(credentialsId: env.GCP_SA_CRED, variable: 'GOOGLE_APPLICATION_CREDENTIALS')]) {
@@ -212,18 +204,63 @@ PY
               fi
               gcloud config set project "${PROJECT_ID}"
 
-              INPUT_PATH="gs://${BUCKET}/inputs/${JOB_NAME}/${BUILD_NUMBER}"
+              JOB_ROOT="gs://${BUCKET}/${JOB_NAME}/${BUILD_NUMBER}"
+              CODE_PREFIX="${JOB_ROOT}/code"
+              DATA_PREFIX="${JOB_ROOT}/data"
+
+              # discover mapper / reducer within repo
+              MAP="${MAP:-}"
+              RED="${RED:-}"
+              if [[ -z "$MAP" ]]; then
+                if [[ -f mapper.py ]]; then MAP=mapper.py; else MAP="$(git ls-files | grep -E '^mapper\\.py$|/?mapper\\.py$' | head -n1)"; fi
+              fi
+              if [[ -z "$RED" ]]; then
+                if [[ -f reducer.py ]]; then RED=reducer.py; else RED="$(git ls-files | grep -E '^reducer\\.py$|/?reducer\\.py$' | head -n1)"; fi
+              fi
+              [[ -n "$MAP" && -n "$RED" ]] || { echo "mapper.py/reducer.py not found in repo"; exit 1; }
+              echo "Mapper: $MAP"
+              echo "Reducer: $RED"
+
+              # clean and upload ONLY mapper & reducer under code/
+              gsutil -m rm -r "${CODE_PREFIX}" >/dev/null 2>&1 || true
+              gsutil -m cp "$MAP" "${CODE_PREFIX}/"
+              gsutil -m cp "$RED" "${CODE_PREFIX}/"
 
-              gsutil -m rm -r "${INPUT_PATH}" >/dev/null 2>&1 || true
+              # pick data files from repo (flat) – .txt/.csv/.log by default
+              gsutil -m rm -r "${DATA_PREFIX}" >/dev/null 2>&1 || true
+              mkdir -p /tmp/upload_data
 
-              mkdir -p /tmp/upload_py
+              found=0
               while IFS= read -r f; do
-                mkdir -p "/tmp/upload_py/$(dirname "$f")"
-                cp "$f" "/tmp/upload_py/$f"
-              done < <(git ls-files '*.py')
+                cp "$f" "/tmp/upload_data/$(basename "$f")"
+                found=1
+              done < <(git ls-files | grep -Ei '\\.(txt|csv|log)$' || true)
+
+              # if no data files in repo, create a tiny sample
+              if [[ "$found" -eq 0 ]]; then
+                echo "No data files found (*.txt, *.csv, *.log). Creating sample..."
+                cat > /tmp/upload_data/sample.txt <<EOF
+alpha
+beta
+gamma
+alpha
+beta
+alpha
+EOF
+              fi
+
+              gsutil -m cp /tmp/upload_data/* "${DATA_PREFIX}/"
 
-              (cd /tmp/upload_py && gsutil -m cp -r . "${INPUT_PATH}/")
-              echo "Uploaded inputs to ${INPUT_PATH}"
+              # persist paths for submit stage
+              {
+                echo "export CODE_PREFIX='${CODE_PREFIX}'"
+                echo "export DATA_PREFIX='${DATA_PREFIX}'"
+                echo "export MAP_BASENAME='$(basename "$MAP")'"
+                echo "export RED_BASENAME='$(basename "$RED")'"
+              } >> .resolved_jar.env
+
+              echo "Staged code -> ${CODE_PREFIX}"
+              echo "Staged data -> ${DATA_PREFIX}"
             '''
           }
         }
@@ -242,43 +279,28 @@ PY
               gcloud config set project "${PROJECT_ID}"
               gcloud config set dataproc/region "${REGION}"
 
-              # load resolved jar
+              # load resolved vars
               source .resolved_jar.env
-              echo "Submitting with streaming JAR: ${HADOOP_STREAMING_RESOLVED_JAR}"
+              echo "Streaming JAR: ${HADOOP_STREAMING_RESOLVED_JAR}"
+              echo "CODE_PREFIX  : ${CODE_PREFIX}"
+              echo "DATA_PREFIX  : ${DATA_PREFIX}"
 
-              INPUT_PREFIX="gs://${BUCKET}/inputs/${JOB_NAME}/${BUILD_NUMBER}"
               OUT="gs://${BUCKET}/results/${JOB_NAME}/${BUILD_NUMBER}"
-
-              # discover mapper / reducer
-              MAP="${MAP:-}"
-              RED="${RED:-}"
-              if [[ -z "$MAP" ]]; then
-                if [[ -f mapper.py ]]; then MAP=mapper.py; else MAP="$(git ls-files | grep -E '/?mapper\\.py$' | head -n1)"; fi
-              fi
-              if [[ -z "$RED" ]]; then
-                if [[ -f reducer.py ]]; then RED=reducer.py; else RED="$(git ls-files | grep -E '/?reducer\\.py$' | head -n1)"; fi
-              fi
-              [[ -n "$MAP" && -n "$RED" ]] || { echo "mapper.py/reducer.py not found"; exit 1; }
-
-              echo "Using mapper: $MAP"
-              echo "Using reducer: $RED"
-
-              MAP_GS="${INPUT_PREFIX}/${MAP}"
-              RED_GS="${INPUT_PREFIX}/${RED}"
-
               gsutil -m rm -r "${OUT}" >/dev/null 2>&1 || true
 
+              # Use files from flat data prefix only (avoid directories)
+              # Ship mapper/reducer via -files from code prefix
               gcloud dataproc jobs submit hadoop \
                 --cluster="${CLUSTER_NAME}" \
                 --region="${REGION}" \
                 --jar="${HADOOP_STREAMING_RESOLVED_JAR}" \
                 -- \
-                -D mapreduce.job.maps=4 \
-                -D mapreduce.job.reduces=2 \
-                -files "${MAP_GS},${RED_GS}" \
-                -mapper "python3 $(basename "${MAP}")" \
-                -reducer "python3 $(basename "${RED}")" \
-                -input "${INPUT_PREFIX}" \
+                -D mapreduce.job.maps=2 \
+                -D mapreduce.job.reduces=1 \
+                -files "${CODE_PREFIX}/${MAP_BASENAME},${CODE_PREFIX}/${RED_BASENAME}" \
+                -mapper "python3 ${MAP_BASENAME}" \
+                -reducer "python3 ${RED_BASENAME}" \
+                -input  "${DATA_PREFIX}/*" \
                 -output "${OUT}"
 
               gsutil cat "${OUT}"/part-* | tee line_counts.txt
diff --git a/python/bad.py b/python/bad.py
@@ -1,2 +1,2 @@
 def oops():
-    return 11/0
+    return 1/0

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`def oops():`
`2`		`- return 11/0`
	`2`	`+ return 1/0`