apache · Yunni · Nov 7, 2016 · Nov 7, 2016 · Nov 8, 2016 · Nov 8, 2016
diff --git a/examples/src/main/java/org/apache/spark/examples/ml/JavaMinHashLSHExample.java b/examples/src/main/java/org/apache/spark/examples/ml/JavaMinHashLSHExample.java
@@ -25,9 +25,8 @@
 
 import org.apache.spark.ml.feature.MinHashLSH;
 import org.apache.spark.ml.feature.MinHashLSHModel;
-import org.apache.spark.ml.linalg.Vector;
-import org.apache.spark.ml.linalg.Vectors;
 import org.apache.spark.ml.linalg.VectorUDT;
+import org.apache.spark.ml.linalg.Vectors;
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.Row;
 import org.apache.spark.sql.RowFactory;
@@ -45,49 +44,25 @@ public static void main(String[] args) {
       .getOrCreate();
 
     // $example on$
-    List<Row> dataA = Arrays.asList(
-        RowFactory.create(0, Vectors.sparse(6, new int[]{0, 1, 2}, new double[]{1.0, 1.0, 1.0})),
-        RowFactory.create(1, Vectors.sparse(6, new int[]{2, 3, 4}, new double[]{1.0, 1.0, 1.0})),
-        RowFactory.create(2, Vectors.sparse(6, new int[]{0, 2, 4}, new double[]{1.0, 1.0, 1.0}))
-    );
-
-    List<Row> dataB = Arrays.asList(
-        RowFactory.create(3, Vectors.sparse(6, new int[]{1, 3, 5}, new double[]{1.0, 1.0, 1.0})),
-        RowFactory.create(4, Vectors.sparse(6, new int[]{2, 3, 5}, new double[]{1.0, 1.0, 1.0})),
-        RowFactory.create(5, Vectors.sparse(6, new int[]{1, 2, 4}, new double[]{1.0, 1.0, 1.0}))
+    List<Row> data = Arrays.asList(
+      RowFactory.create(0, Vectors.sparse(6, new int[]{0, 1, 2}, new double[]{1.0, 1.0, 1.0})),
+      RowFactory.create(1, Vectors.sparse(6, new int[]{2, 3, 4}, new double[]{1.0, 1.0, 1.0})),
+      RowFactory.create(2, Vectors.sparse(6, new int[]{0, 2, 4}, new double[]{1.0, 1.0, 1.0}))
     );
 
     StructType schema = new StructType(new StructField[]{
-        new StructField("id", DataTypes.IntegerType, false, Metadata.empty()),
-        new StructField("keys", new VectorUDT(), false, Metadata.empty())
+      new StructField("id", DataTypes.IntegerType, false, Metadata.empty()),
+      new StructField("keys", new VectorUDT(), false, Metadata.empty())
     });
-    Dataset<Row> dfA = spark.createDataFrame(dataA, schema);
-    Dataset<Row> dfB = spark.createDataFrame(dataB, schema);
-
-    Vector key = Vectors.sparse(6, new int[]{1, 3}, new double[]{1.0, 1.0, 1.0});
+    Dataset<Row> dataFrame = spark.createDataFrame(data, schema);
 
     MinHashLSH mh = new MinHashLSH()
-        .setNumHashTables(3)
-        .setInputCol("keys")
-        .setOutputCol("values");
-
-    MinHashLSHModel model = mh.fit(dfA);
-
-    // Feature Transformation
-    model.transform(dfA).show();
-    // Cache the transformed columns
-    Dataset<Row> transformedA = model.transform(dfA).cache();
-    Dataset<Row> transformedB = model.transform(dfB).cache();
-
-    // Approximate similarity join
-    model.approxSimilarityJoin(dfA, dfB, 0.6).show();
-    model.approxSimilarityJoin(transformedA, transformedB, 0.6).show();
-    // Self Join
-    model.approxSimilarityJoin(dfA, dfA, 0.6).filter("datasetA.id < datasetB.id").show();
+      .setNumHashTables(1)
+      .setInputCol("keys")
+      .setOutputCol("values");
 
-    // Approximate nearest neighbor search
-    model.approxNearestNeighbors(dfA, key, 2).show();
-    model.approxNearestNeighbors(transformedA, key, 2).show();
+    MinHashLSHModel model = mh.fit(dataFrame);
+    model.transform(dataFrame).show();
     // $example off$
 
     spark.stop();