Add alias for similarity join examples

apache · Yunni · Nov 4, 2016 · Nov 4, 2016 · Jan 25, 2017 · Jan 26, 2017
commit 8f1d70819e9ed6d8b8bb8540dcc1ca9747b67cae
diff --git a/...es/src/main/java/org/apache/spark/examples/ml/JavaBucketedRandomProjectionLSHExample.java b/...es/src/main/java/org/apache/spark/examples/ml/JavaBucketedRandomProjectionLSHExample.java
@@ -35,6 +35,8 @@
 import org.apache.spark.sql.types.Metadata;
 import org.apache.spark.sql.types.StructField;
 import org.apache.spark.sql.types.StructType;
+
+import static org.apache.spark.sql.functions.*;
 // $example off$
 
 public class JavaBucketedRandomProjectionLSHExample {
@@ -85,7 +87,10 @@ public static void main(String[] args) {
     // We could avoid computing hashes by passing in the already-transformed dataset, e.g.
     // `model.approxSimilarityJoin(transformedA, transformedB, 1.5)`
     System.out.println("Approximately joining dfA and dfB on distance smaller than 1.5:");
-    model.approxSimilarityJoin(dfA, dfB, 1.5).show();
+    model.approxSimilarityJoin(dfA, dfB, 1.5)
+      .select(col("datasetA.id").alias("idA"),
+        col("datasetB.id").alias("idB"),
+        col("distCol").alias("EuclideanDistance")).show();
 
     // Compute the locality sensitive hashes for the input rows, then perform approximate nearest
     // neighbor search.

diff --git a/examples/src/main/java/org/apache/spark/examples/ml/JavaMinHashLSHExample.java b/examples/src/main/java/org/apache/spark/examples/ml/JavaMinHashLSHExample.java
@@ -35,6 +35,8 @@
 import org.apache.spark.sql.types.Metadata;
 import org.apache.spark.sql.types.StructField;
 import org.apache.spark.sql.types.StructType;
+
+import static org.apache.spark.sql.functions.*;
 // $example off$
 
 public class JavaMinHashLSHExample {
@@ -85,8 +87,9 @@ public static void main(String[] args) {
     // `model.approxSimilarityJoin(transformedA, transformedB, 0.6)`
     System.out.println("Approximately joining dfA and dfB on Jaccard distance smaller than 0.6:");
     model.approxSimilarityJoin(dfA, dfB, 0.6)
-      .select("datasetA.id", "datasetB.id", "distCol")
-      .show();
+      .select(col("datasetA.id").alias("idA"),
+        col("datasetB.id").alias("idB"),
+        col("distCol").alias("JaccardDistance")).show();
 
     // Compute the locality sensitive hashes for the input rows, then perform approximate nearest
     // neighbor search.

diff --git a/examples/src/main/python/ml/bucketed_random_projection_lsh_example.py b/examples/src/main/python/ml/bucketed_random_projection_lsh_example.py
@@ -21,6 +21,7 @@
 # $example on$
 from pyspark.ml.feature import BucketedRandomProjectionLSH
 from pyspark.ml.linalg import Vectors
+from pyspark.sql.functions import col
 # $example off$
 from pyspark.sql import SparkSession
 
@@ -65,7 +66,9 @@
     # `model.approxSimilarityJoin(transformedA, transformedB, 1.5)`
     print("Approximately joining dfA and dfB on Euclidean distance smaller than 1.5:")
     model.approxSimilarityJoin(dfA, dfB, 1.5)\
-        .select("datasetA.id", "datasetB.id", "distCol").show()
+        .select(col("datasetA.id").alias("idA"),
+                col("datasetB.id").alias("idB"),
+                col("distCol").alias("EuclideanDistance")).show()
 
     # Compute the locality sensitive hashes for the input rows, then perform approximate nearest
     # neighbor search.

diff --git a/examples/src/main/python/ml/min_hash_lsh_example.py b/examples/src/main/python/ml/min_hash_lsh_example.py
@@ -21,6 +21,7 @@
 # $example on$
 from pyspark.ml.feature import MinHashLSH
 from pyspark.ml.linalg import Vectors
+from pyspark.sql.functions import col
 # $example off$
 from pyspark.sql import SparkSession
 
@@ -62,7 +63,9 @@
     # `model.approxSimilarityJoin(transformedA, transformedB, 0.6)`
     print("Approximately joining dfA and dfB on distance smaller than 0.6:")
     model.approxSimilarityJoin(dfA, dfB, 0.6)\
-        .select("datasetA.id", "datasetB.id", "distCol").show()
+        .select(col("datasetA.id").alias("idA"),
+                col("datasetB.id").alias("idB"),
+                col("distCol").alias("JaccardDistance")).show()
 
     # Compute the locality sensitive hashes for the input rows, then perform approximate nearest
     # neighbor search.

diff --git a/...ples/src/main/scala/org/apache/spark/examples/ml/BucketedRandomProjectionLSHExample.scala b/...ples/src/main/scala/org/apache/spark/examples/ml/BucketedRandomProjectionLSHExample.scala
@@ -21,6 +21,7 @@ package org.apache.spark.examples.ml
 // $example on$
 import org.apache.spark.ml.feature.BucketedRandomProjectionLSH
 import org.apache.spark.ml.linalg.Vectors
+import org.apache.spark.sql.functions._
 // $example off$
 import org.apache.spark.sql.SparkSession
 
@@ -67,8 +68,9 @@ object BucketedRandomProjectionLSHExample {
     // `model.approxSimilarityJoin(transformedA, transformedB, 1.5)`
     println("Approximately joining dfA and dfB on Euclidean distance smaller than 1.5:")
     model.approxSimilarityJoin(dfA, dfB, 1.5)
-      .select("datasetA.id", "datasetB.id", "distCol")
-      .show()
+      .select(col("datasetA.id").alias("idA"),
+        col("datasetB.id").alias("idB"),
+        col("distCol").alias("EuclideanDistance")).show()
 
     // Compute the locality sensitive hashes for the input rows, then perform approximate nearest
     // neighbor search.

diff --git a/examples/src/main/scala/org/apache/spark/examples/ml/MinHashLSHExample.scala b/examples/src/main/scala/org/apache/spark/examples/ml/MinHashLSHExample.scala
@@ -21,6 +21,7 @@ package org.apache.spark.examples.ml
 // $example on$
 import org.apache.spark.ml.feature.MinHashLSH
 import org.apache.spark.ml.linalg.Vectors
+import org.apache.spark.sql.functions._
 // $example off$
 import org.apache.spark.sql.SparkSession
 
@@ -64,8 +65,9 @@ object MinHashLSHExample {
     // `model.approxSimilarityJoin(transformedA, transformedB, 0.6)`
     println("Approximately joining dfA and dfB on Jaccard distance smaller than 0.6:")
     model.approxSimilarityJoin(dfA, dfB, 0.6)
-      .select("datasetA.id", "datasetB.id", "distCol")
-      .show()
+      .select(col("datasetA.id").alias("idA"),
+        col("datasetB.id").alias("idB"),
+        col("distCol").alias("JaccardDistance")).show()
 
     // Compute the locality sensitive hashes for the input rows, then perform approximate nearest
     // neighbor search.

diff --git a/python/pyspark/ml/feature.py b/python/pyspark/ml/feature.py
@@ -212,6 +212,7 @@ class BucketedRandomProjectionLSH(JavaEstimator, LSHParams, HasInputCol, HasOutp
     .. seealso:: `Hashing for Similarity Search: A Survey <https://arxiv.org/abs/1408.2927>`_
 
     >>> from pyspark.ml.linalg import Vectors
+    >>> from pyspark.sql.functions import col
     >>> data = [(0, Vectors.dense([-1.0, -1.0 ]),),
     ...         (1, Vectors.dense([-1.0, 1.0 ]),),
     ...         (2, Vectors.dense([1.0, -1.0 ]),),
@@ -229,14 +230,15 @@ class BucketedRandomProjectionLSH(JavaEstimator, LSHParams, HasInputCol, HasOutp
     >>> df2 = spark.createDataFrame(data2, ["id", "features"])
     >>> model.approxNearestNeighbors(df2, Vectors.dense([1.0, 2.0]), 1).collect()
     [Row(id=4, features=DenseVector([2.0, 2.0]), hashes=[DenseVector([1.0])], distCol=1.0)]
-    >>> model.approxSimilarityJoin(df, df2, 3.0).select("datasetA.id",
-    ...                                                 "datasetB.id",
-    ...                                                 "distCol").show()
-    +---+---+----------------+
-    | id| id|         distCol|
-    +---+---+----------------+
-    |  3|  6|2.23606797749979|
-    +---+---+----------------+
+    >>> model.approxSimilarityJoin(df, df2, 3.0).select(
+    ...     col("datasetA.id").alias("idA"),
+    ...     col("datasetB.id").alias("idB"),
+    ...     col("distCol").alias("EuclideanDistance")).show()
+    +---+---+-----------------+
+    |idA|idB|EuclideanDistance|
+    +---+---+-----------------+
+    |  3|  6| 2.23606797749979|
+    +---+---+-----------------+
     ...
     >>> brpPath = temp_path + "/brp"
     >>> brp.save(brpPath)
@@ -962,6 +964,7 @@ class MinHashLSH(JavaEstimator, LSHParams, HasInputCol, HasOutputCol, HasSeed,
     .. seealso:: `Wikipedia on MinHash <https://en.wikipedia.org/wiki/MinHash>`_
 
     >>> from pyspark.ml.linalg import Vectors
+    >>> from pyspark.sql.functions import col
     >>> data = [(0, Vectors.sparse(6, [0, 1, 2], [1.0, 1.0, 1.0]),),
     ...         (1, Vectors.sparse(6, [2, 3, 4], [1.0, 1.0, 1.0]),),
     ...         (2, Vectors.sparse(6, [0, 2, 4], [1.0, 1.0, 1.0]),)]
@@ -977,15 +980,16 @@ class MinHashLSH(JavaEstimator, LSHParams, HasInputCol, HasOutputCol, HasSeed,
     >>> key = Vectors.sparse(6, [1, 2], [1.0, 1.0])
     >>> model.approxNearestNeighbors(df2, key, 1).collect()
     [Row(id=5, features=SparseVector(6, {1: 1.0, 2: 1.0, 4: 1.0}), hashes=[DenseVector([-163892...
-    >>> model.approxSimilarityJoin(df, df2, 0.6).select("datasetA.id",
-    ...                                                 "datasetB.id",
-    ...                                                 "distCol").show()
-    +---+---+-------+
-    | id| id|distCol|
-    +---+---+-------+
-    |  1|  4|    0.5|
-    |  0|  5|    0.5|
-    +---+---+-------+
+    >>> model.approxSimilarityJoin(df, df2, 0.6).select(
+    ...     col("datasetA.id").alias("idA"),
+    ...     col("datasetB.id").alias("idB"),
+    ...     col("distCol").alias("JaccardDistance")).show()
+    +---+---+---------------+
+    |idA|idB|JaccardDistance|
+    +---+---+---------------+
+    |  1|  4|            0.5|
+    |  0|  5|            0.5|
+    +---+---+---------------+
     ...
     >>> mhPath = temp_path + "/mh"
     >>> mh.save(mhPath)