apache · zero323 · Jun 20, 2017 · HyukjinKwon · Jun 26, 2017 · zero323
diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
@@ -1949,6 +1949,14 @@ def _create_judf(self):
         return judf
 
     def __call__(self, *cols):
+        for c in cols:
+            if not isinstance(c, (Column, str)):
+                raise TypeError(
+                    "Invalid UDF argument, not a str or Column: "
+                    "{0} of type {1}. "
+                    "For Column literals use sql.functions "
+                    "lit, array, struct or create_map.".format(c, type(c)))
+
         judf = self._judf
         sc = SparkContext._active_spark_context
         return Column(judf.apply(_to_seq(sc, cols, _to_java_column)))

diff --git a/python/pyspark/sql/tests.py b/python/pyspark/sql/tests.py
@@ -636,6 +636,11 @@ def f(x):
         self.assertEqual(f, f_.func)
         self.assertEqual(return_type, f_.returnType)
 
+    def test_udf_should_validate_input_args(self):
+        from pyspark.sql.functions import udf
+
+        self.assertRaises(TypeError, udf(lambda x: x), None)
+
     def test_basic_functions(self):
         rdd = self.sc.parallelize(['{"foo":"bar"}', '{"foo":"baz"}'])
         df = self.spark.read.json(rdd)