PyArrow 0.8.0 isn't published anymore, fix minor test errors

holdenk · holdenk · commit 98c37a9940bc · 2019-10-14T10:24:53.000-07:00
diff --git a/requirements.txt b/requirements.txt
@@ -8,6 +8,6 @@ unittest2>=1.0.0
 pandas>=0.13
 spacy
 future
-pyarrow==0.8.0
+pyarrow==0.11.0
 flake8==3.5.0
 nltk
diff --git a/sparklingml/feature/python_pipelines.py b/sparklingml/feature/python_pipelines.py
@@ -87,7 +87,7 @@ class SpacyTokenizeTransformer(Model, HasInputCol, HasOutputCol):
     ...    ["vals", "label"])
     >>> tr = SpacyTokenizeTransformer(inputCol="vals", outputCol="c")
     >>> str(tr.getLang())
-    'en'
+    'en_core_web_sm'
     >>> tr.transform(df).head().c
     [u'hi', u'boo']
     >>> from pyspark.ml import Pipeline
@@ -150,7 +150,7 @@ class SpacyAdvancedTokenizeTransformer(Model, HasInputCol, HasOutputCol):
     >>> df = spark.createDataFrame([("hi boo",), ("bye boo",)], ["vals"])
     >>> tr = SpacyAdvancedTokenizeTransformer(inputCol="vals", outputCol="c")
     >>> str(tr.getLang())
-    'en'
+    'en_core_web_sm'
     >>> tr.getSpacyFields()
     ['_', 'ancestors', ...
     >>> tr.setSpacyFields(["text", "lang_"])
@@ -188,7 +188,8 @@ def __init__(self, lang=None,
     def setParams(self, lang="en_core_web_sm", spacyFields=None,
                   inputCol=None, outputCol=None):
         """
-        setParams(self, lang="en_core_web_sm", SpacyAdvancedTokenize.default_fields,
+        setParams(self, lang="en_core_web_sm",
+                  SpacyAdvancedTokenize.default_fields,
                   inputCol=None, outputCol=None):
         """
         kwargs = self._input_kwargs