update samples from Release-120 as a part of SDK release (Azure#1676)

v-pbavanari · amlrelsa-ms · web-flow · commit 77f5a69e04a9 · 2022-01-28T12:51:49.000-05:00
Co-authored-by: amlrelsa-ms &lt;amlrelsa@microsoft.com&gt;
diff --git a/how-to-use-azureml/machine-learning-pipelines/nyc-taxi-data-regression-model-building/scripts/prepdata/cleanse.py b/how-to-use-azureml/machine-learning-pipelines/nyc-taxi-data-regression-model-building/scripts/prepdata/cleanse.py
@@ -5,25 +5,13 @@
 import os
 from azureml.core import Run
 
-
-def get_dict(dict_str):
-    pairs = dict_str.strip("{}").split(r'\;')
-    new_dict = {}
-    for pair in pairs:
-        key, value = pair.strip().split(":")
-        new_dict[key.strip().strip("'")] = value.strip().strip("'")
-
-    return new_dict
-
-
 print("Cleans the input data")
 
 # Get the input green_taxi_data. To learn more about how to access dataset in your script, please
 # see https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.
 run = Run.get_context()
 raw_data = run.input_datasets["raw_data"]
 
-
 parser = argparse.ArgumentParser("cleanse")
 parser.add_argument("--output_cleanse", type=str, help="cleaned taxi data directory")
 parser.add_argument("--useful_columns", type=str, help="useful columns to keep")
@@ -38,8 +26,8 @@ def get_dict(dict_str):
 # These functions ensure that null data is removed from the dataset,
 # which will help increase machine learning model accuracy.
 
-useful_columns = [s.strip().strip("'") for s in args.useful_columns.strip("[]").split(r'\;')]
-columns = get_dict(args.columns)
+useful_columns = eval(args.useful_columns.replace(';', ','))
+columns = eval(args.columns.replace(';', ','))
 
 new_df = (raw_data.to_pandas_dataframe()
           .dropna(how='all')