Merge pull request dennybritz#60 from rockingdingo/master

dennybritz · web-flow · commit b71371312fa1 · 2017-02-03T10:20:53.000-08:00
Tensorflow version incompetibility: function changed
diff --git a/DQN/Deep Q Learning Solution.ipynb b/DQN/Deep Q Learning Solution.ipynb
@@ -11,6 +11,7 @@
     "%matplotlib inline\n",
     "\n",
     "import gym\n",
+    "from gym.wrappers import Monitor\n",
     "import itertools\n",
     "import numpy as np\n",
     "import os\n",
@@ -67,7 +68,7 @@
     "            self.output = tf.image.rgb_to_grayscale(self.input_state)\n",
     "            self.output = tf.image.crop_to_bounding_box(self.output, 34, 0, 160, 160)\n",
     "            self.output = tf.image.resize_images(\n",
-    "                self.output, 84, 84, method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)\n",
+    "                self.output, [84, 84], method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)\n",
     "            self.output = tf.squeeze(self.output)\n",
     "\n",
     "    def process(self, sess, state):\n",
@@ -107,7 +108,7 @@
     "                summary_dir = os.path.join(summaries_dir, \"summaries_{}\".format(scope))\n",
     "                if not os.path.exists(summary_dir):\n",
     "                    os.makedirs(summary_dir)\n",
-    "                self.summary_writer = tf.train.SummaryWriter(summary_dir)\n",
+    "                self.summary_writer = tf.summary.FileWriter(summary_dir)\n",
     "\n",
     "    def _build_model(self):\n",
     "        \"\"\"\n",
@@ -151,14 +152,13 @@
     "        self.train_op = self.optimizer.minimize(self.loss, global_step=tf.contrib.framework.get_global_step())\n",
     "\n",
     "        # Summaries for Tensorboard\n",
-    "        self.summaries = tf.merge_summary([\n",
-    "            tf.scalar_summary(\"loss\", self.loss),\n",
-    "            tf.histogram_summary(\"loss_hist\", self.losses),\n",
-    "            tf.histogram_summary(\"q_values_hist\", self.predictions),\n",
-    "            tf.scalar_summary(\"max_q_value\", tf.reduce_max(self.predictions))\n",
+    "        self.summaries = tf.summary.merge([\n",
+    "            tf.summary.scalar(\"loss\", self.loss),\n",
+    "            tf.summary.histogram(\"loss_hist\", self.losses),\n",
+    "            tf.summary.histogram(\"q_values_hist\", self.predictions),\n",
+    "            tf.summary.scalar(\"max_q_value\", tf.reduce_max(self.predictions))\n",
     "        ])\n",
     "\n",
-    "\n",
     "    def predict(self, sess, s):\n",
     "        \"\"\"\n",
     "        Predicts action values.\n",
@@ -212,7 +212,7 @@
     "sp = StateProcessor()\n",
     "\n",
     "with tf.Session() as sess:\n",
-    "    sess.run(tf.initialize_all_variables())\n",
+    "    sess.run(tf.global_variables_initializer())\n",
     "    \n",
     "    # Example observation batch\n",
     "    observation = env.reset()\n",
@@ -357,7 +357,7 @@
     "    checkpoint_dir = os.path.join(experiment_dir, \"checkpoints\")\n",
     "    checkpoint_path = os.path.join(checkpoint_dir, \"model\")\n",
     "    monitor_path = os.path.join(experiment_dir, \"monitor\")\n",
-    "\n",
+    "    \n",
     "    if not os.path.exists(checkpoint_dir):\n",
     "        os.makedirs(checkpoint_dir)\n",
     "    if not os.path.exists(monitor_path):\n",
@@ -400,10 +400,10 @@
     "        else:\n",
     "            state = next_state\n",
     "\n",
+    "\n",
     "    # Record videos\n",
-    "    env.monitor.start(monitor_path,\n",
-    "                      resume=True,\n",
-    "                      video_callable=lambda count: count % record_video_every == 0)\n",
+    "    # Add env Monitor wrapper\n",
+    "    env = Monitor(env, directory=monitor_path, video_callable=lambda count: count % record_video_every == 0, resume=True)\n",
     "\n",
     "    for i_episode in range(num_episodes):\n",
     "\n",
@@ -484,7 +484,6 @@
     "            episode_lengths=stats.episode_lengths[:i_episode+1],\n",
     "            episode_rewards=stats.episode_rewards[:i_episode+1])\n",
     "\n",
-    "    env.monitor.close()\n",
     "    return stats"
    ]
   },
@@ -513,7 +512,7 @@
     "\n",
     "# Run it!\n",
     "with tf.Session() as sess:\n",
-    "    sess.run(tf.initialize_all_variables())\n",
+    "    sess.run(tf.global_variables_initializer())\n",
     "    for t, stats in deep_q_learning(sess,\n",
     "                                    env,\n",
     "                                    q_estimator=q_estimator,\n",
@@ -550,7 +549,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.5.1"
+   "version": "3.4.3"
   }
  },
  "nbformat": 4,