Logistic regression model

siddas27 · siddas27 · commit 00ab9b378e70 · 2018-05-11T15:02:09.000+05:30
diff --git a/.DS_Store b/.DS_Store
diff --git a/Code-Sleep-Python/regression/Logistic_regression_in_Tensorflow.ipynb b/Code-Sleep-Python/regression/Logistic_regression_in_Tensorflow.ipynb
@@ -0,0 +1,288 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "# Logistic regression with Tensorflow\n",
+    "\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "import numpy as np\n",
+    "import tensorflow as tf\n",
+    "s = tf.InteractiveSession()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Logistic regression\n",
+    "\n",
+    "Plan:\n",
+    "* Use a shared variable for weights\n",
+    "* Use a matrix placeholder for `X`\n",
+    " \n",
+    "train on a two-class MNIST dataset\n",
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 31,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "y [shape - (360,)]: [0 1 0 1 0 1 0 0 1 1]\n",
+      "X [shape - (360, 64)]:\n"
+     ]
+    }
+   ],
+   "source": [
+    "from sklearn.datasets import load_digits\n",
+    "mnist = load_digits(2)\n",
+    "\n",
+    "X, y = mnist.data, mnist.target\n",
+    "\n",
+    "print(\"y [shape - %s]:\" % (str(y.shape)), y[:10])\n",
+    "print(\"X [shape - %s]:\" % (str(X.shape)))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 32,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "X:\n",
+      " [[  0.   0.   5.  13.   9.   1.   0.   0.   0.   0.]\n",
+      " [  0.   0.   0.  12.  13.   5.   0.   0.   0.   0.]\n",
+      " [  0.   0.   1.   9.  15.  11.   0.   0.   0.   0.]]\n",
+      "y:\n",
+      " [0 1 0 1 0 1 0 0 1 1]\n"
+     ]
+    },
+    {
+     "data": {
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAPgAAAD8CAYAAABaQGkdAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAALEgAACxIB0t1+/AAACxNJREFUeJzt3fuLXPUZx/HPp5vErRqTYqxKNjShaEAqNZqmhIjQBEus\nokJL3YCWSmGhoCiGihZL239A0h+KIFErmBpsVBDrBVsVK6QxF1M1txKDJRvURLwHTLLm6Q87gShp\n92zmnO+ZeXy/YHEvw36fQd45Z2ZnztcRIQA5fa3tAQA0h8CBxAgcSIzAgcQIHEiMwIHECBxIjMCB\nxAgcSGxKE790mk+JQZ3WxK9u1dissvfpnHPeL7bWvoMzi601OHqk2FpxZKzYWiV9poM6HIc80e0a\nCXxQp+n7XtbEr27Vez9eXHS9X61cW2yt32y+ptha59/2drG1xt55t9haJW2Iv1e6HafoQGIEDiRG\n4EBiBA4kRuBAYgQOJEbgQGIEDiRWKXDby23vsr3b9h1NDwWgHhMGbntA0h8lXSHpAkkrbF/Q9GAA\nulflCL5I0u6I2BMRhyWtlVTudY0ATlqVwGdL2nvc16Od7wHocbW92cT2iKQRSRrUqXX9WgBdqHIE\n3ydpznFfD3W+9wURcW9ELIyIhVN1Sl3zAehClcA3SjrP9jzb0yQNS3qi2bEA1GHCU/SIGLN9k6Rn\nJQ1Iuj8itjU+GYCuVXoMHhFPSXqq4VkA1IxXsgGJETiQGIEDiRE4kBiBA4kROJAYgQOJETiQWCM7\nm2RVcqcRSRqe/kGxtVbN/LTYWn/d8myxtS753S+LrSVJs+5dX3S9iXAEBxIjcCAxAgcSI3AgMQIH\nEiNwIDECBxIjcCAxAgcSq7Kzyf2299t+o8RAAOpT5Qj+J0nLG54DQAMmDDwiXpL0foFZANSMx+BA\nYmxdBCRW2xGcrYuA3sMpOpBYlT+TPSxpvaT5tkdt/6L5sQDUocreZCtKDAKgfpyiA4kROJAYgQOJ\nETiQGIEDiRE4kBiBA4kROJBY329dNLb0kmJrDU/fWmwtSbpi+XCxtWa8trPYWj99eVmxtd5f8Hmx\ntSRpVtHVJsYRHEiMwIHECBxIjMCBxAgcSIzAgcQIHEiMwIHECBxIjMCBxKpcdHGO7Rdsb7e9zfYt\nJQYD0L0qr0Ufk7QyIrbYni5ps+3nImJ7w7MB6FKVvcnejogtnc8/kbRD0uymBwPQvUm9m8z2XEkL\nJG04wc/YugjoMZWfZLN9uqRHJd0aER9/+edsXQT0nkqB256q8bjXRMRjzY4EoC5VnkW3pPsk7YiI\nu5sfCUBdqhzBl0i6QdJS21s7Hz9qeC4ANaiyN9nLklxgFgA145VsQGIEDiRG4EBiBA4kRuBAYgQO\nJEbgQGIEDiTW93uTfXZmubtw1/4Li60lSUcL7hdW0sbXv932CF8ZHMGBxAgcSIzAgcQIHEiMwIHE\nCBxIjMCBxAgcSIzAgcSqXHRx0PYrtv/V2bro9yUGA9C9Kq/zPCRpaUR82rl88su2n46IfzY8G4Au\nVbnoYkj6tPPl1M5HNDkUgHpU3fhgwPZWSfslPRcRJ9y6yPYm25uO6FDdcwI4CZUCj4jPI+IiSUOS\nFtn+zgluw9ZFQI+Z1LPoEfGhpBckLW9mHAB1qvIs+lm2Z3Y+/7qkyyXlfKMykEyVZ9HPlfSg7QGN\n/4PwSEQ82exYAOpQ5Vn01zS+JziAPsMr2YDECBxIjMCBxAgcSIzAgcQIHEiMwIHECBxIrP+3LvpG\nuX+j1qxfXGwtSTpfrxRdr5QpMw4XW2vso2nF1upFHMGBxAgcSIzAgcQIHEiMwIHECBxIjMCBxAgc\nSIzAgcQqB965NvqrtrkeG9AnJnMEv0XSjqYGAVC/qjubDEm6UtLqZscBUKeqR/BVkm6XdLTBWQDU\nrMrGB1dJ2h8Rmye4HXuTAT2myhF8iaSrbb8laa2kpbYf+vKN2JsM6D0TBh4Rd0bEUETMlTQs6fmI\nuL7xyQB0jb+DA4lN6oouEfGipBcbmQRA7TiCA4kROJAYgQOJETiQGIEDiRE4kBiBA4kROJBY329d\nNPhBuTe4fe/CN4utJUkfFVxryjlnF1vrugv+7/uWavXI05cWW6sXcQQHEiNwIDECBxIjcCAxAgcS\nI3AgMQIHEiNwIDECBxKr9Eq2zhVVP5H0uaSxiFjY5FAA6jGZl6r+ICLea2wSALXjFB1IrGrgIelv\ntjfbHmlyIAD1qXqKfmlE7LP9TUnP2d4ZES8df4NO+COSNKhTax4TwMmodASPiH2d/+6X9LikRSe4\nDVsXAT2myuaDp9mefuxzST+U9EbTgwHoXpVT9LMlPW772O3/HBHPNDoVgFpMGHhE7JH03QKzAKgZ\nfyYDEiNwIDECBxIjcCAxAgcSI3AgMQIHEiNwILG+37rojF3lNvj57dCTxdaSpJ+N3FZsranXHii2\nVknz7lzf9git4ggOJEbgQGIEDiRG4EBiBA4kRuBAYgQOJEbgQGIEDiRWKXDbM22vs73T9g7bi5se\nDED3qr5U9Q+SnomIn9ieJnHhc6AfTBi47RmSLpP0c0mKiMOSDjc7FoA6VDlFnyfpgKQHbL9qe3Xn\n+ugAelyVwKdIuljSPRGxQNJBSXd8+Ua2R2xvsr3piA7VPCaAk1El8FFJoxGxofP1Oo0H/wVsXQT0\nngkDj4h3JO21Pb/zrWWStjc6FYBaVH0W/WZJazrPoO+RdGNzIwGoS6XAI2KrpIUNzwKgZrySDUiM\nwIHECBxIjMCBxAgcSIzAgcQIHEiMwIHECBxIrO/3Jjv62s5ia113z8pia0nSXSsfLrbWqjeXFVtr\n40UDxdb6quMIDiRG4EBiBA4kRuBAYgQOJEbgQGIEDiRG4EBiBA4kNmHgtufb3nrcx8e2by0xHIDu\nTPhS1YjYJekiSbI9IGmfpMcbngtADSZ7ir5M0psR8Z8mhgFQr8m+2WRY0gnfAWF7RNKIJA2y+SjQ\nEyofwTubHlwt6S8n+jlbFwG9ZzKn6FdI2hIR7zY1DIB6TSbwFfofp+cAelOlwDv7gV8u6bFmxwFQ\np6p7kx2UdGbDswCoGa9kAxIjcCAxAgcSI3AgMQIHEiNwIDECBxIjcCAxR0T9v9Q+IGmybymdJem9\n2ofpDVnvG/erPd+KiLMmulEjgZ8M25siYmHbczQh633jfvU+TtGBxAgcSKyXAr+37QEalPW+cb96\nXM88BgdQv146ggOoWU8Ebnu57V22d9u+o+156mB7ju0XbG+3vc32LW3PVCfbA7Zftf1k27PUyfZM\n2+ts77S9w/bitmfqRuun6J1rrf9b41eMGZW0UdKKiNje6mBdsn2upHMjYovt6ZI2S7q23+/XMbZv\nk7RQ0hkRcVXb89TF9oOS/hERqzsXGj01Ij5se66T1QtH8EWSdkfEnog4LGmtpGtanqlrEfF2RGzp\nfP6JpB2SZrc7VT1sD0m6UtLqtmepk+0Zki6TdJ8kRcThfo5b6o3AZ0vae9zXo0oSwjG250paIGlD\nu5PUZpWk2yUdbXuQms2TdEDSA52HH6s71yPsW70QeGq2T5f0qKRbI+Ljtufplu2rJO2PiM1tz9KA\nKZIulnRPRCyQdFBSXz8n1AuB75M057ivhzrf63u2p2o87jURkeWKtEskXW37LY0/nFpq+6F2R6rN\nqKTRiDh2prVO48H3rV4IfKOk82zP6zypMSzpiZZn6ppta/yx3I6IuLvteeoSEXdGxFBEzNX4/6vn\nI+L6lseqRUS8I2mv7fmdby2T1NdPik52b7LaRcSY7ZskPStpQNL9EbGt5bHqsETSDZJet721871f\nR8RTLc6Eid0saU3nYLNH0o0tz9OV1v9MBqA5vXCKDqAhBA4kRuBAYgQOJEbgQGIEDiRG4EBiBA4k\n9l+8Q5/pEyhkXAAAAABJRU5ErkJggg==\n",
+      "text/plain": [
+       "<matplotlib.figure.Figure at 0x7f8ab6f9f7f0>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "print('X:\\n',X[:3,:10])\n",
+    "print('y:\\n',y[:10])\n",
+    "plt.imshow(X[0].reshape([8,8]));"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "It's your turn now!\n",
+    "Just a small reminder of the relevant math:\n",
+    "\n",
+    "$$\n",
+    "P(y=1|X) = \\sigma(X \\cdot W + b)\n",
+    "$$\n",
+    "$$\n",
+    "\\text{loss} = -\\log\\left(P\\left(y_\\text{predicted} = 1\\right)\\right)\\cdot y_\\text{true} - \\log\\left(1 - P\\left(y_\\text{predicted} = 1\\right)\\right)\\cdot\\left(1 - y_\\text{true}\\right)\n",
+    "$$\n",
+    "\n",
+    "$\\sigma(x)$ is available via `tf.nn.sigmoid` and matrix multiplication via `tf.matmul`"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 33,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "from sklearn.model_selection import train_test_split\n",
+    "X_train, X_test, y_train, y_test = train_test_split(\n",
+    "    X, y, random_state=42)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "__Your code goes here.__ For the training and testing scaffolding to work, please stick to the names in comments."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 62,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "# Model parameters - weights and bias\n",
+    "weights = tf.get_variable(shape=(X.shape[1], 1), dtype=tf.float64,name=\"w\")\n",
+    "b=tf.Variable(0,dtype=tf.float64,name='bias')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 63,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "# Placeholders for the input data\n",
+    "input_X = tf.placeholder('float64', shape=(None, X.shape[1]))\n",
+    "input_y = tf.placeholder('float64')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 66,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "# The model code\n",
+    "\n",
+    "# Compute a vector of predictions, resulting shape should be [input_X.shape[0],]\n",
+    "# This is 1D, if you have extra dimensions, you can  get rid of them with tf.squeeze .\n",
+    "# Don't forget the sigmoid.\n",
+    "predicted_y = tf.squeeze(tf.nn.sigmoid(tf.matmul(input_X,weights)+b))\n",
+    "\n",
+    "# Loss. Should be a scalar number - average loss over all the objects\n",
+    "# tf.reduce_mean is your friend here\n",
+    "loss = tf.reduce_mean(-input_y * tf.log(predicted_y)-(1-input_y) * tf.log(1-predicted_y))\n",
+    "                      #<logistic loss (scalar, mean over sample)>\n",
+    "\n",
+    "# See above for an example. tf.train.*Optimizer\n",
+    "optimizer = tf.train.MomentumOptimizer(0.01, 0.5).minimize(loss)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "A test to help with the debugging"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 67,
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "validation_weights = 1e-3 * np.fromiter(map(lambda x:\n",
+    "        s.run(weird_psychotic_function, {my_scalar:x, my_vector:[1, 0.1, 2]}),\n",
+    "                                   0.15 * np.arange(1, X.shape[1] + 1)),\n",
+    "                                   count=X.shape[1], dtype=np.float32)[:, np.newaxis]\n",
+    "# Compute predictions for given weights and bias\n",
+    "prediction_validation = s.run(\n",
+    "    predicted_y, {\n",
+    "    input_X: X,\n",
+    "    weights: validation_weights,\n",
+    "    b: 1e-1})\n",
+    "\n",
+    "# Load the reference values for the predictions\n",
+    "validation_true_values = np.loadtxt(\"validation_predictons.txt\")\n",
+    "\n",
+    "assert prediction_validation.shape == (X.shape[0],),\\\n",
+    "       \"Predictions must be a 1D array with length equal to the number \" \\\n",
+    "       \"of examples in input_X\"\n",
+    "assert np.allclose(validation_true_values, prediction_validation)\n",
+    "loss_validation = s.run(\n",
+    "        loss, {\n",
+    "            input_X: X[:100],\n",
+    "            input_y: y[-100:],\n",
+    "            weights: validation_weights+1.21e-3,\n",
+    "            b: -1e-1})\n",
+    "assert np.allclose(loss_validation, 0.728689)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 68,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "loss at iter 0:0.4043\n",
+      "train auc: 0.948232323232\n",
+      "test auc: 0.980731225296\n",
+      "loss at iter 1:1.2870\n",
+      "train auc: 0.973429951691\n",
+      "test auc: 0.991600790514\n",
+      "loss at iter 2:0.1875\n",
+      "train auc: 0.993302591129\n",
+      "test auc: 1.0\n",
+      "loss at iter 3:0.0827\n",
+      "train auc: 0.997419850681\n",
+      "test auc: 1.0\n",
+      "loss at iter 4:0.0921\n",
+      "train auc: 0.998407992973\n",
+      "test auc: 1.0\n"
+     ]
+    }
+   ],
+   "source": [
+    "from sklearn.metrics import roc_auc_score\n",
+    "s.run(tf.global_variables_initializer())\n",
+    "for i in range(5):\n",
+    "    s.run(optimizer, {input_X: X_train, input_y: y_train})\n",
+    "    loss_i = s.run(loss, {input_X: X_train, input_y: y_train})\n",
+    "    print(\"loss at iter %i:%.4f\" % (i, loss_i))\n",
+    "    print(\"train auc:\", roc_auc_score(y_train, s.run(predicted_y, {input_X:X_train})))\n",
+    "    print(\"test auc:\", roc_auc_score(y_test, s.run(predicted_y, {input_X:X_test})))"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.6.4"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
diff --git a/Code-Sleep-Python/regression/reqiurements.txt b/Code-Sleep-Python/regression/reqiurements.txt
@@ -0,0 +1,5 @@
+numpy==1.13.3
+pandas==0.21.0
+matplotlib==2.1.0
+scikit-learn==0.19.1
+tensorflow >= 1.0