update bn and data aug

L1aoXingyu · L1aoXingyu · commit dd620d34efd2 · 2017-12-23T17:19:43.000+08:00
diff --git a/chapter4_CNN/batch-normalization.ipynb b/chapter4_CNN/batch-normalization.ipynb
@@ -4,57 +4,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "# 批标准化\n",
-    "在我们正式进入模型的构建和训练之前，我们会先讲一讲数据预处理和批标准化，因为模型训练并不容易，特别是一些非常复杂的模型，并不能非常好的训练得到收敛的结果，所以对数据增加一些预处理，同时使用批标准化能够得到非常好的收敛结果，这也是卷积网络能够训练到非常深的层的一个重要原因。"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## 数据预处理\n",
-    "目前数据预处理最常见的方法就是中心化和标准化，中心化相当于修正数据的中心位置，实现方法非常简单，就是在每个特征维度上减去对应的均值，最后得到 0 均值的特征。标准化也非常简单，在数据变成 0 均值之后，为了使得不同的特征维度有着相同的规模，可以除以标准差近似为一个标准正态分布，也可以依据最大值和最小值将其转化为 -1 ~ 1 之间，下面是一个简单的图示\n",
-    "\n",
-    "![](https://ws1.sinaimg.cn/large/006tKfTcly1fmqouzer3xj30ij06n0t8.jpg)\n",
-    "\n",
-    "这两种方法非常的常见，如果你还记得，前面我们在神经网络的部分就已经使用了这个方法实现了数据标准化，至于另外一些方法，比如 PCA 或者 白噪声已经用得非常少了。"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## Batch Normalization\n",
-    "前面在数据预处理的时候，我们尽量输入特征不相关且满足一个标准的正态分布，这样模型的表现一般也较好。但是对于很深的网路结构，网路的非线性层会使得输出的结果变得相关，且不再满足一个标准的 N(0, 1) 的分布，甚至输出的中心已经发生了偏移，这对于模型的训练，特别是深层的模型训练非常的困难。\n",
-    "\n",
-    "所以在 2015 年一篇论文提出了这个方法，批标准化，简而言之，就是对于每一层网络的输出，对其做一个归一化，使其服从标准的正态分布，这样后一层网络的输入也是一个标准的正态分布，所以能够比较好的进行训练，加快收敛速度。"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "batch normalization 的实现非常简单，对于给定的一个 batch 的数据 $B = \\{x_1, x_2, \\cdots, x_m\\}$算法的公式如下\n",
-    "\n",
-    "$$\n",
-    "\\mu_B = \\frac{1}{m} \\sum_{i=1}^m x_i\n",
-    "$$\n",
-    "$$\n",
-    "\\sigma^2_B = \\frac{1}{m} \\sum_{i=1}^m (x_i - \\mu_B)^2\n",
-    "$$\n",
-    "$$\n",
-    "\\hat{x}_i = \\frac{x_i - \\mu_B}{\\sqrt{\\sigma^2_B + \\epsilon}}\n",
-    "$$\n",
-    "$$\n",
-    "y_i = \\gamma \\hat{x}_i + \\beta\n",
-    "$$"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "第一行和第二行是计算出一个 batch 中数据的均值和方差，接着使用第三个公式对 batch 中的每个数据点做标准化，$\\epsilon$ 是为了计算稳定引入的一个小的常数，通常取 $10^{-5}$，最后利用权重修正得到最后的输出结果，非常的简单，下面我们可以实现一下简单的一维的情况，也就是神经网络中的情况"
+    "# 批标准化"
    ]
   },
   {
@@ -146,19 +96,6 @@
     "print(y)"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "可以看到这里一共是 5 个数据点，三个特征，每一列表示一个特征的不同数据点，使用批标准化之后，每一列都变成了标准的正态分布\n",
-    "\n",
-    "这个时候会出现一个问题，就是测试的时候该使用批标准化吗？\n",
-    "\n",
-    "答案是肯定的，因为训练的时候使用了，而测试的时候不使用肯定会导致结果出现偏差，但是测试的时候如果只有一个数据集，那么均值不就是这个值，方差为 0 吗？这显然是随机的，所以测试的时候不能用测试的数据集去算均值和方差，而是用训练的时候算出的移动平均均值和方差去代替\n",
-    "\n",
-    "下面我们实现以下能够区分训练状态和测试状态的批标准化方法"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": 4,
@@ -320,13 +257,6 @@
     "train(net, train_data, test_data, 10, optimizer, criterion)"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "这里的 $\\gamma$ 和 $\\beta$ 都作为参数进行训练，初始化为随机的高斯分布，`moving_mean` 和 `moving_var` 都初始化为 0，并不是更新的参数，训练完 10 次之后，我们可以看看移动平均和移动方差被修改为了多少"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": 11,
@@ -360,20 +290,6 @@
     "print(net.moving_mean[:10])"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "可以看到，这些值已经在训练的过程中进行了修改，在测试过程中，我们不需要再计算均值和方差，直接使用移动平均和移动方差即可"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "作为对比，我们看看不使用批标准化的结果"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": 12,
@@ -409,27 +325,6 @@
     "train(no_bn_net, train_data, test_data, 10, optimizer, criterion)"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "可以看到虽然最后的结果两种情况一样，但是如果我们看前几次的情况，可以看到使用批标准化的情况能够更快的收敛，因为这只是一个小网络，所以用不用批标准化都能够收敛，但是对于更加深的网络，使用批标准化在训练的时候能够很快地收敛"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "从上面可以看到，我们自己实现了 2 维情况的批标准化，对应于卷积的 4 维情况的标准化是类似的，只需要沿着通道的维度进行均值和方差的计算，但是我们自己实现批标准化是很累的，pytorch 当然也为我们内置了批标准化的函数，一维和二维分别是 `torch.nn.BatchNorm1d()` 和 `torch.nn.BatchNorm2d()`，不同于我们的实现，pytorch 不仅将 $\\gamma$ 和 $\\beta$ 作为训练的参数，也将 `moving_mean` 和 `moving_var` 也作为参数进行训练"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "下面我们在卷积网络下试用一下批标准化看看效果"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -562,13 +457,6 @@
    "source": [
     "train(net, train_data, test_data, 5, optimizer, criterion)"
    ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "之后介绍一些著名的网络结构的时候，我们会慢慢认识到批标准化的重要性，使用 pytorch 能够非常方便地添加批标准化层"
-   ]
   }
  ],
  "metadata": {
diff --git a/chapter4_CNN/data-augumentation.ipynb b/chapter4_CNN/data-augumentation.ipynb
@@ -4,25 +4,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "# 数据增强\n",
-    "前面我们已经讲了几个非常著名的卷积网络的结构，但是单单只靠这些网络并不能取得 state-of-the-art 的结果，现实问题往往更加复杂，所以为了在现实中的数据集上取得成功，还需要应用一些额外的数据增强方法和网训练络的技巧。\n",
-    "\n",
-    "2012 年 AlexNet 在 ImageNet 上大获全胜，图片增强方法功不可没，因为有了图片增强，使得训练的数据集比实际数据集多了很多'新'样本，减少了过拟合的问题，下面我们来具体解释一下。"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "## 常用的数据增强方法\n",
-    "常用的数据增强方法如下：  \n",
-    "1.对图片进行一定比例缩放  \n",
-    "2.对图片进行随机位置的截取   \n",
-    "3.对图片进行随机的水平和竖直翻转  \n",
-    "4.对图片进行随机角度的旋转  \n",
-    "5.对图片进行亮度、对比度和颜色的随机变化\n",
-    "\n",
-    "这些方法 pytorch 都已经为我们内置在了 torchvision 里面，我们在安装 pytorch 的时候也安装了 torchvision，下面我们来依次展示一下这些数据增强方法"
+    "# 数据增强"
    ]
   },
   {
@@ -66,8 +48,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 随机比例放缩\n",
-    "随机比例缩放主要使用的是 `torchvision.transforms.Resize()` 这个函数，第一个参数可以是一个整数，那么图片会保存现在的宽和高的比例，并将更短的边缩放到这个整数的大小，第一个参数也可以是一个 tuple，那么图片会直接把宽和高缩放到这个大小；第二个参数表示放缩图片使用的方法，比如最邻近法，或者双线性差值等，一般双线性差值能够保留图片更多的信息，所以 pytorch 默认使用的是双线性差值，你可以手动去改这个参数，更多的信息可以看看[文档](http://pytorch.org/docs/0.3.0/torchvision/transforms.html)"
+    "### 随机比例放缩"
    ]
   },
   {
@@ -109,8 +90,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 随机位置截取\n",
-    "随机位置截取能够提取出图片中局部的信息，使得网络接受的输入具有多尺度的特征，所以能够有较好的效果。在 torchvision 中主要有下面两种方式，一个是 `torchvision.transforms.RandomCrop()`，传入的参数就是截取出的图片的长和宽，对图片在随机位置进行截取；第二个是 `torchvision.transforms.CenterCrop()`，同样传入介曲初的图片的大小作为参数，会在图片的中心进行截取"
+    "### 随机位置截取"
    ]
   },
   {
@@ -192,8 +172,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 随机的水平和竖直方向翻转\n",
-    "对于上面这一张猫的图片，如果我们将它翻转一下，它仍然是一张猫，但是图片就有了更多的多样性，所以随机翻转也是一种非常有效的手段。在 torchvision 中，随机翻转使用的是 `torchvision.transforms.RandomHorizontalFlip()` 和 `torchvision.transforms.RandomVerticalFlip()`"
+    "### 随机的水平和竖直方向翻转"
    ]
   },
   {
@@ -250,8 +229,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 随机角度旋转\n",
-    "一些角度的旋转仍然是非常有用的数据增强方式，在 torchvision 中，使用 `torchvision.transforms.RandomRotation()` 来实现，其中第一个参数就是随机旋转的角度，比如填入 10，那么每次图片就会在 -10 ~ 10 度之间随机旋转"
+    "### 随机角度旋转"
    ]
   },
   {
@@ -282,8 +260,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### 亮度、对比度和颜色的变化\n",
-    "除了形状变化外，颜色变化又是另外一种增强方式，其中可以设置亮度变化，对比度变化和颜色变化等，在 torchvision 中主要使用 `torchvision.transforms.ColorJitter()` 来实现的，第一个参数就是亮度的比例，第二个是对比度，第三个是饱和度，第四个是颜色"
+    "### 亮度、对比度和颜色的变化"
    ]
   },
   {
@@ -361,15 +338,6 @@
     "color_im"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "\n",
-    "\n",
-    "上面我们讲了这么图片增强的方法，其实这些方法都不是孤立起来用的，可以联合起来用，比如先做随机翻转，然后随机截取，再做对比度增强等等，torchvision 里面有个非常方便的函数能够将这些变化合起来，就是 `torchvision.transforms.Compose()`，下面我们举个例子"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": 23,
@@ -429,15 +397,6 @@
     "plt.show()"
    ]
   },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "可以看到每次做完增强之后的图片都有一些变化，所以这就是我们前面讲的，增加了一些'新'数据\n",
-    "\n",
-    "下面我们使用图像增强进行训练网络，看看具体的提升究竟在什么地方，使用前面讲的 ResNet 进行训练 "
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": 1,
@@ -599,15 +558,6 @@
    "source": [
     "train(net, train_data, test_data, 10, optimizer, criterion)"
    ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "从上面可以看出，对于训练集，不做数据增强跑 10 次，准确率已经到了 95%，而使用了数据增强，跑 10 次准确率只有 75%，说明数据增强之后变得更难了。\n",
-    "\n",
-    "而对于测试集，使用数据增强进行训练的时候，准确率会比不使用更高，因为数据增强提高了模型应对于更多的不同数据集的泛化能力，所以有更好的效果。"
-   ]
   }
  ],
  "metadata": {