Skip to content
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
59 changes: 30 additions & 29 deletions src/python/getting-started/titanic/titanic.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -1571,7 +1571,8 @@
"execution_count": 16,
"metadata": {
"_cell_guid": "da057efe-88f0-bf49-917b-bb2fec418ed9",
"_uuid": "6c7b899f23e0c2cb0b2b05447eece4f0aab769f5"
"_uuid": "6c7b899f23e0c2cb0b2b05447eece4f0aab769f5",
"scrolled": true
},
"outputs": [
{
Expand Down Expand Up @@ -4215,16 +4216,16 @@
"source": [
"## 模型, 预测和解决方案\n",
"\n",
"现在我们准备好训练模型并预测所需的解决方案。有60多种预测建模算法可供选择。我们必须了解问题的类型和解决方案的要求,以缩小到我们可以评估的少数几个模型。我们的问题是分类和回归问题。我们要确定输出(生存与否)与其他变量或功能(性别,年龄,端口...)之间的关系。我们也正在执行一类机器学习,这个机器学习称为监督学习,因为我们正在用给定的数据集来训练我们的模型。有了这两个标准 - 监督学习加分类和回归,我们可以将我们的模型选择缩小到几个。这些包括:\n",
"现在我们准备训练模型并通过训练得到的模型预测结果。有60多种用于预测的模型可供选择。我们必须了解问题的类型和解决方案的要求,将模型数量缩小到少数几个。我们的问题是分类和回归问题,因为需要确定输出(生存与否)与其他变量或特征(性别,年龄,港口...)之间的关系。此外,我们的问题应该属于监督学习,因为我们用已知类别的数据集来训练我们的模型。有了监督学习、分类和回归这两个标准,我们可以将模型选择的范围缩小到几个。这些包括:\n",
"- Logistic回归\n",
"- KNN或K—近邻\n",
"- 支持向量机\n",
"- 朴素贝叶斯分类器\n",
"- 决策树\n",
"- 随机森林\n",
"- 感知\n",
"- 感知器\n",
"- 人工神经网络\n",
"- RVM或相关向量机\n"
"- 相关向量机\n"
]
},
{
Expand Down Expand Up @@ -4260,9 +4261,9 @@
"_uuid": "dcd0657cf810fe62e145a86ba7cdc5c1f7370e7a"
},
"source": [
"Logistic回归是在工作流程早期运行的有用模型。 Logistic回归通过使用Logistic函数估计概率来度量分类因变量(特征)与一个或多个自变量(特征)之间的关系,逻辑函数是累积的逻辑分布。 参考维基百科[Wikipedia](https://en.wikipedia.org/wiki/Logistic_regression).\n",
"Logistic回归形式简单,易于建模,适合用于早期的工作流程。Logistics回归使用线性回归模型的预测结果去逼近真实标记的对数几率,形式为参数化的Logistics分布。参考维基百科[Wikipedia](https://en.wikipedia.org/wiki/Logistic_regression).\n",
"\n",
"注意基于我们的训练数据集的模型生成的置信度分数。"
"注意模型产生的“置信度评分”是基于训练集的。"
]
},
{
Expand Down Expand Up @@ -4301,14 +4302,14 @@
"_uuid": "461f8f4d266fb785bd3f29fa0aa9fd47353a4053"
},
"source": [
"我们可以使用Logistic回归来验证我们对功能创建和完成目标的假设和决策。 这可以通过计算决策函数中的特征的系数来完成。\n",
"我们可以使用Logistic回归来验证我们之前对特征的创建所做的假设。这可以通过计算决策函数中的特征的系数来完成。\n",
"\n",
"正系数增加了响应的对数(因而增加了概率),负系数降低了响应的对数(从而降低了概率)\n",
"系数为正说明该特征增加了结果的对数几率(因而增加了概率),系数为负说明该特征降低了结果的对数几率(从而降低了概率)\n",
"\n",
"- 性别是最高的实证系数,意味着性价值增加(男:0到女:1),生存= 1的概率增加最多。\n",
"- 与Pclass相反,Survived = 1的概率最大。\n",
"- 这样Age * Class是一个很好的人造模型,因为它与Survived具有次高的负相关性。\n",
"- 标题也是第二高的正相关。"
"- Sex特征有最高的正系数,意味着当Sex从男(0)变成女(1)时,Survived = 1的概率增加最多。\n",
"- 相反地,随着Pclass特征的增加,Survived = 1的概率减少的最多。\n",
"- Age * Class是一个很好的人造特征,因为它与Survived具有次高的负相关性。\n",
"- Title特征有第二高的正相关系数。"
]
},
{
Expand Down Expand Up @@ -4421,9 +4422,9 @@
"_uuid": "07a0a0f3a820c9d4ca0472d1b9ec05fa822d3479"
},
"source": [
"接下来,我们使用支持向量机进行建模,所述支持向量机是具有关联的学习算法的监督学习模型,其分析用于分类和回归分析的数据 给定一组训练样本,每个训练样本标记为属于两个类别中的一个或另一个,SVM训练算法建立一个模型,将新的测试样本分配给一个类别或另一个类别,使其成为非概率二元线性分类器。 参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Support_vector_machine).\n",
"接下来,我们使用支持向量机(SVM)模型。支持向量机是一个监督学习模型,它使用相关学习算法来分析数据,可以用于分类和回归问题。在二元分类的情况下,SVM算法建立一个模型,去找两类训练样本“正中间”的划分超平面,因为该划分超平面对训练样本局部扰动的“容忍性”最好。参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Support_vector_machine).\n",
"\n",
"请注意,该模型生成的信心得分高于物流回归模型。"
"注意SVM模型生成的“置信度评分”高于Logistics回归模型。"
]
},
{
Expand Down Expand Up @@ -4462,9 +4463,9 @@
"_uuid": "0075b5fb532a249c701efa7ef84b2f52c9f29776"
},
"source": [
"在模式识别中,k-最近邻算法(简称k-NN)是一种用于分类和回归的非参数方法。 一个样本通过其邻居的多数投票进行分类,样本被分配到最近的k个近邻中的类别(k是一个正整数,通常很小)。 如果k = 1,则该对象被简单地分配给该单个最近邻居的类别。 参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm).\n",
"在模式识别中,k-近邻算法(简称k-NN)是一种用于分类和回归的无参数方法。测试样本找出训练集中与其最靠近的k个训练样本,选择这k个样本中出现最多的类别标记作为预测结果(k是一个正整数,通常很小)。如果k = 1,则该对象的类别和最近邻样本的类别一致。 参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm).\n",
"\n",
"KNN置信度比物流回归好,但比SVM差。"
"KNN的“置信度评分”比Logistics回归好,但比SVM差。"
]
},
{
Expand Down Expand Up @@ -4501,9 +4502,9 @@
"_uuid": "c1e80aa85d47f1076aa3d0628a37d903b1959ad4"
},
"source": [
"在机器学习中,朴素贝叶斯分类器是一个简单的概率分类器的家庭基于应用贝叶斯定理与强(天真)的独立性假设之间的特点。 朴素贝叶斯分类器具有高度可扩展性,在学习问题中需要许多变量(特征)的线性参数。 参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Naive_Bayes_classifier).\n",
"在机器学习中,朴素贝叶斯分类器是一个基于所有特征互相独立的贝叶斯理论的简单概率分类器。朴素贝叶斯分类器具有高度可扩展性,在学习过程中需要大量的线性特征作为参数。参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Naive_Bayes_classifier).\n",
"\n",
"模型生成的置信度评分是目前评估的模型中最低的。"
"该模型生成的“置信度评分”是目前模型中最低的。"
]
},
{
Expand Down Expand Up @@ -4542,7 +4543,7 @@
"_uuid": "c5f397f24dda3a6181708bee43314f6f316d1328"
},
"source": [
"感知器是用于二元分类器的监督学习的算法(可以决定由数字向量表示的输入是否属于某个特定类别的函数)。 它是一种线性分类器,即一种分类算法,其基于将一组权重与特征向量组合的线性预测器函数进行预测。 该算法允许在线学习,因为它一次处理训练集中的元素。 参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Perceptron)."
"感知器是用于二元分类器的监督学习的算法(可以决定包含一个向量的输入是否属于某个类别)。它是一种线性分类器,即一种分类算法,通过一个线性预测函数将一组权重与特征向量组合来进行预测。该算法允许在线学习,因为它在一次迭代中只处理一个训练集中的元素。 参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Perceptron)."
]
},
{
Expand Down Expand Up @@ -4655,9 +4656,9 @@
"_uuid": "5e191ae0e5c2fad6c4601d792cbc3d7b71097822"
},
"source": [
"该模型使用决策树作为预测模型,其将特征(树分支)映射到关于目标值(树叶)的结论。 目标变量可以采用有限的一组值的树模型称为分类树; 在这些树结构中,树叶表示类标签,分支表示导致这些类标签的特征的连接。 目标变量可以取连续值(通常是实数)的决策树被称为回归树。 参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Decision_tree_learning).\n",
"该模型使用决策树作为预测模型,将特征(树的分支)映射到决策结果(树的叶结点)。目标变量是有限的一组值的树称为分类树; 在这些树结构中,叶结点对应于决策结果,其他每个结点对应于一个属性测试,每个结点包含的样本集合根据属性测试的结果被划分到子结点中。目标变量可以取连续值(通常是实数)的决策树称为回归树。参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Decision_tree_learning).\n",
"\n",
"模型的置信度评分是目前评估的模型中最高的。"
"该模型的“置信度评分”是目前模型中最高的。"
]
},
{
Expand Down Expand Up @@ -4696,9 +4697,9 @@
"_uuid": "0c37a62dd5b0c6e9a6f644d45a92eb3851bc2991"
},
"source": [
"下一个模式随机森林是最流行的之一。 随机森林或随机决策森林是一种用于分类,回归和其他任务的集合学习方法,它通过在训练时构造大量的决策树(n_estimators = 100)并输出作为类的模式的类(分类) 或者意味着对单个树木的预测(回归)。 参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Random_forest).\n",
"随机森林是最流行的模型之一。随机森林或随机决策树森林是一种用于分类,回归或其他任务的集成学习模型,它通过在训练时构造大量的决策树(n_estimators = 100),再使用某种策略将这些“个体学习器”结合起来。参考维基百科。[Wikipedia](https://en.wikipedia.org/wiki/Random_forest).\n",
"\n",
"模型的置信度评分是目前评估的模型中最高的。 我们决定使用这个模型的输出(Y_pred)来创建竞赛结果。"
"该模型的“置信度评分”是目前模型中最高的。我们决定使用这个模型的输出(Y_pred)来作为竞赛结果。"
]
},
{
Expand Down Expand Up @@ -4740,8 +4741,8 @@
"source": [
"### 模型评估\n",
"\n",
"现在, 我们可以对所有模型进行评估, 为我们的问题选择最好的模型.\n",
"虽然决策树和随机森林评分相同, 但我们选择使用随机森林,因为它们会过度的调整决策树以适应他们的训练集的习惯."
"现在, 我们可以对所有模型进行评估, 为我们的问题选择最好的模型\n",
"虽然决策树和随机森林评分相同, 但我们选择使用随机森林,因为随机森林会校正决策树“过拟合”的缺点。"
]
},
{
Expand Down Expand Up @@ -4881,11 +4882,11 @@
"_uuid": "b8e1264e98af00d119e07a776643e6ce08b59666"
},
"source": [
"我们提交给竞争网站 Kaggle 的比赛结果是在 6,082 个参赛作品中获得 3883 .\n",
"这一结果表明,竞争正在进行.\n",
"我们提交给竞赛网站 Kaggle 的比赛结果在 6,082 个参赛作品中获得 3883 .\n",
"当竞赛正在进行时,这个结果是具有指导意义的.\n",
"这个结果只占提交数据集的一部分.\n",
"对我们的第一次尝试不坏.\n",
"任何提高我们的分数的建议是受我们欢迎的."
"对我们的第一次尝试是不错的.\n",
"欢迎任何提高我们的分数的建议."
]
},
{
Expand Down