Python机器学习教程(Sebastian著)完整PDF版，含目录，共42MB

这本书共有13章，主要介绍了机器学习及Python在机器学习中的应用。其中包括数据分类、数据预处理、模型优化等内容。此外，第2章和第3章分别介绍了机器学习分类算法和使用scikit-learn实现机器学习分类算法。

以下是目录：

译者序

推荐序

作者简介

审校者简介

前言

第1章赋予计算机学习数据的能力1

1.1构建智能机器将数据转化为知识1

1.2 机器学习的三种不同方法1

1.2.1 通过监督学习对未来事件进行预测2

1.2.2 通过强化学习解决交互式问题4

1.2.3 通过无监督学习发现数据本身潜在的结构4

1.2.4 基本术语及符号介绍5

1.3 构建机器学习系统的蓝图6

1.3.1 数据预处理6

1.3.2 选择预测模型类型并进行训练7

1.3.3 模型验证与使用未知数据进行预测8

1.4 Python在机器学习中的应用8

本章小结9

第2章机器学习分类算法10

2.1 人造神经元—早期机器学习概览10

2.2 使用Python实现感知器学习算法13

2.3 自适应线性神经元及其学习的收敛性19

2.3.1 通过梯度下降最小化代价函数20

2.3.2 使用Python实现自适应线性神经元21

2.3.3 大规模机器学习与随机梯度下降25

本章小结29

第3章使用scikit-learn实现机器学习分类算法30

3.1 分类算法的选择30

3.2 初涉scikit-learn的使用30

使用scikit-learn训练感知器31

3.3 逻辑斯谛回归中的类别概率34

3.3.1 初识逻辑斯谛回归与条件概率34

3.3.2 通过逻辑斯谛回归模型的代价函数获得权重36

3.3.3 使用scikit-learn训练逻辑斯谛回归模型37

3.3.4 通过正则化解决过拟合问题39

3.4 使用支持向量机最大化分类间隔41

3.4.1 对分类间隔最大化的直观认识41

3.4.2 使用松弛变量解决非线性可分问题42

本章节主要介绍了机器学习中常用的一些算法，包括支持向量机(SVM)、核支持向量机、决策树、惰性学习算法和主成分分析等。其中，第4章主要介绍了如何对数据进行预处理，包括缺失数据的处理、类别数据的处理、将数据集划分为训练数据集和测试数据集、将特征的值缩放到相同的区间以及选择有意义的特征等。第5章主要介绍了如何通过降维压缩数据，包括无监督数据降维技术(如主成分分析)和通过线性判别分析压缩无监督数据以及使用核主成分分析进行非线性映射等。第6章主要介绍了如何对模型进行评估和参数调优，包括基于流水线的工作流、使用k折交叉验证评估模型性能以及通过学习及验证曲线来调试算法等。

本章主要介绍了机器学习的基本概念和算法，包括数据预处理、特征工程、模型选择、模型评估等方面的内容。其中包括了使用网格搜索调优机器学习模型、了解不同的性能评价指标、集成学习—组合不同的模型等内容。此外，还包括了在Web应用中嵌入机器学习模型、使用回归分析预测连续型目标变量等方面的内容。

以下是各章节的小结：

- 第6章：使用网格搜索调优机器学习模型，通过网络搜索调优超参，通过嵌套交叉验证选择算法；

- 第7章：集成学习—组合不同的模型，实现一个简单的多数投票分类器，评估与调优集成分类器，bagging —通过bootstrap样本构建集成分类器，通过自适应boosting提高弱学习机的性能；

- 第8章：使用机器学习进行情感分析，获取IMDb电影评论数据集，训练用于文档分类的逻辑斯谛回归模型，使用大数据—在线算法与外存学习；

- 第9章：在Web应用中嵌入机器学习模型，序列化通过scikit-learn拟合的模型，使用SQLite数据库存储数据，使用Flask开发Web应用；

- 第10章：使用回归分析预测连续型目标变量，简单线性回归模型初探，波士顿房屋数据集，基于最小二乘法构建线性回归模型，使用RANSAC拟合高鲁棒性回归模型等。

本章介绍了聚类分析、人工神经网络和Theano并行训练神经网络三个方面的内容。其中，第11章主要介绍了k-means算法对相似对象进行分组的方法，包括k-means++、硬聚类与软聚类、使用肘方法确定簇的最佳数量以及通过轮廓图定量分析聚类质量等；第12章主要介绍了使用人工神经网络识别图像的方法，包括使用人工神经网络对复杂函数建模、实现多层感知器以及神经网络的训练等；第13章主要介绍了使用Theano并行训练神经网络的方法，包括使用Theano构建、编译并运行表达式、为前馈神经网络选择激励函数以及使用Keras提高训练神经网络的效率等。

以下是重构后的文本：

本章共包括三个方面的内容：聚类分析、人工神经网络和Theano并行训练神经网络。首先，在第11章中，我们将介绍k-means算法对相似对象进行分组的方法。这包括k-means++、硬聚类与软聚类、使用肘方法确定簇的最佳数量以及通过轮廓图定量分析聚类质量等。其次，在第12章中，我们将介绍如何使用人工神经网络识别图像。这包括使用人工神经网络对复杂函数建模、实现多层感知器以及神经网络的训练等。最后，在第13章中，我们将介绍如何使用Theano并行训练神经网络。这包括使用Theano构建、编译并运行表达式、为前馈神经网络选择激励函数以及使用Keras提高训练神经网络的效率等。