《Python机器学习:原理与实践》是一本关于机器学习和Python的书籍。第1章介绍了机器学习与Python概述,包括机器学习与人工智能、机器学习能做什么、Python实践课等内容。其中,机器学习是一种新的编程范式,强调基于训练数据,通过众多连续的神经网络层过滤和提取数据中有利于预测的重要特征。相对于拥有众多层的深度学习,机器学习有时也被称为浅层学习。从这个角度看,机器学习就是一种基于巨量数据集,以发现其中隐藏的、有效的、可理解的规则为核心目标的数据建模过程,旨在辅助解决各行业领域的实际应用问题。

机器学习的对象是数据集合,也称为样本集。每一行通常称为一个样本观测。每一列通常称为一个变量,也称为特征。根据各变量的取值类型,可将变量细分为数值型、顺序型和类别型三类,后两类统称为分类型。机器学习通过数据建模完成两大主要任务:数据预测和数据聚类。数据预测是基于已有数据集,归纳出输入变量和输出变量之间的数量关系,可发现对输出变量产生重要影响的输入变量,并可用于对新数据输出变量取值的预测。而聚类分析则是无监督的机器学习任务之一,它包括自动发现数据中的自然分组,只解释输入数据,并在特征空间中找到自然组或群集 。