以下是机器学习必学的10大算法 : 1. 线性回归 2. Logistic 回归 3. K 近邻算法 4. 决策树 5. 支持向量机 6. 逻辑回归 7. 朴素贝叶斯分类器 8. 随机森林 9. 梯度提升树(GBDT) 10. 集成学习

本文介绍了10大常用机器学习算法，包括线性回归、Logistic回归、线性判别分析、朴素贝叶斯、KNN、随机森林等。其中，线性回归可能是最广为人知也最易理解的算法之一。预测建模主要关注的是在牺牲可解释性的情况下，尽可能最小化模型误差或做出最准确的预测。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标。

线性回归模型被表示为一个方程式，它为输入变量找到特定的权重(即系数B),进而描述一条较佳拟合了输入变量(x)和输出变量(y)之间关系的直线。例如：y=B0+B1 * x。我们将在给定输入值x的条件下预测y,线性回归学习算法的目的是找到系数B0和B1的值。我们可以使用不同的技术来从数据中学习线性回归模型，例如普通最小二乘法的线性代数解和梯度下降优化。线性回归大约有200多年的历史，并已被广泛地研究。在使用此类技术时，有一些很好的经验规则：我们可以删除非常类似(相关)的变量，并尽可能移除数据中的噪声。线性回归是一种运算速度很快的简单技术，也是一种适合初学者尝试的经典算法。

Logistic回归是机器学习从统计学领域借鉴过来的另一种技术。它是二分类问题的首选方法。像线性回归一样，Logistic回归的目的也是找到每个输入变量的权重系数值。但不同的是，Logistic回归的输出预测结果是通过一个叫作「logistic函数」的非线性函数变换而来的。logistic函数的形状看起来像一个大的「S」，它会把任何值转换至0-1区间内。这十分有用，因为我们可以把一个规则应用于 logistic 函数的输出，从而得到0-1区间内的捕捉值(例如，将阈值设置为0.5,则如果函数值小于0.5,则输出值为1),并预测类别值。由于模型的学习方式，Logistic回归的预测结果也可以用作给定数据实例属于类0或类1概率。这对于需要为预测结果提供更多理论依据的问题非常有用。与线性回归类似，当删除与输出变量无关以及彼此之间非常相似(相关)属性后，Logistic回归效果更好。该模型学习速度快，对二分类问题十分有效。

另外还有3种常用算法：线性判别分析、朴素贝叶斯和KNN。线性判别分析是一种监督式学习算法，它通过将新样本映射到已有样本所构成的特征空间中来实现分类任务；朴素贝叶斯则是一种基于概率论和贝叶斯定理的分类器；KNN则是一种基于距离度量距离最近邻点的多数投票来进行分类任务。这些算法各有优劣势，具体应用时需要根据实际情况进行选择。

Logistic回归是一种传统的分类算法，它的使用场景仅限于二分类问题。如果你有两个以上的类，那么线性判别分析算法(LDA)是首选的线性分类技术。LDA的表示方法非常直接。它包含为每个类计算的数据统计属性。对于单个输入变量而言，这些属性包括：

- 每个类的均值。

- 所有类的方差。

- 线性判别分析。

预测结果是通过计算每个类的判别值、并将类别预测为判别值最大的类而得出的。该技术假设数据符合高斯分布(钟形曲线),因此较好预先从数据中删除异常值。LDA是一种简单而有效的分类预测建模方法。

决策树是一类重要的机器学习预测建模算法。决策树可以被表示为一棵二叉树。这种二叉树与算法设计和数据结构中的二叉树是一样的，没有什么特别。每个节点都代表一个输入变量(x)和一个基于该变量的分叉点(假设该变量是数值型的)。

决策树的叶子结点包含一个用于做出预测的输出变量(y)。预测结果是通过在树的各个分叉路径上游走，直到到达一个叶子结点并输出该叶子结点的类别值而得出。决策树的学习速度很快，做出预测的速度也很快。它们在大量问题中往往都很准确，而且不需要为数据做任何特殊的预处理准备。

朴素贝叶斯是一种简单而强大的预测建模算法。该模型由两类可直接从训练数据中计算出来的概率组成：1)数据属于每一类的概率；2)给定每个 x 值，数据从属于每个类的条件概率。一旦这两个概率被计算出来，就可以使用贝叶斯定理，用概率模型对新数据进行预测。当你的数据是实值的时候，通常假设数据符合高斯分布(钟形曲线),这样你就可以很容易地估计这些概率。

贝叶斯定理朴素贝叶斯之所以被称为「朴素」，是因为它假设每个输入变量相互之间是独立的。这是一种很强的、对于真实数据并不现实的假设。不过，该算法在大量的复杂问题中十分有效。

K最近邻(KNN)算法是非常简单而有效的。KNN 的模型表示就是整个训练数据集。对新数据点的预测结果是通过在整个训练集上搜索与该数据点最相似的 K 个实例(近邻)并且总结这 K 个实例的输出变量而得出的。对于回归问题来说，预测结果可能就是输出变量的均值；而对于分类问题来说，预测结果可能是众数(或最常见的)的类值。

你好，KNN、学习向量量化和支持向量机都是机器学习算法。KNN是一种基于实例的学习方法，属于监督学习范畴。它的工作原理简单直观：给定一个训练数据集，对新的输入实例，KNN算法通过计算其与训练集中每个实例的距离，找出距离最近的K个邻居，然后根据这些邻居的类别(对于分类问题)或值(对于回归问题),来预测新实例的类别或值。

学习向量量化算法(LVQ)允许选择所需训练实例数量，并确切地学习这些实例。LVQ的表示是一组码本向量。它们在开始时是随机选择的，经过多轮学习算法的迭代后，最终对训练数据集进行较好的总结。通过学习，码本向量可被用来像 K 最近邻那样执行预测。

支持向量机(SVM)可能是目前最流行、被讨论地最多的机器学习算法之一。超平面是一条对输入变量空间进行划分的「直线」。支持向量机会选出一个将输入变量空间中的点按类(类 0 或类 1)进行较佳分割的超平面。

支持向量机是目前可以直接使用的较强大的分类器之一，值得你在自己的数据集上试一试。袋装法是一种从数据样本中估计某个量(例如平均值)的强大统计学方法。自助法是一种从数据样本中估计某个量(例如平均值)的强大统计学方法。Bagging 使用了相同的方法。但是最常见的做法是使用决策树，而不是对整个统计模型进行估计。随机森林会创建决策树，这样就不用选择较优分割点，而是通过引入随机性来进行次优分割。因此，为每个数据样本创建的模型比在其它情况下创建的模型更加独特，但是这种独特的方式仍能保证较高的准确率。结合它们的预测结果可以更好地估计真实的输出值。如果你使用具有高方差的算法(例如决策树)获得了良好的结果，那么你通常可以通过对该算法执行 Bagging 获得更好的结果。Boosting 是一种试图利用大量弱分类器创建一个强分类器的集成技术。AdaBoost 是第一个为二分类问题开发的真正成功的 Boosting 算法。它是人们入门理解 Boosting 的较佳起点。当下的 Boosting 方法建立在 AdaBoost 基础之上，最著名的就是随机梯度提升机。

以上内容来自CSDN博客文章《机器学习经典算法》

由于算法在纠正错误上投入了如此多的精力，因此删除数据中的异常值在数据清洗过程中是非常重要的。量化金融分析师(简称AQF,Analyst of Quantitative Finance)由量化金融标准委员会(Standard Committee of Quantitative Finance,SCQF)主考并颁证，是代表量化金融领域的专业水平证书。课程适合人群：1.金融工程/数学专业背景的同学/工作人士，希望进一步学习Python编程以及在量化投资的实战应用；2.非金融工程专业背景的同学/工作人士，希望迅速成为宽客；3.金融相关人员，希望学习如何系统的做量化策略；4.个人投资者，希望系统学习掌握量化投资相关的实务技能，从模型开发、回测、策略改进、搭建稳定的量化交易系统等方面进行学习。

以下是AQF核心课程体系：

1. 《量化投资基础》：主要涵盖了量化投资领域的必备知识，包括基本面分析、技术分析、数量分析、固定收益、资产组合管理、权益、另类投资等内容。

2. 《Python语言编程基础》：包含了Python环境搭建、基础语法、变量类型、基本函数、基本语句、第三方库、金融财务实例等内容。旨在为金融财经人提供最需要的编程方法。

3. 《基于Python的经典量化投资策略》：包含了最富盛名最基本的量化交易思想和交易策略。例如海龟交易模型、Logistics模型、配对交易模型、波动扩张模型、Alpha模型，机器学习(随机森林模型)、主成分分析),深度学习(人工神经网络)等内容。

4. 《量化交易系统设计》：旨在学习量化交易系统的具体知识，包括过滤器，进入信号，退出信号，仓位管理等详细内容，并指导学员设计涵盖个人交易哲学的量化交易系统。

5. 《量化实盘交易》：旨在为解决实际量化交易策略搭建过程中的一些问题提供较优解决方案。

掌握Python及量化投资技能后可以做到以下几点：1.熟悉中国主要金融市场及交易产品的交易机制；2.熟知国内外期货交易、股市交易的异同点和内在运行机制；3.掌握经典量化交易策略细节及其背后的交易哲学；4.掌握金融、编程和建模知识基础，拥有量化交易实盘操作能力；5.具备独立自主地研发新量化交易策略的能力；6.掌握量化交易模型设计的基本框架，以及风险管理和资产组合理论的实际运用。

在进行量化投资决策时，我们需要掌握从策略思想到策略编写再到策略实现的完整过程。这包括了理解和应用量化投资的基本理念，学习如何编写有效的交易策略，以及如何将这些策略应用到实际的投资环境中。此外，我们还需要具备量化投资实战交易的能力，以便在实际市场中有效地执行我们的策略。

为了帮助大家更好地理解和掌握这些知识，我们推荐阅读金程的相关资料。金程是一家专业的AQF培训机构，他们提供了一系列关于量化投资的培训课程，可以帮助大家全面了解量化投资的各个方面。通过参加这些课程，你可以更好地理解量化投资的基本理念，学习如何编写和实现有效的交易策略。

除了参加培训课程外，我们还推荐大家加入一些相关的交流群，如AQF考友群、金融宽客交流群等。在这些群中，你可以与其他正在学习和实践量化投资的人交流经验，分享心得，这对于你学习和进步非常有帮助。

最后，如果你还没有收到我们提供的AQF备考资料，可以随时联系我们。我们的工作人员会在48小时内查收并发送给你所需的资料。同时，如果你有任何疑问或需要进一步的帮助，也可以随时联系我们。我们会尽我们最大的努力来帮助你顺利完成你的学习之旅。