CCF精选：机器学习之旅 - 从先验假设到自动化：通往通用人工智能的关键步骤"

本文讨论了五个主要的先验假设以及如何突破这些假设限制并进一步提升机器学习效果的方法。在此基础上，我们提出了机器学习自动化的概念以及SLeM框架。SLeM为机器学习自动化研究提供了一个形式化、模型化、科学化的研究框架和途径。现有应用表明SLeM是一个强大而有效的工具，同时它也处于快速持续的发展过程中。

关键词：机器学习、自动化、机器学习

以深度学习为代表的人工智能已经突破了从“不能用”到“可以用”的技术拐点，但是从“可以用”到“很好用”，还有很长的路要走。人工智能最核心的技术是机器学习，即从给定的数据集中总结规律或寻求表征，可以概括为图1所示的公式。

这个模型概括了机器学习解决问题的一般步骤：首先我们需要选择一个较大范围的、可能包含数据规律或表示函数的假设空间，然后指定一个损失度量，在该度量下，我们在假设空间中找一个函数，它能够将函数在给定数据集上的平均损失极小化。极小化数据集上的平均损失这一目标被称为“数据拟合项”，相应的方法即为经验风险极小化。然而，仅通过极小化数据拟合项来寻找解常常是不适定的，因而必须添加某些额外的约束，新增加的希望满足的这些约束构成“正则项”。极小化数据拟合项与正则项之和被称为“正则化方法”，它构成了机器学习的最基本模型。

在使用机器学习时，我们总是自觉或不自觉地施加一些假设。例如：

- 损失度量的独立性假设。我们总是习惯使用像最小二乘或者交叉熵这样确定的度量作为损失，而不把损失度量的选择与我们要解决的具体问题关联起来，更没有依据面临的问题自适应地确定最优的损失度量。

- 假设空间的大容量假设。我们总是自然地认为，我们选择使用的机器架构(例如用一个20层的深度学习架构)已经包含我们期望找到的解，或者说，已经包含数据所蕴含的规律。这个假设显然是保证机器学习成功的前提。我们通常都很自信：我们选的架构是合理的，是包含所要找的解的。

- 训练数据的完备性假设。我们使用机器学习时，总期望训练机器的数据是非常充分的、足够多的、高质量的。这个假定常常是我们选择机器学习方法的前提和原由。

- 正则子

为了使机器学习产生的决策函数具有期望的性质，施加一定的正则约束是必须的。例如，我们已经习惯于使用L2正则来保证光滑性，使用L1正则来保证稀疏性，使用TV正则来保持图像边缘稀疏性等。人们一般认为，正则项的形式是由先验决定的，我们在使用机器学习时，能够根据先验事先加以确定。这个假定的本质是，我们已经能够将问题的先验抽象出知识，并且能够正确地以“正则子”形式建模。之所以把这一认识叫作假设，是因为我们其实并不知道应用中所选择的正则子是否已经正确地对先验进行了建模。

分析框架的欧氏假设。当我们训练深度网络架构时，会自然地选择使用BP或ADAM这样类型的优化算法。为什么？这是因为这些算法都经过了严格的理论评判(收敛性、稳定性、复杂性等)。评判算法即把算法放在一个特定的数学框架内进行分析而得出结论的活动。我们通常把评判算法放在可使用二范数、正交性这样的欧氏框架中。这样的假设本质上限定了可用算法的类型和可用机器的架构(损失函数、正则项等)。在这样的假设下，我们并不能处理和敢于使用更复杂的非欧氏空间算法和机器学习架构。这5个假设相当大程度上决定了机器学习的效能。

如何突破机器学习的先验假设？已有大量工作聚焦于如何突破机器学习的这些假设。以下是笔者团队近年来在这方面的一些代表性工作。

关于分析框架欧氏假设，我们认为，欧氏空间之所以被广泛使用，根本原因是我们在算法分析中能够使用欧式架构(a+b)2=a2+b2+2ab,在这样的架构下，任何一个算法的性能(如收敛性)都和目标函数的凸性发生联系。因此，要冲破目标函数的凸性假设，本质上就是要冲破欧氏假设。笔者1989年及1991年的工作打开了用非欧氏架构工具研究非欧氏算法的可能性，近年来这些工具得到广泛应用。从这些研究中可看出，冲破欧氏假设的途径在于应用Banach空间几何学。

关于损失独立性假设，损失有两个功能，一是度量选定的函数在给定数据/数据集上的拟合程度，二是度量一个函数表示的精度。尽管在有导师学习和无导师学习模式下，它们可能有着不同的表现形式，但它的选择本质上都应该是与问题相关的。事实上，如果我们把问题的标签和特征用式(1)描述的观察模型来理解：

y=fθ(x)+e(1)

其中，e()表示误差项，θ表示参数向量。那么损失函数就可以表示为：

L(θ)=1/2||y-fθ(x)||^2+(λ/2)||θ||^2

这里，||θ||^2表示参数向量的范数。

机器学习的最佳度量应该由误差决定。我们通过实验发现，如果假定误差是白噪声，那么最优的恢复度量确实是最小二乘。但如果噪声是其他类型，最优恢复度量就不再是最小二乘了。

给定一个具体的误差分布形式，我们能确定出一个特定的最佳恢复度量，这样的方法称为误差建模原理。对于任何机器学习问题，通过研究它生成的误差形式，就能获得一定意义下最优的损失度量，而在该度量下找到机器学习的经验函数才是最好的。笔者团队已有很多成功应用误差建模原理的案例，最典型的是根据这一原理成功研发微剂量CT,实现了将CT幅射剂量降低到微剂量水平。

一般来说，我们并不知道要解决的问题处于一个什么样的误差环境，这种情况下，我们可以运用高斯混合来逼近。事实上，任何一个分式函数都能以多个高斯分布函数之和来逼近。据此，我们证明，不同的高斯混合导致不同加权的“加权最小二乘”最优度量。这给出一个非常有用的提示：当我们不知道误差的真正形式时，加权最小二乘是一个不错的选择。

关于假设空间的大容量假设如何设计一个机器架构使希望找到的问题解确在其中？我们提出了一个非常基础的方法：先构建一个含大量超参数的粗糙模型(叫模型族)来刻画问题解的范围，然后求解“模型族”构成解决问题的“算法族”，再把“算法族”自适应化展开成一个深度网络架构，它的参数包含模型簇和算法簇中的所有参数并且允许每个迭代步不同；最后应用数据来训练这样形成的网络产生问题的解。这样的一般化方法称为模型驱动的深度学习。模型驱动的深度学习表面上看是解决深度学习的架构设计问题，但本质上是在深度学习过程中逐步设置包含解的最小假设空间来突破假设空间的大容量假设。这一方法不同于传统的数学建模方法(要求精确建模),前者只要求对问题解的整体范围进行刻画；它也不同于传统的深度学习(没有融入物理机制),模型驱动的深度学习具有明确的物理机制解释和严密的数学基础。由此回避了深度学习架构设计难的问题，从而使机器学习架构能够在理论指导及可解释的意义下进行设计。

您好！您的问题是关于深度学习架构的。我理解您想了解ADMM CS-Net深度学习架构、隐正则化理论、数据完备性假设和机器学习自动化等方面的信息。

ADMM CS-Net深度学习架构是一种用于图像重建的广义CS模型，使用ADMM算法求解该模型，并进一步将ADMM算法扩展为unrolling深度网络，使得ADMM的所有参数通过端到端判别学习实现。

隐正则化理论是一种能够代替设置正则项的方法，通过数据学习近点投影算子，从而起到与正则化方法一样的效果。值得注意的是，设定正则项是利用先验知识，而隐正则化是从数据中抽取知识，融入学习过程，因此在原理上具有重要的意义。

数据完备性假设是指数据的完备性和高质量是保证机器学习效果的关键。课程自步学习的想法能够把学习过程与人类受教育的过程类比，从而以“先易后难”分步处理的方式应对不完备的数据(正如小学生先学简单的内容再学更难的内容一样)。

最后，关于机器学习自动化方面，目前还没有完全实现自动化的机器学习技术。但是随着技术的发展和应用场景的变化，相信未来会有更多自动化的机器学习技术出现。

以下是重构后的内容：

在人工智能的发展过程中，机器学习自动化是一个重要的目标。目前，我们仍处于机器学习的人工化阶段，但正在走向自动化、自主化阶段。为了实现机器学习自动化，我们需要至少实现六个方面的自动化，包括数据自动化、架构/算法自动化、应用/更新自动化等。

要实现机器学习自动化，可以采用一种模拟学习方法论(Simulate Learning Methodology,SLeM)的框架。SLeM框架需要从数学上定义学习任务、学习方法、学习方法论等概念。具体来说，SLeM框架包括以下几个部分：假设空间、损失函数、正则项和学习算法等。

学习的目的是对可观测的现实世界规律进行总结和刻画。我们认为，一个现实世界的规律可以用一个随机变量来描述，或等价地，由一个分布函数(密度函数)来描述。一个随机变量(现实世界规律)在不同时空的抽样即表现为不同时空反映同一规律的数据(这些构成通常机器学习研究的对象)。从数据中学习，可以表现为分类、回归、降维、隐变量识别等具体任务，但本质上是学习数据背后的分布(只要知道了分布，所有具体任务都能通过分布函数表示出来)。因此，学习任务宜定义作统计上的“密度估计问题”，即根据给定的数据，确定数据背后的随机变量分布(密度函数)问题。学习的本质是对一个可观测的现实世界规律作总结和刻画。

学习方法

依据前文对机器学习要素的分析，只要指定一组特定的“数据产生方法、假设空间/机器架构、损失度量、优化算法”，就可以认为定义了一个学习方法。由此，我们定义一个学习方法是对学习空间的一组指定：$K=(D,f,L,A)$,其中$D$是数据生成方法，$f$是机器架构，$L$是损失度量，$A$是一个可用以训练的优化算法。这里学习空间$K$自然定义为分布函数空间、假设空间、损失函数空间、优化算法空间的乘积，如图6所示。

学习空间$K$显然是无穷维的。但如果我们假设：$K$的每一因子空间都存在可数基底(应用中自然满足，例如，不同均值与方差的高斯分布构成分布函数空间的可数基底),则学习空间$K$便可以序列化(即同构于序列空间),即对应地能用4个无穷序列来描述。这个过程被称为学习空间的超参数化。如此一来，学习方法便可以表示为4个无穷序列，或进而将无穷维序列有限维截断，近似表示为4个有穷序列。这样参数化后，一个学习方法便可被描述为4个有限参数序列。

学习方法论

有了以上准备，我们将学习方法论定义为：从任务空间到学习空间的一个映照($LM$)。更具体地，给定一个任务$T$,$LM(T)$是在学习空间的一个取值，它由4元组描述，对应数据产生方法、假设空间/机器架构、损失度量和优化算法的参数化表示。这就是学习方法论。学习方法论本质上是函数空间上的一个映射，是参数的一个赋值规则。显然，SLeM是函数空间上的函数逼近问题。

融合SLeM的问题求解过程如图7所示。

LeM(Simulate Learning Methodology)是一种机器学习方法，旨在让机器模拟人类的学习方法论。SLeM框架与其他框架的不同之处在于，它从任务出发，根据任务产生方法，然后再去完成任务。整个求解过程可以分为“方法学习”和“任务学习”两个阶段。显然，这和现在的机器学习不同，这两者泛化的目标不一样，输入、结构、模型也都不一样。

SLeM框架与元学习也非常不一样，元学习包括很多演化过程，但总体上都是启发式的，还没有明确的数学模型。

SLeM应用举例：

- 迁移学习理论：利用SLeM理论，我们可以证明：从完成一些任务中学到的知识能不能迁移，取决于三个基本要素。一是我们过去是否见过这个任务，即任务的相关性。二是任务机和学习机的空间复杂性。三是我们用于度量方法论的元数据和训练数据的一致性。这三条要素的发现说明了迁移学习理论构建的可能性。

- 机器学习自动化：笔者团队提出了 SLeM 的数学框架、严格定义、数学模型、一般算法，展示了如何用 SLeM 方法解决机器学习自动化问题。SLeM 为机器学习自动化研究提供了一个形式化/模型化/科学化的研究框架和

我们将通过以下四个方面来介绍如何利用SLeM理论解决机器学习自动化的问题。

首先，我们将讨论数据自动化。为了参数化每一个数据并运用SLeM模型自动地从大量数据中选择适用于网络训练的数据(即数据自选择),我们提出了一个名为Class-aware Meta-Weight-Net的方法论学习机。通过应用展示，我们发现基于SLeM选择后的数据学习效果远远优于不选择、人工选择或随机选择数据集的学习效果，并且基于SLeM的方法对非均衡、高噪音数据集可用。最终，该方法在粤港澳大湾区算法大赛(2022)中获得冠军。

其次，我们将探讨标签的自矫正问题。SLeM也被用来做标签的自矫正，即对标记错误的数据进行自动校正，从而解决半监督学习所得的标签的校正问题。

接下来，我们将讨论网络自动化方面的内容。我们尝试了在深度学习中自动嵌入变换问题，并取得了非常好的效果。此外，利用SLeM理论也可以进行度量自动化学习，换句话说，就是自适应设定与任务相关的损失度量。我们提出了一个Meta Loss Adjuster方法论学习网络，取得了不错的学习效果。

最后，我们将介绍如何将SLeM应用于算法自动化。特别是，我们研究了如何使用SLeM学习如何自动设置BP算法的学习率。为此，我们设计了一个称作Meta-LR-Schedule-Net的方法论网络。测试表明，耦合Meta-LR-Schedule-Net的深度学习平均提高深度学习泛化性能4%左右。

总的来说，通过构建SLeM方法机，可以学习具有明确物理意义的超参赋值学习方法，实现面向不同任务的机器学习自动化任务。我们的团队已经将所有研究成果公开在开源平台上，参见https://github.com/xjtushujun/Auto-6ML。

展望未来，我们将继续深入研究SLeM理论在机器学习自动化中的应用，为解决实际问题提供更有效的方法和工具。

您好，人工智能的当前应用仍以“带先验假设的机器学习”和人工化为特征，下一步发展必然会以“实现机器学习自动化”为追求，这是机器学习发展的根本问题。实现机器学习自动化要求对数据、网络、损失、算法、任务等要素进行设计和调控。实现这一目标要求“任务到方法的映射”，即学习方法论的学习(SLeM),现有研究/方法尚不能支持这一目标的实现。

笔者团队提出了SLeM的数学框架、严格定义、数学模型、一般算法，展示了如何用SLeM方法解决机器学习自动化问题。SLeM为机器学习自动化研究提供了一个形式化/模型化/科学化的研究框架和途径。

已有应用表明SLeM是一个强大而有效的工具。应用SLeM的关键在学习空间的超参数化方案和方法学习机的设计上。另外，元数据集的选择是决定SLeM效果的关键要素。