(田英杰,唐静静著. 北京: 科学出版社,2024. 5)作者一直从事机器学习与最优化方面的研究,本书是作者近年来一些研究工作的系统梳理与总结。
《机器学习与最优化》从经典的支持向量机出发,以分类问题为基础,以最优化为工具,阐述机器学习中的基本概念和经典学习问题。本书旨在介绍有关问题的最新研究成果,其中作者自己最近几年的工作占了相当大的比重。在讲述这些工作时,着重阐明其研究背景和逻辑思路,并由此扩展到国内外最新研究成果。
具体的内容设置如下:首先介绍分类任务中的经典模型——支持向量机,其次介绍优化算法、损失函数和正则技术,最后介绍机器学习的各种学习问题,最重要的包含:多视角学习、多标签学习、多示例学习、多任务学习和度量学习。围绕这些学习问题,介绍我们的研究成果。在每章最后一节,给出拓展阅读,介绍相关研究工作的最新进展,并列出相应参考文献,旨在满足读者进一步学习的需求。
支持向量机(support vector machine,SVM)是由Vapnik 等学者于20 世纪90 年代提出来的一类模型,已大范围的应用于诸多领域。它的成功得益于最大间隔原则、对偶理论和核函数这三个核心技术的应用。本章介绍经典的超平面平行与非平行的支持向量机,并在拓展阅读部分对二分类与多分类支持向量机的代表性工作以及研究进展进行总结。
许多机器学习问题都会转化成优化问题求解。因此优化算法成为机器学习最重要的组成部分之一。优化算法的研究由来已久,特别是由于近年来机器学习的迅猛发展,优化算法取得了长足的进步。本章重点介绍在机器学习领域行之有效的优化算法,包括确定型优化算法和随机型优化算法;在拓展阅读部分,对若干应用领域和随机型优化算法中的代表性工作及研究进展进行总结。
损失函数,又称代价函数,常用于表示或度量决策函数产生的误差。损失函数是影响模型性能的重要的条件之一。对各种已有损失函数的深入理解是选择和构造损失函数的前提和基础。本章针对机器学习中的分类问题、回归问题和无监督问题,分别介绍它们常用的损失函数,并进行总结与分析。最后介绍损失函数在深度学习中的一些研究进展。
正则技术的任务是把向量或矩阵近似地转化为更简单的形式,它有助于在机器学习的建模过程中避免过拟合问题,提高模型的泛化性。本章把常用的正则技术分为三类,即向量稀疏正则、矩阵稀疏正则以及矩阵低秩正则,从每个正则技术的应用场景入手,依次介绍各种正则技术及其性质,并予以总结与分析。然后介绍了正则技术在深度学习中的一些研究进展。
如何综合利用多视角数据有效地学习,已成为机器学习领域的一个研究热点。本章首先介绍多视角学习问题的一种提法及处理多视角学习问题应该遵循的原则。然后在经典模型SVM-2K 的基础上,构建基于特权信息学习理论的两视角支持向量机,并给出其相关的理论分析。最后从传统机器学习和深度学习的角度介绍近年来的一些研究进展。
在机器学习领域,如何对多标签的数据来进行有效学习,已成为一个热点问题。本章将介绍多标签分类问题概念及利用二元关联与排序支持向量机的解决办法。为更好地探索标签之间的相关性,本章还介绍了一种新的代价敏感的多标签分类模型,并给出了相关算法与理论分析。最后从传统机器学习和深度学习的角度介绍了近年来的一些研究进展。
多示例学习属于弱监督学习,已成功应用到了多种学习场景,本章首先介绍多示例学习问题,然后介绍求解多示例分类问题的支持向量机,并针对对称多示例学习问题构建稀疏多示例支持向量机,最后从传统机器学习和深度学习的角度介绍近年来的一些研究进展。
多任务学习的特点是在训练过程中借助多个任务之间的内在关联来优化每个子任务的学习方法。本章首先介绍多任务学习的基本概念和经典算法,同时给出一个多任务特征选择模型和相应的理论分析,然后从传统多任务学习、深度多任务学习以及多任务与其他学习范式结合这三个方面对多任务学习算法进行较为系统的介绍。
距离度量是构建损失函数的关键,度量学习(metric learning)就是学习一个适合当前机器学习问题的距离度量。本章首先给出度量学习的定义,再介绍全局度量学习和局部度量学习,然后介绍基于特征分解的度量学习,最后从传统机器学习和深度学习的角度总结近年来的研究进展。
本书不仅可作为机器学习领域研究生的扩充阅读资料,也可作为有关专业教师和科研人员的参考书,还可供对本领域知识有兴趣的读者自学之用。我们关切有关领域正在进行理论研究和应用研究的读者。希望能借助本书帮他们理解问题本质和最新进展,从而取得快速的进步。
本书的出版,得到中国科学院虚拟经济与数据科学研究中心、中国科学院大学经济与管理学院、中国科学院大数据挖掘与知识管理重点实验室、西南财经大学工商管理学院大数据研究院等单位的支持;得到国家自然科学基金(项目编号:12071458,71901179,71731009,71991472)及西南财经大学“光华英才工程”的资助。
本文摘编自《机器学习与最优化》(田英杰,唐静静著. 北京:科学出版社,2024. 5)一书。
本书以机器学习中的分类问题为基础,以最优化为工具,阐述机器学习中的基本概念和经典学习问题,并围绕这些学习问题,介绍相关研究成果,重点阐明其研究背景和逻辑思路,并由此扩展到国内外最新研究进展。主要内容有:支持向量机、优化算法、损失函数、正则技术,以及多视角学习、多标签学习、多示例学习、多任务学习和度量学习等。
本书可作为机器学习领域研究生的扩充阅读资料,也可作为有关专业教师和科研人员的参考书。