《视觉机器学习20讲》是由谢剑斌、兴军亮、张立宁、方宇强、李沛秦、刘通、闫玮、王勇、沈杰、张政、谭筠、胡俊等编著的一本计算机、自动化、信息、电子与通信学科方向的专著。该书由清华大学出版社于2015年6月1日出版,主要内容包括视觉机器学习算法的理论和实践,涵盖了多种基础问题及其应用领域。
本书特别重视将视觉机器学习算法的理论和实践有机地结合,解决视觉机器学习领域中的诸多基础问题,可应用于医学图像分析、工业自动化、机器人、无人车、人脸检测与识别、车辆信息识别、行为检测与识别、智能视频监控等多个领域。这本书不仅适合高年级本科生与研究生作为教材,也是从事视觉机器学习领域研发的有用参考资料
第1讲:什么是视觉机器学习?
视觉机器学习是研究如何让计算机通过图像和视频数据学习到视觉感知能力的一门学科。它结合了计算机视觉和机器学习技术,旨在让计算机能够像人类一样理解和解释视觉信息。
第2讲:视觉机器学习的基本任务
视觉机器学习的主要任务包括图像分类、目标检测、图像分割、姿态估计、行为识别等。这些任务旨在让计算机能够理解和处理视觉信息,从而实现各种应用。
第3讲:卷积神经网络(CNN)
卷积神经网络是视觉机器学习中最常用的模型之一,它通过学习图像的局部特征来实现图像识别和分类。CNN在图像识别、目标检测等领域取得了显著的成果。
第4讲:深度学习与视觉机器学习
深度学习是视觉机器学习的基础,它通过多层神经网络学习数据的复杂特征。深度学习在视觉机器学习中的应用使得计算机在图像识别、目标检测等任务上取得了突破性的进展。
第5讲:数据增强
数据增强是提高视觉机器学习模型性能的重要手段,它通过在训练数据上应用一系列变换来增加数据的多样性。常见的数据增强方法包括旋转、缩放、裁剪等。
第6讲:迁移学习
迁移学习是一种利用已有模型的知识来提高新任务性能的方法。在视觉机器学习中,迁移学习可以显著提高模型的泛化能力,尤其是在数据量有限的情况下。
第7讲:目标检测算法
目标检测是视觉机器学习中的一个重要任务,它旨在识别图像中的物体并定位其位置。常见的目标检测算法包括R-CNN、Fast R-CNN、Faster R-CNN等。
第8讲:图像分割算法
图像分割是将图像中的像素划分为不同的区域,以便于后续处理。常见的图像分割算法包括基于阈值的方法、基于区域的方法、基于边缘的方法等。
第9讲:姿态估计
姿态估计是识别图像中人物的动作和姿态。通过姿态估计,计算机可以更好地理解图像内容,为动作识别、视频分析等任务提供支持。
第10讲:行为识别
行为识别是识别和分析视频中人物的行为模式。通过行为识别,计算机可以实现对特定行为的监测和预警,为安全监控、智能家居等领域提供技术支持。
第11讲:多模态学习
多模态学习是结合不同类型的数据(如图像、文本、音频等)进行学习的方法。在视觉机器学习中,多模态学习可以提升模型的性能,使其更好地理解复杂场景。
第12讲:强化学习在视觉机器学习中的应用
强化学习是一种通过与环境交互来学习最优策略的方法。在视觉机器学习中,强化学习可以用于训练智能体在复杂环境中进行决策,如自动驾驶、机器人控制等。
第13讲:视觉问答系统
视觉问答系统是一种能够理解图像内容并回答相关问题的系统。通过视觉问答系统,用户可以与计算机