深度学习中卷积的综述:应用、挑战和未来趋势
在当今的数字时代,作为深度学习的子集(DL),卷积神经网络(CNN)被广泛用于各种计算机视觉任务,例如图像分类,对象检测和图像分段。有许多类型的CNN旨在满足特定需求和要求,包括一维(1D),二维(2D)和三维(3D)CNN,以及扩展卷积,分组卷积,注意卷积,深度,深度,深度卷积,NAS等。每种类型的CNN都有其自己独特的结构和特征,使其适合特定任务。理解和对这些不同CNN类型的比较分析,了解它们的优势和劣势至关重要。此外,研究每种CNN的性能开yun体育app入口登录,局限性和实际应用都可以帮助未来开发新的和改进的体系结构。我们还探索了研究人员从各个角度用于研究或开发的深入平台和框架。
此外,我们还探索了CNN的主要研究领域,例如6D视觉,生成模型和元学习。本综述论文提供了各种CNN架构的全面检查和比较,突出了它们的建筑差异,并突出了它们各自的优势,劣势,应用,挑战和未来趋势。
在当今世界,随着技术的持续发展,深度学习(DL)已成为我们生活中不可或缺的一部分[1]。从Siri和Alexa等语音助手到社交媒体平台上的个性化建议,DL算法一直在幕后工作,以了解我们的偏好并使我们的生活更加方便[2]。随着技术的发展,DL也已应用于许多领域,例如医疗保健,金融和运输,完全改变了我们与这些行业打交道的方式[3] - [5]。随着DL领域研发的持续发展,我们可以期望更多的创新应用出现,这将进一步增强我们的日常生活。 DL领导了人工智能变化的时代,使机器能够吸收大量数据集并做出明智的预测[6] [8]。在深度学习的主要进步中,卷积神经网络(CNN)的发展引起了人们的关注。它们的影响已在生成AI,医学图像检查,对象识别[9]和异常发现[10]的领域中显示出来。作为馈电神经网络,将卷积操作集成到其体系结构中[7] [11]。这些操作使CNN能够熟练捕获复杂的空间和分层模式,使其非常适合图像分析任务[12]。
但是,CNN通常会因其在培训和部署过程中的计算复杂性而负担,尤其是在资源受限的设备(例如手机和可穿戴设备)上[12] [13]。
为了提高CNN的能源效率,出现了两种主要方法:采用轻型CNN体系结构:这些体系结构经过精心设计,以实现计算效率而不损害准确性。例如,Mobilenet系列CNN是为移动设备设计的,并在各种图像分类应用程序中演示了最先进的精度[13]。采用压缩技术:这些方法有助于减少CNN模型的大小,从而减少设备之间的数据传输量。一个值得注意的例子是Tensorflow Lite框架,该框架提供了一组专门用于压缩移动设备上CNN模型的压缩技术[14]。
轻巧的CNN体系结构和压缩技术的结合可显着提高CNN的能源效率。这使CNN在资源受限的设备上培训和部署,为在医疗保健开元棋官方正版下载,农业和环境监测等各种应用中使用CNN提供了新的机会[12] [16]。
不同的卷积技术如何适应各种AI应用。卷积在现代DL架构中起着基本作用,尤其是在处理网格结构数据(例如图像,音频信号和序列数据)时[23]。卷积操作涉及在输入数据上移动一个小过滤器(也称为内核),执行元素级乘法和聚合。此过程从输入数据中提取关键特征[24]。卷积的主要意义是它们可以有效地捕获数据中的局部模式和空间关系。该局部性属性使卷积特别适合诸如图像识别之类的任务,因为可以根据其本地结构来识别对象。此外,卷积引入了参数共享开yun体育官网入口登录app,这会导致可训练参数的数量显着减少,从而导致更有效,更可扩展的模型[25]。现有评论:先前的评论论文,例如[118]和[120],概述了一定时期的流行架构。但是,他们缺乏有关挑战的明确研究问题和目标,评估和设计模式的讨论。他们主要按时间顺序讨论建筑。
先前的工作讨论了CNN在某些特定概念和应用中的挑战,但并不涵盖新CNN架构中存在的固有分类学。因此,我们通过提出了一种分类法,该分类法明确地根据其内在的设计模式而不是发行年来对CNN体系结构进行了清楚的分类,从而解决了先前工作中的差距。
我们专注于2012年以后的建筑创新,并讨论最近的发展比以前的评论更深入。讨论最新趋势和挑战为研究人员提供了更新的观点。
这份全面的审查论文需要加快该领域的研究进展,涵盖CNN的历史,分类法,应用和挑战。
在本文中,我们寻求解决的关键问题包括:
我们的评论对深度学习(DL)和计算机视觉(CV)社区做出了一些关键贡献:
我们的审查论文的其余部分如下(见图1):第2节将探讨深度卷积的基础,阐明其数学公式,操作机制及其在神经网络体系结构中的作用。第3节描述了CNN的基本部分。在第4节中,探索将涵盖2D卷积,序列数据的1D卷积和体积数据3D卷积的3D卷积。第5节将研究近年来出现的高级卷积技术。这将包括诸如上采样的转置卷积,效率的深度分割卷积,空间金字塔合并以及卷积中的注意机制等主题。第6节将重点介绍不同卷积类型的现实应用程序,以证明其在图像识别,对象检测,自然语言处理,音频处理和医学图像分析方面的实用性。在第7节中,我们将讨论未来的趋势和有关CNN的一些开放问题。第8节:CNN的性能考虑。在第9节中,我们将讨论研究人员和开发人员最常用的平台,讨论流行或趋势第10节中的研究领域,然后我们将在第11节中讨论。通过本研究的第8节,读者将拥有一个对DL中卷积的重要性的深刻理解,图2代表了可视化文本中信息流的读取器图。它显示了各个部分之间的联系,可帮助读者根据他们的需求了解其首选部分的整体结构。
方便,易于查看
方便下载,请遵循“谈话”的官方帐户(单击上面的蓝色“谈话”以遵循)
单击“读取原始文本”以了解有关使用知识,查看并获取100,000多个AI主题知识材料