机器心脏报道 机器心脏编辑部 随着大规模模型达到万亿参数,GPT-4o、Llama4等模型不断突破性能极限,人工智能行业也面临着前所未有的瓶颈。 Transformer 的架构效率低下、计算功耗惊人、与物理世界脱节等问题变得越来越明显,需要在通用人工智能 (AGI) 的道路上取得进步。中兴通讯近期发表的文章《下一代人工智能大规模模型计算范式洞察》深入剖析了当前人工智能发展的核心困境,为进一步探索潜在前沿指明了方向,为行业发展提供重要参考。 LLM现状和瓶颈:指数级扩展背后的担忧2020年,OpenAI揭示了大型模型扩展的法则:大型局域网的终极性能计量模型 (LLM) 取决于计算量、参数和训练数据的累积量的缩放。具有 175B 个参数的 GPT-3 模型在许多任务上显着优于同行,例如自然语言理解和回答知识问题。近年来,DeepSeek-V3、GPT-4o、Llama4、Qwen3、Grok4等大型模型已经证明了这一规律。构建先进的大规模基础模型需要积累数十万计算能力,收集数百TB的庞大语料库。基于Transformer Autoregressive(AR)架构,利用预训练和后训练完成近万亿参数的内部训练。整个培训过程的沉没成本非常高。例如,X.AI的Grok4模型花了六个月的时间在两个150兆瓦数据中心构建的20万卡分布式集群上完成预训练。因此,LLM预培养的探索和实践主要在行业内完成,而学术界可能只关注小规模的研究和实践(参数量7B)。然而,当前架构仍存在算法、硬件、工程和成本等诸多瓶颈,但随着实现通用人工智能(AGI)的愿景和缩放法则的有效性,业界不断加大投入,模型规模持续增大的趋势短期内难以改变。 LLM 架构中的架构瓶颈越来越明显。 Transformer架构计算效率低,内存访问要求高。特别是,仅基于解码的自回归结构的算力仅为2。这意味着读取的每个字节的数据只能完成两次计算。卷积神经网络(CNN)的计算强度在数百级,其高数据复用率可以完美满足矩阵乘法的需求n 和 GPU/特定领域架构 (DSA) 上的累积单元。另一方面,Transformer架构的数据移动成本较高,导致模型的计算能力利用率(MFU)较低。同时,在当前的硬件上很难并行化Transforms。 er 架构中的特殊非线性算子,如 Softmax、Layer-norm 和 Swish。这意味着LLM架构严重依赖先进工艺和高带宽内存(HBM),导致工程成本高昂。这是一个重要的瓶颈,阻碍了大规模应用和进一步的性能改进。未来,随着基础模型参数数量的不断增加,随着推理模型中长思维链的输出上下文长度的激增,以及以生物制药为代表的科学人工智能等新型高性能计算应用的普及,Transformer架构的瓶颈将日益凸显。随着摩尔定律的放缓,这种趋势变得更加明显且越来越不一致。依靠先进工艺提升算力和能源效率的技术路径,面临着“能耗墙”、“内存墙”等问题。随着对高t模型需求的增加,计算和存储分离的诺依曼架构将面临严峻的挑战。通向 AGI 的道路仍然存在争议。现在的LLM其实或多或少都存在一些问题,比如视错觉、可解释性低等。这些问题都隐藏在Scaling Law模型能力不断提升的过程中。然而,Transformer 自回归架构的核心是“下一个 token 预测”,Yann Lecun 等一些 AI 科学家认为,现有的 LLM 很难在稀疏编码和等价映射原理方面真正理解物理世界。当前神经网络的基本缺陷(如LLM)是:1)神经元没有固有的学习、记忆或决策能力,智能仅在网络的宏观层面上出现。 2)当前人工智能的进步很大程度上依赖于“暴力升级”。 3)缺乏具体化和等级制度。因此,关于绘制物理世界和构建世界模型的路线,学术界和学术界仍然存在很多争论。从产业角度来看,规模化规律的根源还需要进一步探索,因为平台期之后可能不会出现指数增长的临界点。这条路径的核心是商业闭环工程优化能力。同时,需要在非AR甚至非Transformer模式下探索新的计算范式和算法。 AGI未来的发展路径很可能是发展能够“感知”、“物理思考”、“实践”的大规模认知模型和大规模身体模型。这些模型需要直接与可解释组件的协调,并可以通过实际的反馈机制形成所谓的自主意识。因此,最终的节能硬件和高效算法是大规模具体化模型工程化探索的关键。 LLM自回归模式工程改进和优化 针对上述问题,学术界和工业界开发了基于LLM自回归模式的算法和系统。我们实施了一系列系统和硬件改进和优化。算法层面:精准克服效率障碍。优化注意力机制是起点。文档理解、代码分析、搜索增强生成(RAG)等应用场景需要支持长上下文输入的模型,而以DeepSeek-R1为代表的推理模型则需要支持长思维链输出的模型。 。随着序列长度的增加,计算复杂度self-attention机制的exity增加了O(N2)。因此,集群查询辅助(GQA)、多头潜在助手(MLA)等改进的注意力机制以及Flash-Attendant等算子优化得到了广泛采用,线性注意力、RWKV、Mamba等线性注意力机制也应运而生。此外,旋转位置编码插值(RoPE)方案得到了进一步优化,还使用了原生稀疏注意力(NSA)、混合块注意力(MoBA)、多卡场景的长上下文推理框架(环注意力、树注意力等)等各种注意力机制来降低计算复杂度。低精度量化应用的仅解码架构中的常见计算过程是矩阵向量乘法(GEMV)。此操作频繁移动数据并且计算效率低。消耗计算能力和带宽nda。使用硬件本机低精度数据类型采用FP8、FP4、MXFP等进行模型量化不仅可以有效降低内存带宽需求,还可以有效提高芯片算力的利用率。现有研究表明,4位量化具有相对最优的扩展率,在推理场景中具有实用性。然而,量化引入的误差不可避免地导致模型功能减少,并且非线性层中的量化/反量化操作也会产生额外的开销。因此,量化技术减少了计算带宽,只能减轻不适感。对于递归参数的周期性重用,我们考虑创新的周期性 Transformer 架构,例如 Universal Transformer、混合专家 (MoE) Universal Transformer (MoEUT),通过在层之间共享参数来实现深度递归。一旦将递归神经网络的递归表示能力引入这种类型的架构中,权重就可以支持通过交换参数进行多次计算,即使在内存带宽有限的情况下,也能有效增加计算强度,提高系统性能。但目前该架构的实验规模较小,其表达能力和扩展后的稳定性仍不清楚。集群系统完善:协同提升业务效率。传统CNN(ResNet、Yolo等)的网络参数和计算量仅为MB或GOPS((每秒十亿次))左右。当前的 100 TOPS (2TOPS/W) 级计算单元通常在使用卡/独立机器上运行。由于参数和计算量较大,现代法学硕士必然引入多卡、多机集群系统,通过张量并行(TP)、数据并行(DP)、管道并行(PP)、专家并行(EP)等并行计算范式来加速训练和推理过程。基于 MoE 的发行版ed 计算范式可以降低非常大的参数尺度下训练模型的强度。通过在每次直接计算中仅激活最好的 K 个专家,与密集模型相比,计算量减少了数倍。 = top-K / 专家总数。这减少了所需的计算能力。例如,Deepseek V3 将前馈神经网络(FFN)的计算复杂度降低到原来的 1/32。实现P/D分离可以利用带宽和预填充/解码处理要求的差异。预加载阶段由于计算量较大,我们选择TTFT。解码阶段需要密集的内存访问并追求TPOT。两者是分开实现的,因此不仅不会互相影响,而且还能最大限度地提高硬件利用率。即使端点计算资源有限,云人工智能系统也可以协作解决大规模模型部署问题。端点测试部署模型h 少量参数实现实时本地推理。通过在云端部署大量参数的模型,可以完成复杂的分解和深度思考任务。分析结果发送给最终评估者,并构建链接最终云AI的“快思考和慢思考”系统。硬件工程:以创新打破界限 LLM集群利用传统高性能计算(HPC)集群工程专业知识,通过以下工程创新来优化当前的计算范式:1)基于DSA的微架构:通用图形处理器(GPGPU)引入了DSA领域采用的更专业的架构设计。例如,Nvidia GPU Tensor Core利用数据流计算范式的相关经验,引入异步数据移动模式和混合精度训练。 2)互联优化:将集群划分为扩展域和扩展域介绍产生适应计算范式的互连技术。作为高带宽领域,Scale Up采用总线型技术(如Nvlink)提供200 ns的超低功耗、数千个节点的高并行度以及具有原生内存语义的超级节点连接,消除了阿姆达尔定律缩放速度限制。横向扩展借用远程直接内存访问(RDMA)技术来支持通用扩展,重用HPC集体通信原语(例如NCCL),并支持并行代码。构建计算机软件模型。 3)混合光电集群:鉴于目前国内计算能力有限,基于硅光子技术和晶圆级扩展的“小计算、大光连接”软硬件架构有望成为构建万卡、十万+卡集群的关键技术。 4)新的计算范式:在解决带宽问题的过程中,出现了一些新的计算范式还引起了极大关注,比如“集成与计算”,打破了Feng架构“内存墙”和“功耗墙”的限制。 5)计算、网络和存储仿真平台:万卡以上超大规模集群部署的优化问题,需要通过仿真平台部署算力,并对计算、网络和存储系统的工作流程进行优化。构建高精度、及时的仿真架构是当前重要的两项先进硬件工程技术:1)基于光I/O技术重建先进计算架构是优化LLM计算范式的关键技术。它推动了架构级创新,例如超级节点连接、内存池和超低延迟远程连接。e 100 纳秒可以帮助 Sc. 2)提供基于3D动态运行的大容量、高带宽内存DRAM和电容式DRAM,结合LLM计算范式“多读少写”、“顺序优于随机”等内存访问特性,并采用异构介质(如高带宽闪存)、分层缓存、压缩计算、存储计算统一等架构设计,相比传统内存提升性能。构建超越记忆的新记忆系统。高带宽内存 (HBM)。具有伸缩规律的下一代人工智能大模型计算范式的演进与展望 不断扩展超大型参数模型以实现AGI的路径受到计算能力、带宽、功耗和语料库的限制。实现 AGI 可能需要引入根本性的改变,例如将基于物理学第一原理的算法模型与计算板硬件工程相结合。发展趋势:走向物理原理的共同进化设备和硬件。业界正在探索不专注于 NextToken 预测的下一代大规模 AI 模型范式。基于能量和动力学等第一原理的模型有望成为下一代大规模人工智能模型的核心架构,因为它们有效地代表了不同的分布,并且可以在物理系统内自然演化。例如,Hinton提出的玻尔兹曼机受到统计物理学中伊辛模型和玻尔兹曼分布的启发,引入了递归和随机神经网络,可以学习数据的幂分布并解决复杂的组合优化问题。随后的受限玻尔兹曼机和深度信念网络促进了人工智能技术的快速发展,促进了生成模型在图像生成、自然语言处理、强化学习等领域的广泛应用。何然而,在现有诺依曼计算机上运行这些基于能量和动力学原理的模型时,功耗和计算效率仍然面临重大挑战。这是因为基于布尔逻辑的确定性计算架构在基于统计和概率的生成模型时面临两个主要问题:首先,互补金属氧化物半导体(CMOS)器件的物理特性限制了其模拟随机过程的硬件实现能力。其次,当面对非确定性需求时,例如自然语言处理中的语义模糊性和动态环境中的实时决策,现有计算范式的效率会显着下降。这一瓶颈阻碍了统计和概率等新计算技术的发展。对范式的需求已经出现。通过算法和硬件的协同设计,传统流程内存和计算单元的分离已经被打破。这有望显着提升能源效率和计算性能,为克服当前AI算力瓶颈提供新思路。该模型的两个主要发展方向之一可能仍然是 Transformer,但它对于下一个 token 预测不再是自回归的。基于更大的抽象空间、更强的表达能力和长期学习能力的目标,设计了新一代的模型结构。代表作品包括Diffusion LLM架构。代表模型包括LLaDA和Mercury。过度扩散方法将自回归模型的串行化生成过程从粗粒度改进为细粒度并行生成过程。在相同计算资源和模型规模下,该架构较原架构可提升10倍以上推理性能,并降低算力消耗。1/10,提升模型逆向推理能力、上下文注意力持续时间等指标的表现。典型的联合嵌入预测架构模型包括联合嵌入预测模型(JEPA)、C模型大规模概念(LCM)等,它们通过在高级潜在空间中编码语言、图像、视频等数据来学习世界模型级别的抽象表示,并通过在预测表示空间中用基于能量的模型替换基于概率的模型来有效提高模型的表示有效性和规划能力。其次,基于物理学第一原理,从基底性质的计算出发,根据物理过程的动态特征和能量变化趋势,设计模型架构和数据流。代表性研究包括:液体神经模型(LFM),代表性模型包括液体时间和液体结构状态空间模型(LSSM)。蒂姆连续递归神经网络(LTCN)模型是一种新颖的网络。连续时间递归神经网络(RNN)受到物理神经动力学模型的启发,可以通过反向传播进行训练,在时间序列预测中表现出良好的界限和稳定的动态性、良好的表达能力和高记忆效率。任务。 (2)以Hopfield网络、受限玻尔兹曼机(RBM)、深度置信网络(DBN)等为代表的基于能量的模型(EBM),它们为概率密度估计和表示学习提供了统一的框架。此类模型的理论基础可以追溯到统计物理学的旋转玻璃模型。您还可以使用 EBM 作为生成模型来学习数据分布,并通过定义表示您想要学习的概率分布的能量函数来生成与训练数据类似的新样本。与显式定义 pr 分布概率的模型相比,EBM 更加灵活,可以对更多的模型进行建模。复杂的依赖关系。近年来,基于能量的模型理论仍在发展中,面临着许多挑战。其中,配分函数的计算和采样效率仍然是限制模型应用的主要瓶颈。此外,能量函数的设计缺乏系统的指导,往往不得不依赖经验和启发式技术。同时,缺乏对模型的理论特性(例如表示能力和泛化性能)更详细的研究。三种新的计算范式 在未来的人工智能计算中,能源消耗将是比计算能力更根本的限制。现有AI计算效率低下的根本原因在于神经网络的实现是基于计算机架构的,传统的冯诺依曼模型通过二元运算“模拟”神经网络的计算。基本上,这种方法使用高精度n 逻辑计算来处理仅需要低精度的AI任务。大量能源用于数据移动和纠错,导致资源利用效率低下。研究进一步提高计算性能同时降低计算功耗。研究人员探索了各种新的计算范式。主要思想是使用非Von No. Yiman计算、存储和计算框架。目前,最重要、最引人注目的研究包括以下路线: 物理神经网络(PNN)是一种受物理原理启发的计算机架构,也是最初利用物理学第一原理构建人工智能的技术路径。现有的技术路线包括光计算、量子计算、电磁计算等。光计算是一种利用光子作为信息载体进行计算和传输的计算模型。具有超高速、超高频段等优点宽度、低延迟和高并行性。光学计算利用光学干涉、衍射和强度/相位调制等物理特性直接在模拟域中执行某些计算任务,并已展现出颠覆性的潜力,尤其是在人工智能计算领域。例如,清华大学的研究团队推出了一系列太极光学计算系统,利用空间对称性和互易性特性,实现集训练和助推于一体的光学神经网络(ONN)。但光计算仍面临集成度、器件性能、系统复杂度、精度、软件生态等多重艰巨挑战,成熟度仍较低。量子计算是一种控制量子信息单元按照量子力学定律进行计算的新型计算模型。现有的量子算法和量子神经网络框架必须在c下运行有限量子位和大计算错误率的约束。例子包括使用量子加权张量混合网络(QWTHN)来拟合大型模型,将FFN训练转换为由量子伊辛机解决的二阶二次无约束规划(QUBO)问题,以及使用量子位来构建储层并实现储量计算。但目前量子计算由于技术路径不收敛、数量有限等问题,难以广泛普及。大量的量子比特和恶劣的工作环境。电磁计算直接利用电磁波(微波、毫米波和太赫兹波)的特性进行信息处理,而不是依赖于传统的电子开关状态。其主要优点包括超高速运行、高并行性和低传输损耗。计算实现主要分为微波/毫米波模拟计算uting、可编程电磁处理和电磁存储计算。电磁计算通过物理定律直接映射数学运算,并在某些领域(线性变换、实时处理)显示出潜在的应用,但仍处于实验阶段。基于材料属性的模拟计算机架构研究人员正在研究各种神经形态设备。这些设备利用材料固有的物理现象来模拟生物系统的复杂行为。通过特定的连接方法,可以构建单元之间的互连系统,并利用系统独特的进化特性来替代传统的计算过程。因此,利用材料的固有特性,方便算法、软件和硬件的协同设计,有望从根本上改变传统人工智能算法和人工智能技术的软硬件分离。软硬件协同优化。现有的技术路线包括随机计算、吸引子网络、热力学计算等。计算机系统的随机计算基于具有真正随机特性的概率比特(p比特)单位。这些是量子计算和数字逻辑之间的中间计算范例。与传统计算机相比,它们在组合优化、因式分解、密钥生成和马尔可夫链蒙特卡罗 (MCMC) 方面可以更好地利用自然和概率的潜在属性。在采样等应用场景中具有很大的优势。此外,概率计算系统可以训练深度生成模型,例如随机神经网络和深度玻尔兹曼机。在动力系统中,吸引子倾向于处于不同的初始条件下。代表动态系统中记忆功能的一组值。 2024 年,SUN 等人。利用双向电阻他们利用可变电阻存储器(RRAM)器件的开关特性来制造磁滞神经元,并由此构建了由双极忆阻器电路产生的循环神经网络。与传统的Hopfield网络相比,它具有硬件高效、内存容量大的优点。热力学计算以热力学原理为基础,利用自然界固有的计算能力,为信息处理网络开发新的设计原理,并将其应用于未来的计算系统。普通计算通过构建具有精确表示的状态空间、表达非线性函数和可扩展功能的硬件单元来解决物理模拟和机器学习任务中的计算瓶颈,以从复杂分布中高效采样。仿生计算架构仿生计算重构模拟自然系统信息处理机制的计算机架构,打破传统冯诺依曼瓶颈。目前主要研究方向包括类脑计算和DNA计算。类脑计算一般是指受大脑启发而产生的一种新型信息处理架构。此类架构基于大规模并行计算平台,有望突破存储与计算分离的冯诺依曼架构瓶颈,为常见的智能问题提供节能的解决方案。 DNA计算是一种新的计算范式,它利用分子的生化特性来存储和处理信息。具有存储密度高、功耗低等优点。未来,DNA计算将通过混合生物和硅计算来促进人工智能时代的数据处理。受生物学启发的计算架构正在从专用加速器跨越到通用计算范例。在短期内,类脑计算将成为可能臀部将引领尖端智能。中长期将形成一体化的“硅基+生物群体合作”架构,最终打造生物层面的节能智能计算系统。探索与实践中兴通讯下一代AI大模型计算范式中兴通讯正在微架构层面进行创新,包括利用8T SRAM内存数字计算技术打造节能的AI加速器。与此同时,我们正在研究一种异构架构基于压缩和量化的XPU-PIM来加速大型最终模型,与传统GPU相比,能效和性能得到数量级的提高。在新的AI算法和硬件实现方面,中兴通讯一直在探索基于物理第一原理的新技术路线。例如,中兴通讯探索了替代多层Transformer弧线的能力基于循环 Transformer 架构的高效参数交换特性的架构。通过使用单个小型 GPT-2 Transformer 层作为模型的“构建块”,您可以将参数数量减少 50% 以上,同时保持模型的表达能力。基块结构的改进可以进一步减少基块层数和周期数。同时,稀疏玻尔兹曼机(DBM)架构由于其稀疏性质和基于能量最小化的推理目标,特别适合利用非易失性存储器来执行低功耗最终任务。在数千个神经元的规模下,在 GPU 上完成一次批量训练需要 10 多个小时。基于FPGA的DBM的高速计算单元采用概率计算范式来处理数千个神经元与神经元之间的稀疏连接,我们将单个批次的训练时间减少到5分钟,达到两个数量级以上的加速效果。未来,RRAM、MRAM等非易失性存储设备的使用可以进一步降低计算开销,提高推理速度,满足DBM在边缘推理场景的广泛应用需求。此外,中兴通讯在支持光连接、新型存储器等工程技术的同时,还在计算与存储分离的数据池系统、存储器语义互连系统、大规模仿真平台等架构技术方面开展了一系列的前沿研究。例如,通过结合大型模型的内存访问功能,定制内存设计使高带宽Ucie内存能够提高大型模型的推理性能。结论从GPT-3到今天的万亿级模型,扩展大型模型使人工智能成为可能。快速的进步也暴露了架构效率、算力消耗、广告等深层次问题。对物质世界的适应。中兴通讯的这篇文章清楚地展示了行业的现状。与此同时,Transformer自回归架构通过算法优化、集群升级和硬件创新不断展现其潜力。与此同时,超越传统范式的探索已经认真开始,第一原理物理模型与新计算基底的集成正在成为 AGI 的重大进步。随着AI产业从“规模竞争”走向“效率革命”,软硬件协同设计、跨学科技术融合将成为竞争力核心。中兴通讯的探索和实践不仅自身达到了技术高度,也有助于行业探索更高效、可持续的发展方向。未来,随着这些前沿技术的不断成熟,我们希望AI能够真正摆脱对暴力规模的依赖,稳步迈向理解物理世界并具有自主意识的通用智能。
特别提示:以上分镜内容(包括图片、视频,如有)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号社交媒体平台用户上传发布,仅供参考。存储服务。