AI大语言模型原理、演进及算力测算

机器学习是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科，广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。深度学习是机器学习的子集，主要由人工神经网络组成。与传统算法及中小型神经网络相比，大规模的神经网络及海量的数据支撑将有效提高深度神经网络的表现性能。

Transformer模型是一种非串行的神经网络架构，最初被用于执行基于上下文的机器翻译任务。Transformer模型以Encoder-Decoder架构为基础，能够并行处理整个文本序列，同时引入“注意机制”（Attention），使其能够在文本序列中正向和反向地跟踪单词之间的关系，适合在大规模分布式集群中进行训练，因此具有能够并行运算、关注上下文信息、表达能力强等优势。Transformer模型以词嵌入向量叠加位置编码作为输入，使得输入序列具有位置上的关联信息。

编码器（Encoder）由Self-Attention（自注意力层）和 Feed Forward Network（前馈网络）两个子层组成，Attention使得模型不仅关注当前位置的词语，同时能够关注上下文的词语。

解码器（Decoder）通过Encoder-DecoderAttention层，用于解码时对于输入端编码信息的关注；利用掩码（Mask）机制，对序列中每一位置根据之前位置的输出结果循环解码得到当前位置的输出结果。

以GPT-3为例，GPT-3参数量达1750亿个，训练样本token数达3000亿个。考虑采用精度为32位的单精度浮点数数据来训练模型及进行谷歌级访问量推理，假设GPT-3模型每次训练时间要求在30天完成，对应GPT-3所需运算次数为3.15*10^23FLOPs，所需算力为121.528PFLOPS，以A100PCle芯片为例，训练阶段需要新增A100 GPU芯片1558颗，对应DGX A100服务器195台。

假设推理阶段按谷歌每日搜索量35亿次进行估计，则每日GPT-3需推理token数达7.9万亿个，所需运算次数为4.76*10^24FLOPs，所需算力为55EFLOPs，则推理阶段需要新增A100 GPU芯片70.6万颗，对应DGX A100服务器8.8万台。

下载链接：

AI大语言模型的原理、演进及算力测算

AI算力行业深度：AI模型乘风起，GPU掌舵算力大时代

功率半导体：能源变革大时代，功率器件大市场

半导体专题研究：存储当前趋势分析，AI时代揭开新序章

人工智能之火点燃算力需求，AI服务器市场拆解

人工智能：史上最伟大的科技革命

AI大模型在自动驾驶中应用（2023）

GPT-5后NLP大模型逐步走向收敛，ASIC将大有可为

《70+篇半导体行业“研究框架”合集》

《42份智能网卡和DPU合集》