9 – 训练策略优化

与传统神经网络模型的训练类似,大语言模型的通常也会使用批次梯度下降进行模型参数的训练,同时为保证训练的稳定性和效果,还会针对学习率、优化器参数等超参数进行调整。本文就针对这些策略做一篇小结。   …

8 – 数据集加载

在第6部分,模型训练章节,代码段6-1展示了数据集(Dataset)和数据加载器(DataLoader)的配合示例,本文详细拆解一下二者的工作机制,下面是代码段6-1,这里再贴出来,代码段8-1。 import…

7 – 数据集预处理

当大语言模型的基础架构搭建后,如何高效释放其理论潜能成为新的攻坚方向。前几章我们系统剖析了从零构建大语言模型的核心技术路径——这类以Transformer为骨架的深度神经网络,最初专攻自然语言理解与生成,如今已加速向多模态形态演进。然而,当模型规模突破百亿参数量级时,工程层面的挑战已跃升为制约模型效能释放的关键瓶颈。从本章开始,我们将深入大模型工业化落地的工程实践,工程能力是将学术论文中的SOTA指标转化为产业生产力的关键密钥, 这些内容涉及数据收集与处理、并行策略、计算优化、内存管理、稳定训练技术、容错机制等内容。…

6 – 模型训练

基于上文构建的模型,本篇使用开放数据进行预训练。 我们曾在“初识神经网络”篇章给出深度神经网络的训练框架,回顾一下:…

5 – 模型骨架组合

经过前面几节的介绍,我们已经梳理了大语言模型的嵌入层和Transformer块。回忆一下LLMs架构图,transformer 的输出将作为下一个归一化层的输入。…

4 – Transformer块

前文提到,原始数据经过嵌入层处理后下一步会作为输入给到transformer 块。本篇就详细讲解一下transformer…

3 – LLM-嵌入层

由前文我们知道GPT2使用自回归的方式来进行预训练,在预训练阶段,模型使用了大量的互联网语料。这些语料会先经过一些预处理,具体的,见下图蓝色框内,语料文本(input)会被分割成单独的单词或子词标记(tokenized text),单词或者子词标记转换为标记嵌入(token…

1 – 初识神经网络,从人类直觉到机器智慧

引言 在人类瞳孔的方寸之间,上演着自然界最精妙的模式识别奇迹:婴儿能在六个月辨认人脸,艺术家瞬间捕捉光影变化,这种与生俱来的视觉智慧,却让计算机科学家困扰了半个世纪——如何让冰冷硅晶理解纸墨间的温度?…