7 – 数据集预处理

当大语言模型的基础架构搭建后,如何高效释放其理论潜能成为新的攻坚方向。前几章我们系统剖析了从零构建大语言模型的核心技术路径——这类以Transformer为骨架的深度神经网络,最初专攻自然语言理解与生成,如今已加速向多模态形态演进。然而,当模型规模突破百亿参数量级时,工程层面的挑战已跃升为制约模型效能释放的关键瓶颈。从本章开始,我们将深入大模型工业化落地的工程实践,工程能力是将学术论文中的SOTA指标转化为产业生产力的关键密钥, 这些内容涉及数据收集与处理、并行策略、计算优化、内存管理、稳定训练技术、容错机制等内容。…

6 – 模型训练

基于上文构建的模型,本篇使用开放数据进行预训练。 我们曾在“初识神经网络”篇章给出深度神经网络的训练框架,回顾一下:…

5 – 模型骨架组合

经过前面几节的介绍,我们已经梳理了大语言模型的嵌入层和Transformer块。回忆一下LLMs架构图,transformer 的输出将作为下一个归一化层的输入。…

4 – Transformer块

前文提到,原始数据经过嵌入层处理后下一步会作为输入给到transformer 块。本篇就详细讲解一下transformer…

3 – LLM-嵌入层

由前文我们知道GPT2使用自回归的方式来进行预训练,在预训练阶段,模型使用了大量的互联网语料。这些语料会先经过一些预处理,具体的,见下图蓝色框内,语料文本(input)会被分割成单独的单词或子词标记(tokenized text),单词或者子词标记转换为标记嵌入(token…

1 – 初识神经网络,从人类直觉到机器智慧

引言 在人类瞳孔的方寸之间,上演着自然界最精妙的模式识别奇迹:婴儿能在六个月辨认人脸,艺术家瞬间捕捉光影变化,这种与生俱来的视觉智慧,却让计算机科学家困扰了半个世纪——如何让冰冷硅晶理解纸墨间的温度?…

0 – PyTorch快速入门

引言 得益于数据获取成本大幅降低和算力的提升,原本在学术界相对“沉寂”的多层感知机、卷积神经网络、长短期记忆网络等经典模型,在过去十余年间被重新挖掘并得到了广泛应用,尤其是在图像识别、自然语言处理等领域,这些模型取得了突破性的进展。与此同时,强化学习也因其在游戏、机器人控制等领域的出色表现而备受关注,成为了深度学习研究的热点之一。…