6 – 模型训练 Posted by By cyoubytes March 21, 2025Posted inLLM 基于上文构建的模型,本篇使用开放数据进行预训练。 我们曾在“初识神经网络”篇章给出深度神经网络的训练框架,回顾一下:…
5 – 模型骨架组合 Posted by By cyoubytes March 20, 2025Posted inLLM 经过前面几节的介绍,我们已经梳理了大语言模型的嵌入层和Transformer块。回忆一下LLMs架构图,transformer 的输出将作为下一个归一化层的输入。…
4 – Transformer块 Posted by By cyoubytes March 19, 2025Posted inLLM 前文提到,原始数据经过嵌入层处理后下一步会作为输入给到transformer 块。本篇就详细讲解一下transformer…
3 – LLM-嵌入层 Posted by By cyoubytes March 17, 2025Posted inLLM 由前文我们知道GPT2使用自回归的方式来进行预训练,在预训练阶段,模型使用了大量的互联网语料。这些语料会先经过一些预处理,具体的,见下图蓝色框内,语料文本(input)会被分割成单独的单词或子词标记(tokenized text),单词或者子词标记转换为标记嵌入(token…
1 – 初识神经网络,从人类直觉到机器智慧 Posted by By cyoubytes March 6, 2025Posted inLLM 引言 在人类瞳孔的方寸之间,上演着自然界最精妙的模式识别奇迹:婴儿能在六个月辨认人脸,艺术家瞬间捕捉光影变化,这种与生俱来的视觉智慧,却让计算机科学家困扰了半个世纪——如何让冰冷硅晶理解纸墨间的温度?…
0 – PyTorch快速入门 Posted by By cyoubytes February 28, 2025Posted inLLM 引言 得益于数据获取成本大幅降低和算力的提升,原本在学术界相对“沉寂”的多层感知机、卷积神经网络、长短期记忆网络等经典模型,在过去十余年间被重新挖掘并得到了广泛应用,尤其是在图像识别、自然语言处理等领域,这些模型取得了突破性的进展。与此同时,强化学习也因其在游戏、机器人控制等领域的出色表现而备受关注,成为了深度学习研究的热点之一。…