background
一直显示?点击任意区域即可关闭
加载中...
Add & Norm(二):从传统CV到Transformer里的Normalizaiton详解
Add & Norm(二):从传统CV到Transformer里的Normalizaiton详解1 写在前面 这一篇会稍微有点偏,我们要说明白Transformer中的LayerNorm和RMSNorm,需要把不同领域的Normalizaiton都过一遍。所以整个文章会从传统的CV领域的CNN开始说明,涉及不同数据样式、作用域和任务目标,最终说明Transformer中的LayerNorm和R...
加载中...
Add & Norm:对残差连接深入解析(一)
Add & Norm:对残差连接深入解析(一)写在前面 在我最早学习LLMs时候,残差连接这个词看着就很高大上,让我望而生畏,极大的延缓了我系统的学习的进度。但是,因为这样那样的原因,最终我还是恶补了各种知识。学完之后觉得也就那样了,所以,我希望初学者看到tranformer里藏着这样一个部分的时候,可以不用过多担心,直接开始看。 Add & ...
加载中...
前馈神经网络(FFN)详解(二):从激活函数到MOE
前馈神经网络(FFN)详解(二):从激活函数到MOE1 前言 时隔两周未更新,未曾预料此文篇幅如此之长,其间反复推敲修改多次。主要是不想让读者死背结论,而是希望能切实地从最初的设计理念出发,沿着优化过程中涌现的关键问题,来审视近年来激活函数以及大模型中FFN结构的演变。 因为激活函数处在一种微妙的境地:表面看,如 ReLU 般形态简单、计算高效,其设...
加载中...
前馈神经网络(FFN)详解(一)
前馈神经网络(FFN)详解(一)1 前言 FFN,也就是前馈神经网络(Feed-Forward Network)是一个相对简单的结构,原版的论文(attention is all you need)里这块描述的比较简洁,直接进入了更深入的部分,虽然叫”attention is all you need" 但是FFN同样重要。对于F...
加载中...
注意力机制之多头注意力(Multi-Head Attention)
注意力机制之多头注意力(Multi-Head Attention)写在前面 如果对注意力机制本身不太理解的,建议先看。然后再来看这篇。 注意力机制 首先简单回顾一下transformer的流程。我们有一句话我是秦始皇。这个内容会首先进行token分词,然后映射为token id,接着我们会对token_id进行词嵌入,得到然后加入位置编码,得到X。整个步骤如下: ...
加载中...
Transformer 2025-01-29
Transformer 2025-01-291 引言 现有的大模型,大部分都是decode-only结构。attention is all you need太过精炼,很多信息都被一笔带过了。所以学习过程中难免能产生一些疑问。比如什么是decode-only,大模型都是基于注意力机制的,什么是注意力机制,其中的QKV又怎么理解? 本文旨在通过解...
加载中...
浅谈CoT 2025-01-26
浅谈CoT 2025-01-26引言 大语言模型的兴起让Prompt Engineering成为热门话题。起初,我认为这不过是对提示词的简单调整,算不上真正的技术创新。虽然理解好的提示词能提升输出质量,但对Chain-of-Thought(CoT)的认识也仅限于'步骤式思考'的表层理解。 然而,从O1到DeepSeek-R1-Ze...