-
KV Cache and MLA
在 Decoder-only 的 Transformer 模型(如 GPT、DeepSeek-V3) 中,KV Cache 的核心作用正是为了 避免重复计算历史 token 的 Key 和 Value,从而实现高效的自回归生成。 背景 自回归attention机制 1. 核心分工 组件 角色 自回归中的关键设计 Query (Q) 当前Token的“问题” 仅由最新生成的Toke... -
PyTorch和TensorFlow对比
选修课作业PyTorch (由Facebook开发)和 TensorFlow(由Google开发) 在深度学习中提供了丰富的功能,涵盖计算图、自动微分、优化、模型部署等多个方面。下面从 计算图、自动微分、分布式训练、优化器、模型部署 等角度分析它们的功能和相关原理。 1. 计算图机制计算图(Computation Graph)是深度学习框架的核心,它定义了计算流程,使得框架能够高效计算梯度... -
BartAttention
BartAttention中encoder阶段张量维度的变化分析,attention计算各部分耗时分析
-
HYMBA论文粗总结
Hymba:小型语言模型的新标杆——融合SSM与Attention的混合架构状态空间模型(SSM,如Mamba)以线性复杂度崭露头角,但其回忆能力不足。2025年ICLR,NVIDIA团队提出了Hymba,一种小型语言模型(LM),通过创新的“混合头”(Hybrid-Head)架构,巧妙融合SSM和Attention。 一、SSM(状态空间模型)的结构SSM是一种基于控制论的序列建模方法,M... -
MHA
MHA 和 GQA 中 Q、K、V 分割的区别解析 1. 图3的详细解析1.1 整体布局Figure 3 | Kernel design for NSAThe kernel loads queries by GQA groups (Grid Loop), fetches corresponding sparse KV blocks (Inner Loop), and performs att... -
gemm
gemm矩阵乘法访存3+1次 12345678for (int m = 0; m < M; m++) { for (int n = 0; n < N; n++) { C[m][n] = 0; for (int k = 0; k < K; k++) { C[m][n] += A[m][k] * B[k][n]; ... -
transformer
简单改了下bart的代码测下时间,放这备份一下 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091... -
信号与系统
常用英文even,odd 偶数,奇数exponential 指数sinusoidal 正弦series (cascade) interconnection 串联级联parallel interconnection 并联series-parallel interconnection 串并联differential equation 微分方程rational function 有理函数block... -
数电
教材链接https://pan.oldming.top/OD%E5%9B%BD%E9%99%85%E7%9B%98/%E6%95%99%E6%9D%90%E6%96%87%E4%BB%B6/%E6%95%B0%E7%94%B5/%E9%98%8E%E7%9F%B3%E3%80%8A%E6%95%B0%E5%AD%97%E7%94%B5%E5%AD%90%E6%8A%80%E6%9C%AF%E...