• ncu nsight

    1vim gemm_naive.cu 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980#include <cuda_runtime.h...
  • C++

    常见排序算法概述表 排序算法 时间复杂度(平均) 时间复杂度(最坏) 空间复杂度 是否稳定 适用场景/特点 冒泡排序 是 简单,适合小数据量 选择排序 否 简单,交换次数少 插入排序 是 适合部分有序、小数据量 希尔排序 否 改进插入排序,较快 快速排序 否 实际应用最广泛 归并排序 是 稳定,适合大数据 堆排序 否...
  • 刷题记录

    自制链表12345678910111213141516171819/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode() : val(0), next(nullptr) {} * ListNode(int x) ...
  • new-about-transformer

    发现自己对 Transformer 的理解有些偏颇,开此文章记录一下。 输入设句子有 $T$ 个 token,embedding 维度为 $d$。 输入 embedding 矩阵可以表示为一个大小为 $T \times d$ 的矩阵: 1234567X = [ x_1 -> token 1 x_2 -> token 2 x_3 -> token 3 ... ...
  • mamba-transformer

    什么是特征融合?特征融合 是一种将来自多个源头或多种表示的特征信息组合成一个统一、更具信息量、更鲁棒的特征表示的过程,目的是为了提高机器学习模型的性能(如准确性、稳定性)。 这里的“多个源头”可以指: **多模态数据 (Multimodal Data)**:来自不同类型传感器或数据源的信息。这是最经典的应用场景。 例子:自动驾驶中,融合摄像头(视觉图像)、激光雷达 LiDAR(3D点云)和...
  • mamba

    mamba瓶颈测量加载huggingface上的state-spaces/mamba-130m-hf模型在wikitext-2-raw-v1的test数据集上进行测量 1234567SSM scan 341938.203SSM parameters 155749.540RMSNorm 137193.504Convolution 1369...
  • KV Cache and MLA

    在 Decoder-only 的 Transformer 模型(如 GPT、DeepSeek-V3) 中,KV Cache 的核心作用正是为了 避免重复计算历史 token 的 Key 和 Value,从而实现高效的自回归生成。 背景 自回归attention机制 1. 核心分工 组件 角色 自回归中的关键设计 Query (Q) 当前Token的“问题” 仅由最新生成的Toke...
  • PyTorch和TensorFlow对比

    选修课作业PyTorch (由Facebook开发)和 TensorFlow(由Google开发) 在深度学习中提供了丰富的功能,涵盖计算图、自动微分、优化、模型部署等多个方面。下面从 计算图、自动微分、分布式训练、优化器、模型部署 等角度分析它们的功能和相关原理。 1. 计算图机制计算图(Computation Graph)是深度学习框架的核心,它定义了计算流程,使得框架能够高效计算梯度...
  • BartAttention

    BartAttention中encoder阶段张量维度的变化分析,attention计算各部分耗时分析

  • HYMBA论文粗总结

    Hymba:小型语言模型的新标杆——融合SSM与Attention的混合架构状态空间模型(SSM,如Mamba)以线性复杂度崭露头角,但其回忆能力不足。2025年ICLR,NVIDIA团队提出了Hymba,一种小型语言模型(LM),通过创新的“混合头”(Hybrid-Head)架构,巧妙融合SSM和Attention。 一、SSM(状态空间模型)的结构SSM是一种基于控制论的序列建模方法,M...
12345