• 算子实例

    头文件和宏定义12345678#include <algorithm>#include <cmath>#include <vector>#include <cuda_fp16.h>#include "../tester/utils.h"#define BLOCK_SIZE 256 1. Warp 级归约操作Warp Red...
  • AI编译器

    AI编译器AI 编译器是一种针对 AI 和机器学习应用特别优化的编译器,它能够满足推理场景和训练场景不同需求,将高级语言编写的程序或者训练好的模型文件转换成可以在特定硬件上高效执行的程序。1)以 Python 语言为前端2)拥有多层 IR 设计3)面向神经网络深度优化4)针对不同芯片架构设计 目标 性能优化:极致降低训练、推理耗时,提升吞吐量。 资源利用:最大化硬件资源利用率(CPU...
  • cuda

    前言CUDA 编程需要理解线程与硬件的物理映射,并优化显存(Global Memory)访问以提升性能。 核心映射Grid/Block/Thread 在物理资源上的占用情况。 软件层级 (Software) 硬件真身 (Hardware) 说明 Grid Device (GPU) 对应显存 (Global Memory)。所有线程可见,但访问延迟较高。 Block SM (...
  • ncu nsight

    1vim gemm_naive.cu 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980#include <cuda_runtime.h...
  • c++

    常见排序算法概述表 排序算法 时间复杂度(平均) 时间复杂度(最坏) 空间复杂度 是否稳定 适用场景/特点 冒泡排序 是 简单,适合小数据量 选择排序 否 简单,交换次数少 插入排序 是 适合部分有序、小数据量 希尔排序 否 改进插入排序,较快 快速排序 否 实际应用最广泛 归并排序 是 稳定,适合大数据 堆排序 否...
  • 刷题记录

    递归怎么写又写错一道递归,于是乎总结一下递归的写法。 假设函数已经写好了 当前节点该怎么做 找“最小不需要处理的情况” return 用来“兑现函数定义”12345678910111213141516171819202122232425262728/** * Definition for a binary tree node. * struct TreeNode { * int v...
  • new-about-transformer

    发现自己对transformer的理解有些偏颇,开此文章记录一下。 输入设句子有 T 个 token,embedding 维度为 d: 输入 embedding 矩阵是一个大小为 T × d 的矩阵每一行表示一个 token 的向量(也就是你说的“每一层”可以理解为“每一个 token 的表示”) 12345678X = [ x_1 → token 1 x_2 → token...
  • mamba-transformer

    什么是特征融合?特征融合 是一种将来自多个源头或多种表示的特征信息组合成一个统一、更具信息量、更鲁棒的特征表示的过程,目的是为了提高机器学习模型的性能(如准确性、稳定性)。 这里的“多个源头”可以指: **多模态数据 (Multimodal Data)**:来自不同类型传感器或数据源的信息。这是最经典的应用场景。 例子:自动驾驶中,融合摄像头(视觉图像)、激光雷达 LiDAR(3D点云)和...
  • mamba

    mamba瓶颈测量加载huggingface上的state-spaces/mamba-130m-hf模型在wikitext-2-raw-v1的test数据集上进行测量 1234567SSM scan 341938.203SSM parameters 155749.540RMSNorm 137193.504Convolution 1369...
  • KV Cache and MLA

    在 Decoder-only 的 Transformer 模型(如 GPT、DeepSeek-V3) 中,KV Cache 的核心作用正是为了 避免重复计算历史 token 的 Key 和 Value,从而实现高效的自回归生成。 背景 自回归attention机制 1. 核心分工 组件 角色 自回归中的关键设计 Query (Q) 当前Token的“问题” 仅由最新生成的Toke...
1234