IKKO

nf4反量化实现与优化

测试~/Learning-CUDA目录下 1234567891011121314151617# 默认 bf16make nf4# 显式指定 dtypemake nf4 DTYPE=fp16make nf4 DTYPE=bf16# 简写（等价于上面的 DTYPE）make nf4 fp16make nf4 bf16# 指定 GPUmake nf4 CUDA_DEVICE=7make ...

2026-03-16

算子实例

做了一个简单的cuda项目，故记录下来。头文件和宏定义12345678910111213#include <algorithm>#include <cmath>#include <vector>#include <cuda_fp16.h>#include <cuda_runtime.h>#include <iostream&...

2026-02-05

AI编译器

AI编译器AI 编译器是一种针对 AI 和机器学习应用特别优化的编译器，它能够满足推理场景和训练场景不同需求，将高级语言编写的程序或者训练好的模型文件转换成可以在特定硬件上高效执行的程序。1）以 Python 语言为前端2）拥有多层 IR 设计3）面向神经网络深度优化4）针对不同芯片架构设计目标性能优化：极致降低训练、推理耗时，提升吞吐量。资源利用：最大化硬件资源利用率（CPU...

2026-01-26

cuda

前言CUDA 编程需要理解线程与硬件的物理映射，并优化显存（Global Memory）访问以提升性能。核心映射Grid/Block/Thread 在物理资源上的占用情况。软件层级 (Software) 硬件真身 (Hardware) 说明 Grid Device (GPU) 对应显存 (Global Memory)。所有线程可见，但访问延迟较高。 Block SM ...

2025-12-24

ncu nsight

1vim gemm_naive.cu 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980#include <cuda_runtime.h...

2025-12-23

c++

常见排序算法概述表排序算法时间复杂度（平均）时间复杂度（最坏）空间复杂度是否稳定适用场景/特点冒泡排序是简单，适合小数据量选择排序否简单，交换次数少插入排序是适合部分有序、小数据量希尔排序否改进插入排序，较快快速排序否实际应用最广泛归并排序是稳定，适合大数据堆排序否...

2025-12-18

刷题记录

递归怎么写又写错一道递归，于是乎总结一下递归的写法。假设函数已经写好了当前节点该怎么做找“最小不需要处理的情况” return 用来“兑现函数定义”12345678910111213141516171819202122232425262728/** * Definition for a binary tree node. * struct TreeNode { * int v...

2025-08-11

数据结构

nf4反量化实现与优化

算子实例

AI编译器

cuda

ncu nsight

c++

刷题记录

new-about-transformer

mamba-transformer

mamba