• cuda

    前言CUDA 编程需要理解线程与硬件的物理映射,并优化显存(Global Memory)访问以提升性能。 核心映射Grid/Block/Thread 在物理资源上的占用情况。 软件层级 (Software) 硬件真身 (Hardware) 说明 Grid Device (GPU) 对应显存 (Global Memory)。所有线程可见,但访问延迟较高。 Block SM (...
  • c++

    常见排序算法概述表 排序算法 时间复杂度(平均) 时间复杂度(最坏) 空间复杂度 是否稳定 适用场景/特点 冒泡排序 是 简单,适合小数据量 选择排序 否 简单,交换次数少 插入排序 是 适合部分有序、小数据量 希尔排序 否 改进插入排序,较快 快速排序 否 实际应用最广泛 归并排序 是 稳定,适合大数据 堆排序 否...
  • 刷题记录

    递归怎么写又写错一道递归,于是乎总结一下递归的写法。 假设函数已经写好了 当前节点该怎么做 找“最小不需要处理的情况” return 用来“兑现函数定义”12345678910111213141516171819202122232425262728/** * Definition for a binary tree node. * struct TreeNode { * int v...
  • new-about-transformer

    发现自己对transformer的理解有些偏颇,开此文章记录一下。 输入设句子有 T 个 token,embedding 维度为 d: 输入 embedding 矩阵是一个大小为 T × d 的矩阵每一行表示一个 token 的向量(也就是你说的“每一层”可以理解为“每一个 token 的表示”) 12345678X = [ x_1 → token 1 x_2 → token...
  • mamba-transformer

    什么是特征融合?特征融合 是一种将来自多个源头或多种表示的特征信息组合成一个统一、更具信息量、更鲁棒的特征表示的过程,目的是为了提高机器学习模型的性能(如准确性、稳定性)。 这里的“多个源头”可以指: **多模态数据 (Multimodal Data)**:来自不同类型传感器或数据源的信息。这是最经典的应用场景。 例子:自动驾驶中,融合摄像头(视觉图像)、激光雷达 LiDAR(3D点云)和...
  • mamba

    mamba瓶颈测量加载huggingface上的state-spaces/mamba-130m-hf模型在wikitext-2-raw-v1的test数据集上进行测量 1234567SSM scan 341938.203SSM parameters 155749.540RMSNorm 137193.504Convolution 1369...
  • KV Cache and MLA

    在 Decoder-only 的 Transformer 模型(如 GPT、DeepSeek-V3) 中,KV Cache 的核心作用正是为了 避免重复计算历史 token 的 Key 和 Value,从而实现高效的自回归生成。 背景 自回归attention机制 1. 核心分工 组件 角色 自回归中的关键设计 Query (Q) 当前Token的“问题” 仅由最新生成的Toke...
  • PyTorch和TensorFlow对比

    选修课作业PyTorch (由Facebook开发)和 TensorFlow(由Google开发) 在深度学习中提供了丰富的功能,涵盖计算图、自动微分、优化、模型部署等多个方面。下面从 计算图、自动微分、分布式训练、优化器、模型部署 等角度分析它们的功能和相关原理。 1. 计算图机制计算图(Computation Graph)是深度学习框架的核心,它定义了计算流程,使得框架能够高效计算梯度...
  • BartAttention

    BartAttention中encoder阶段张量维度的变化分析,attention计算各部分耗时分析

1234