• HYMBA论文粗总结

    Hymba:小型语言模型的新标杆——融合SSM与Attention的混合架构状态空间模型(SSM,如Mamba)以线性复杂度崭露头角,但其回忆能力不足。2025年ICLR,NVIDIA团队提出了Hymba,一种小型语言模型(LM),通过创新的“混合头”(Hybrid-Head)架构,巧妙融合SSM和Attention。 一、SSM(状态空间模型)的结构SSM是一种基于控制论的序列建模方法,M...
  • MHA

    MHA 和 GQA 中 Q、K、V 分割的区别解析 1. 图3的详细解析1.1 整体布局Figure 3 | Kernel design for NSAThe kernel loads queries by GQA groups (Grid Loop), fetches corresponding sparse KV blocks (Inner Loop), and performs att...
  • gemm

    gemm矩阵乘法访存3+1次 12345678for (int m = 0; m < M; m++) { for (int n = 0; n < N; n++) { C[m][n] = 0; for (int k = 0; k < K; k++) { C[m][n] += A[m][k] * B[k][n]; &#...
  • tvm

  • transformer

    简单改了下bart的代码测下时间,放这备份一下 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091...
  • 信号与系统

    常用英文even,odd 偶数,奇数exponential 指数sinusoidal 正弦series (cascade) interconnection 串联级联parallel interconnection 并联series-parallel interconnection 串并联differential equation 微分方程rational function 有理函数block...
  • 数电

    教材链接https://pan.oldming.top/OD%E5%9B%BD%E9%99%85%E7%9B%98/%E6%95%99%E6%9D%90%E6%96%87%E4%BB%B6/%E6%95%B0%E7%94%B5/%E9%98%8E%E7%9F%B3%E3%80%8A%E6%95%B0%E5%AD%97%E7%94%B5%E5%AD%90%E6%8A%80%E6%9C%AF%E...
  • 博客部署到云服务器

    购买云服务器安全组中把ssh,hhtp等的端口都打开 vscode连接下载ssh插件加击加号输入ssh root@ip输入密码 配置环境sudo yum update安装 Nginx:sudo yum install nginx启动 Nginx 服务:安装完成后,使用以下命令启动 Nginx 服务,并设置其开机自启动:sudo systemctl start nginxsudo system...
  • django开发api

    django开发api1.安装django1pip install django 2.创建项目1django-admin startproject api 3.创建应用1python manage.py startapp api 安装rest_framework1pip install djangorestframework 4.配置settings.py1234INSTALLED_APPS...
  • 爬虫

    初始代码copyright from https://blog.csdn.net/INTEGRATOR_37/article/details/113386649 1234567891011121314151617181920212223242526272829303132333435363738import requestsimport refrom bs4 import Beautiful...
1234