微信扫码
添加专属顾问
我要投稿
DeepSeek开源FlashMLA,推理加速新突破! 核心内容: 1. DeepSeek开源周首日,发布FlashMLA解码核 2. FlashMLA针对Hopper GPU优化,显著提升推理效率 3. 项目快速部署指南及性能测试结果
python setup.py install
python tests/test_flash_mla.py
用法
from flash_mla import get_mla_metadata, flash_mla_with_kvcachetile_scheduler_metadata, num_splits = get_mla_metadata (cache_seqlens, s_q * h_q //h_kv, h_kv)for i in range (num_layers):...o_i, lse_i = flash_mla_with_kvcache (q_i, kvcache_i, block_table, cache_seqlens, dv,tile_scheduler_metadata, num_splits, causal=True,)...
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-06
AI时代,我们为何重写规则引擎?—— QLExpress4 重构之路
2025-11-06
锦秋基金创始合伙人杨洁揭秘:AI投资三大方向与AI创业者机遇——现场解答最真实的三大创业焦虑
2025-11-05
LLaMA Factory 安装与配置指南:在 Ubuntu 上快速搭建大模型微调平台
2025-11-05
TinyAI :全栈式轻量级 AI 框架
2025-11-04
百灵大模型 Ling 和 Ring 系列首发支持 SGLang-JAX 推理引擎
2025-11-04
首个国产开源AI原生后端,不再写后端,AI就是全栈工程师。
2025-11-04
DeepCode: 用多智能体架构重新定义代码生成
2025-11-04
AI Infra:POINTS-Reader,腾讯开源的文档解析和OCR工具
2025-08-20
2025-09-07
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-10-20
2025-08-22
2025-09-08
2025-08-12
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08