微信扫码
添加专属顾问
我要投稿
GLM-4.7-Flash无审查版重磅发布,30B MoE架构带来高效推理体验,支持200K超长上下文,满足不同场景需求。 核心内容: 1. 模型特点:30B-A3B混合专家架构,仅激活3B参数实现快速推理 2. 版本选择:平衡版与激进版分别适用于不同应用场景 3. 技术细节:提供多种量化格式,兼容主流推理框架
GLM-4.7-Flash的无审查版本现已发布,由HauhauCS制作。该模型基于Z.ai的原版GLM-4.7-Flash,但移除了所有审查机制。
模型采用30B-A3B混合专家架构,总参数量31B,但每次前向传播仅激活约3B参数,这意味着推理速度会很快。同时支持200K的上下文长度。
目前提供了四种量化格式:
| 量化类型 | 文件大小 |
|---|---|
| FP16 | 56 GB |
| Q8_0 | 30 GB |
| Q6_K | 23 GB |
| Q4_K_M | 17 GB |
根据Z.ai官方的建议:
通用用途:
--temp 1.0 --top-p 0.95工具调用/智能体场景:
--temp 0.7 --top-p 1.0重要提示:
--repeat-penalty 1.0)--min-p 0.01(默认0.05过高)--jinja标志目前与Ollama存在聊天模板兼容性问题,建议使用llama.cpp、LM Studio、Jan或koboldcpp。
HauhauCS表示,这些无审查版本的目标是尽可能无损地保留原版模型的能力,只是移除了拒绝机制。对于需要更小模型的用户,他还发布了GPT-OSS 20B的无审查版本。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-23
百度开源 Unlimited OCR:让长文档解析一次完成
2026-06-23
我把自己的需求到交付 Skills 开源了:Analysis to Delivery
2026-06-23
腾讯开源WeKnora知识库部署实战(含踩坑排查)
2026-06-22
DiffusionGemma: 文本生成速度提升 4 倍
2026-06-22
刚刚,百度开源拿下全球第一!作者疑似DeepSeek出走大神
2026-06-22
Agent终于有了自己的邮箱!腾讯Agently Mail详解
2026-06-20
GLM-5.2本地部署:744B参数模型如何在Mac上跑
2026-06-20
Hermes Agent v0.17发布:AI助手开始扩展触角
2026-03-30
2026-04-09
2026-04-03
2026-04-01
2026-03-31
2026-03-30
2026-04-18
2026-04-18
2026-03-31
2026-04-02
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01