超全总结！大模型算法岗面试真题来了！

发布日期：2024-04-02 07:03:50 浏览次数： 7692

作者：机器学习社区

微信搜一搜，关注“机器学习社区”

大家好，从 2019 年的谷歌 T5 到 OpenAI GPT 系列，参数量爆炸的模型不断涌现，尤其2022年11月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。

近些年，在大规模语料库上预训练 Transformer 模型产生了预训练语言模型（PLMs），并在解决各类 NLP 任务上展现出了强大的能力。

当参数规模超过一定水平时，语言模型实现了显著的性能提升，并展现出小模型中不存在的能力，比如上下文学习。为了区别于 PLM，这类模型被称为大型语言模型（LLMs）。

为了让大家更容易上车大模型，结合一些小伙伴参加大模型面试的真题分享和自己实战经验，我对大模型常考的面试题归纳为：大模型基础，大模型参数微调、训练、推理，大模型应用框架，大模型分布式训练，其他技术等内容。

喜欢本文，喜欢记得收藏、关注、点赞，喜欢技术交流，文末加入我们

大模型基础

你比较关注那些主流的开源大模型？
目前大模型模型结构都有那些？
prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点？
模型幻觉是什么？业内解决方案是什么？
大模型的 Tokenizer 的实现方法及原理？
ChatGLM3 的词表实现方法？
GPT3、LLAMA、Chatglm 的Layer Normalization 的区别是什么？各自的优缺点是什么？
大模型常用的激活函数有那些？
Multi-query Attention 与 Grouped-query Attention 是否了解？区别是什么？
多模态大模型是否有接触？落地案例？

大模型参数微调、训练、推理

为什么需要进行参选微调？参数微调的有点有那些？
模型参数微调的方式有那些？你最常用那些方法？
prompt tuning 和 prefix tuning 在微调上的区别是什么？
LLaMA-adapter 如何实现稳定训练？
LoRA 原理与使用技巧有那些？
LoRA 微调优点是什么？
AdaLoRA 的思路是怎么样的？
LoRA 权重合入chatglm模型的方法？
P-tuning 讲一下？与 P-tuning v2 区别在哪里？优点与缺点？
为什么SFT之后感觉LLM傻了?
垂直领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？
进行SFT操作的时候，基座模型选用Chat还是Base?
领域模型词表扩增是不是有必要的？
训练中文大模型的经验和方法
模型微调用的什么模型？模型参数是多少？微调模型需要多大显存？
预训练和SFT操作有什么不同？
训练一个通用大模型的流程有那些
DDO 与 DPO 的区别是什么？
是否接触过 embeding 模型的微调方法
有哪些省内存的大语言模型训练/微调/推理方法？
大模型（LLMs）评测有那些方法？如何衡量大模型的效果？
如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题？
模型训练的数据集问题：一般数据集哪里找？
为什么需要进行模型量化及原理？
大模型词表扩充的方法及工具？

大模型应用框架

什么是 LangChain?
什么是 LangChain Agent?
什么是 LangChain model?
除了 LangChain，是否了解其他框架？
是否有基于LangChain 搭建大模型应用的经验，请详细说明？
搭建大模型应用遇到过那些问题？如何解决的？
如何提升大模型的检索效果
是否了解上下文压缩方法？
如何实现窗口上下文检索？
开源的 RAG 框架有哪些，你比较了解？
大模型应用框架 LangChain 和 LlamaIndex 各种的优势有那些？
你使用的向量库有那些？各自有点与区别？
使用外部知识数据库时需要对文档进行分块，如何科学的设置文档块的大小？
LLMs 受到上下文长度的限制，如果检索到的文档带有太多噪声，该如何解决这样的问题？
RAG（检索增强生成）对于大模型来说，有什么好处？

大模型分布式训练

大模型进行训练，你用的是什么框架？
业内常用的分布式AI框架，你什么了解？
数据并行、张量并行、流水线并行的原理及区别？
推理优化技术 Flash Attention 的作用是什么？
推理优化技术 Paged Attention 的作用是什么？
CPU-offload，ZeRO-offload 了解?
ZeRO，零冗余优化器的三个阶段？
混合精度训练的优点是什么？可能带来什么问题？
Megatron-DeepSpeed 方法？
Megatron-LM 方法

其他技术

你GPU服务器用的那些？
是否使用过国产GPU服务器？
是否部署过Docker 和 k8s ?
Linux 常见命令大全
Docker 常用命令大全
Kubernetes 常用命令大全
平时使用的开发语言是什么？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-01

为什么我选 Pi 而不是 Claude Code、Codex、OpenCode（上）

2026-07-01

Mirawork 亲测：颠覆工作方式的 AI 办公神器

2026-06-30

一个业务一线同学，把 AI 真用起来之后的 12 个真实想法

2026-06-30

PRD 2.0：AI时代的需求文档长什么样（附腾讯模板）

2026-06-29

Rspack 2.1 发布：React Compiler 提速 10 倍！

2026-06-28

想转 AI 落地 FDE？先看 3 个核心能力项

2026-06-26

产品经理转FDE：一份6个月的生存手册

2026-06-26

年中了，试试让你的Agent快速写出半年总结？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

5款AI语音输入法，打字慢的人有救了

2026-05-26

别急着装 OpenHuman，看完这篇再说

2026-05-18

解读腾讯【从超级个体到超级团队】报告，附原文。

2026-06-09

FDE 到底是干嘛的？我帮你拆清楚了

2026-06-04

从聊天窗口到多 Agent 控制台：一次 AI 编程协作范式的转移

2026-04-16

OpenAI 出圈的「AI 屏幕记忆」，我找到了关于它的最佳答案

2026-04-25

为什么要构建个人知识体系？

2026-04-14

来自 Codex 官方团队的分享：如何把 Codex 用到极致

2026-05-21

办公Agent的CI/CD时刻到来了

2026-04-09

别只盯落地场景了，这5个AI价值模型才是关键！

2026-04-22

大家都在问

年中了，试试让你的Agent快速写出半年总结？

2026-06-26

为什么有了 AI，我们更累了？

2026-06-09

为什么你跟WorkBuddy说了100遍规矩，它转头就忘？

2026-06-07

AI 时代的文档之争：为什么我不建议普通人直接跟风切 HTML？

2026-06-05

如何用AI提效，又不把脑子用废？

2026-05-14

为什么要构建个人知识体系？

2026-04-14

Coding Agent 的最终形态是 TUI + GUI 吗？

2026-02-04

谁来给桌面 Agent 的转正签字？

2026-01-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw