面试题总结

Miyako2025-09-192025-10-20

面试题搜集总结

给定图像大小w，卷积核k，步长s，padding，求计算量
问项目中卷积核大小，是不是越大越好，1*1的卷积核的作用
讲讲你所知道的超参数
你是怎么进行数据增强的？
在文本识别中使用大卷积核的好处
模型的基础调优用过哪些，遇到过什么困难和解决方案；
超参调整如何手动设置初始值（lr、warmup、batchsize、正则、dropout、激活函数、基于经验）；
收敛慢怎么办（lr、初始化权重、数据质量、模型结构、优化器、梯度、正则、训练时间）
各种优化器介绍（SGD随机梯度下降、momentum动量法、RMSprop指数加权平均、Adam）
transformer结构的了解（多头注意力、编码器解码器、前馈神经网络、kvq键值查询）
yolo和detr的优缺点和适用场景（yolo实时、detr复杂高精度）
算法量化PTQ和QAT的介绍；
激活值溢出（合适的scale和zero_point、Q/DQ、INT32中间值）
什么时候可以用更复杂的量化方法；
NLP哪些前沿算法有了解；
假如说有个200B的模型，如何设计在16张卡上分布式训练比较合理：评估计算资源、显存需求、数据模型流水线并行:大模型一般需要张量并行 + 流水线并行结合，再配合数据并行。比如 Megatron-LM 或 DeepSpeed 的方案。
模型训练的优化器、梯度显存占用:显存占用主要由参数、梯度和优化器状态决定，Adam 大约是 2 倍参数量，混合精度、梯度累积和分布式优化可以降低显存需求。
推理优化主要有三方面：算法（剪枝、量化）、硬件（GPU/TPU）、系统层面（批处理、缓存 KV）。
AI框架(tensorflow, Pytorch, LibTorch), 让你选一个回答一些基础的问题. 这个只要用一个框架写过几个项目都能回答上来. 包括API, 以及ANN模型如何调参, 过拟合啥的
过拟合与欠拟合的解决方案：过拟合：模型在训练集表现好，但泛化能力差（如测试集准确率低）。
欠拟合：模型过于简单，无法捕捉数据特征。
解决方法：
过拟合：增加数据量、正则化（L1/L2）、简化模型复杂度、Dropout、早停法。
欠拟合：增加模型复杂度、调整特征工程、减少正则化强度。
延伸：交叉验证如何缓解过拟合？（答案：通过k折划分数据，减少因数据分布导致的偏差）
梯度下降中学习率如何选择？
学习率过大导致震荡不收敛，过小则收敛速度慢。
常用方法：网格搜索、随机搜索、学习率衰减、自适应优化器（如Adam、RMSprop）。
案例：在PyTorch中，可通过torch.optim.lr_scheduler实现动态调整。
模型对比：线性回归 vs 逻辑回归
问题：两者的核心区别是什么？
解析：
线性回归：预测连续值，使用最小二乘法，输出无概率约束。
逻辑回归：分类问题，输出概率值，采用最大似然估计，通过Sigmoid函数映射。
问题：LoRA与QLoRA的区别？
解析：
LoRA：低秩分解权重矩阵，仅微调部分参数，降低计算成本。
QLoRA：结合4-bit量化与低秩微调，在保持性能的同时减少内存占用。
问题：如何减少大语言模型的幻觉？
解析：
前端干预：优化Prompt工程（如使用强化学习对齐人类偏好）。
后端优化：掺杂（Denoising）、控制输出长度、引入检索增强生成（RAG）。
PyTorch数据加载优化
问题：如何高效处理百万级数据集？
解析：
使用Dataset封装数据预处理，DataLoader实现多线程并行加载与批处理。
内存不足时，采用数据分块（Chunking）或混合精度训练（Mixed Precision）。
问题：分类任务中交叉熵损失与KL散度的适用场景？
解析：
交叉熵：直接优化概率分布差异，适用于多分类（如Logistic回归）。
KL散度：衡量分布相似性，常用于生成模型（如GAN）的判别器损失。