某大模型在服务医疗领域问答时,经常遇到用户询问“今天天气怎么样”等领域外问题,导致生成效果不佳。请问...
大模型在生成长文本时,时常出现“复读机”现象,即反复输出相同或相似的句子片段。以下哪种方法属于常见的...
关于“模型微调”修复 badcase,下列哪些说法是正确的?
一种名为“模型编辑”的技术(如 ROME、MEMIT)旨在精准修正模型内部的特定错误。以下哪项最准确...
在处理 badcase 时,遵循“奥卡姆剃刀”原则(如无必要,勿增实体)通常建议我们优先考虑哪种策略...
如果希望评估机器翻译结果与参考译文在表面词串上的匹配程度,并且计算速度要快,以下哪个指标是最经典和合...
BLEU 指标中的 Brevity Penalty (BP, 简短惩罚因子) 主要用于解决以下什么问...
在文本摘要任务中,我们通常更关心生成摘要是否涵盖了原文的所有关键信息(即召回率),而不仅仅是生成的片...
以下关于 BERTScore 的描述中,哪一项是正确的?
Perplexity (PPL, 困惑度) 是衡量语言模型性能的重要内部指标。以下关于 PPL 的说...
在大模型的对抗性测试中,“红队测试”(Red Teaming)的核心目标是什么?
以下哪一项是自动化对抗性测试工具(如 TextAttack 框架)的主要优势?
在对抗性测试中,“白盒测试”与“黑盒测试”的主要区别在于?
以下哪些技术常被用于生成针对大语言模型的对抗性测试样本?
评估大模型对抗鲁棒性的一个关键指标“鲁棒准确率”(Robust Accuracy)是指什么?
在大模型开发的哪个阶段,就需要系统性地考虑数据隐私和安全问题?
为了防范“提示词注入”或“越狱”攻击,诱导模型生成有害内容,以下哪种做法是有效的?
以下哪些技术可以被用于保护训练数据的隐私,防止敏感信息泄露?
大模型在金融领域的应用面临严格的监管要求,以下哪项是开发过程中必须遵循的?
如何应对大模型可能产生的“幻觉”(即生成不准确或虚构内容)所带来的风险?