Evaluation - LLM 题库

题目列表

只看错题

0/20

某大模型在服务医疗领域问答时，经常遇到用户询问“今天天气怎么样”等领域外问题，导致生成效果不佳。请问...

大模型在生成长文本时，时常出现“复读机”现象，即反复输出相同或相似的句子片段。以下哪种方法属于常见的...

关于“模型微调”修复 badcase，下列哪些说法是正确的？

一种名为“模型编辑”的技术（如 ROME、MEMIT）旨在精准修正模型内部的特定错误。以下哪项最准确...

在处理 badcase 时，遵循“奥卡姆剃刀”原则（如无必要，勿增实体）通常建议我们优先考虑哪种策略...

如果希望评估机器翻译结果与参考译文在表面词串上的匹配程度，并且计算速度要快，以下哪个指标是最经典和合...

BLEU 指标中的 Brevity Penalty (BP, 简短惩罚因子) 主要用于解决以下什么问...

在文本摘要任务中，我们通常更关心生成摘要是否涵盖了原文的所有关键信息（即召回率），而不仅仅是生成的片...

以下关于 BERTScore 的描述中，哪一项是正确的？

Perplexity (PPL, 困惑度) 是衡量语言模型性能的重要内部指标。以下关于 PPL 的说...

在大模型的对抗性测试中，“红队测试”（Red Teaming）的核心目标是什么？

以下哪一项是自动化对抗性测试工具（如 TextAttack 框架）的主要优势？

在对抗性测试中，“白盒测试”与“黑盒测试”的主要区别在于？

以下哪些技术常被用于生成针对大语言模型的对抗性测试样本？

评估大模型对抗鲁棒性的一个关键指标“鲁棒准确率”（Robust Accuracy）是指什么？

在大模型开发的哪个阶段，就需要系统性地考虑数据隐私和安全问题？

为了防范“提示词注入”或“越狱”攻击，诱导模型生成有害内容，以下哪种做法是有效的？

以下哪些技术可以被用于保护训练数据的隐私，防止敏感信息泄露？

大模型在金融领域的应用面临严格的监管要求，以下哪项是开发过程中必须遵循的？

如何应对大模型可能产生的“幻觉”（即生成不准确或虚构内容）所带来的风险？

请选择一道题目开始答题