Evaluation

进度: 0/347
0%
-- FLOPs
题目列表
0/20
1

某大模型在服务医疗领域问答时,经常遇到用户询问“今天天气怎么样”等领域外问题,导致生成效果不佳。请问...

2

大模型在生成长文本时,时常出现“复读机”现象,即反复输出相同或相似的句子片段。以下哪种方法属于常见的...

3

关于“模型微调”修复 badcase,下列哪些说法是正确的?

4

一种名为“模型编辑”的技术(如 ROME、MEMIT)旨在精准修正模型内部的特定错误。以下哪项最准确...

5

在处理 badcase 时,遵循“奥卡姆剃刀”原则(如无必要,勿增实体)通常建议我们优先考虑哪种策略...

6

如果希望评估机器翻译结果与参考译文在表面词串上的匹配程度,并且计算速度要快,以下哪个指标是最经典和合...

7

BLEU 指标中的 Brevity Penalty (BP, 简短惩罚因子) 主要用于解决以下什么问...

8

在文本摘要任务中,我们通常更关心生成摘要是否涵盖了原文的所有关键信息(即召回率),而不仅仅是生成的片...

9

以下关于 BERTScore 的描述中,哪一项是正确的?

10

Perplexity (PPL, 困惑度) 是衡量语言模型性能的重要内部指标。以下关于 PPL 的说...

11

在大模型的对抗性测试中,“红队测试”(Red Teaming)的核心目标是什么?

12

以下哪一项是自动化对抗性测试工具(如 TextAttack 框架)的主要优势?

13

在对抗性测试中,“白盒测试”与“黑盒测试”的主要区别在于?

14

以下哪些技术常被用于生成针对大语言模型的对抗性测试样本?

15

评估大模型对抗鲁棒性的一个关键指标“鲁棒准确率”(Robust Accuracy)是指什么?

16

在大模型开发的哪个阶段,就需要系统性地考虑数据隐私和安全问题?

17

为了防范“提示词注入”或“越狱”攻击,诱导模型生成有害内容,以下哪种做法是有效的?

18

以下哪些技术可以被用于保护训练数据的隐私,防止敏感信息泄露?

19

大模型在金融领域的应用面临严格的监管要求,以下哪项是开发过程中必须遵循的?

20

如何应对大模型可能产生的“幻觉”(即生成不准确或虚构内容)所带来的风险?

请选择一道题目开始答题
Evaluation - LLM 题库