数据 - LLM 题库

题目列表

只看错题

0/16

关于主流大语言模型（LLM）的预训练阶段，以下哪项描述最为准确？

在设计多语言大模型的词表时，主要面临的核心挑战是什么？

与预训练阶段的海量数据相比，监督微调（SFT）阶段通常有什么特点？

在混合不同来源的预训练数据（如网页、书籍、代码）时，最佳的实践策略是？

在大模型预训练的数据预处理中，“质量过滤”的主要目的是什么？

以下哪种技术主要用于解决训练数据中的“重复”问题？

为了提升大模型的多语言能力和泛化性，预处理时在“数据多样性”方面通常如何操作？

“数据词元化”（Tokenization）步骤中，Byte-level BPE（BBPE）等子词方法...

在大模型训练中，良好的数据预处理（包括质量和多样性处理）能带来哪些好处？

以下哪些措施属于提升训练数据“多样性”的常见做法？

关于 MinHash 和 SimHash 算法的核心原理，以下哪项描述是正确的？

以下关于 MinHash 算法的描述中，哪一项是其显著特点或优势？

如果一个项目需要对每天产生的数千万条新闻稿件进行近乎实时的去重处理，以发现高度相似的报道，主要关心文...

在 Decoder-only 架构的 Transformer 模型预训练中，计算量（C）、模型参数量...

DeepMind 的 Chinchilla 研究对 Scaling Law 的重要补充指出，为了达到...

Meta 在 LLaMA 模型中提出了一种“反 Scaling Law”的实用策略，其主要思想是？

请选择一道题目开始答题