BERT 沿用了 GPT-1 的“预训练(Pre-training)+ 微调(Fine-tuning)”的两阶段模式。预训练阶段(如通过 MLM 和 NSP 任务)让模型从海量文本中学习通用的语言规律和知识。微调阶段则利用下游任务(如文本分类、问答等)的标注数据,以较小的学习率对这些预训练参数进行端到端的更新,并训练一个新增的、相对简单的任务特定输出层(Task-Specific Head)。这种方式相比为每个任务从头训练模型,能大幅降低对标注数据量的需求,显著减少计算成本和时间,并凭借预训练获得的高质量初始参数,往往能实现更好的泛化性能,尤其在数据量较小的任务上表现更为突出。