题目

在大型语言模型（LLM）的安全对齐过程中，基于人类反馈的强化学习（RLHF）通过（）关键步骤实现模型行为的优化。A. 完全依靠预训练数据来对齐模型B. 人类标注者对模型的多个输出进行排序或评分，以训练奖励模型，进而优化LLMC. 仅通过增加模型参数来提高安全性D. 仅进行代码层面的安全审计

在大型语言模型（LLM）的安全对齐过程中，基于人类反馈的强化学习（RLHF）通过（）关键步骤实现模型行为的优化。

A. 完全依靠预训练数据来对齐模型

B. 人类标注者对模型的多个输出进行排序或评分，以训练奖励模型，进而优化LLM

C. 仅通过增加模型参数来提高安全性

D. 仅进行代码层面的安全审计

题目解答

B. 人类标注者对模型的多个输出进行排序或评分，以训练奖励模型，进而优化LLM

考查要点：本题主要考查对基于人类反馈的强化学习（RLHF）核心流程的理解，需要明确其关键步骤与实现机制。

解题核心思路：
RLHF 的核心在于通过人类标注者的反馈对模型行为进行优化。具体包括两个关键环节：

破题关键点：

明确排除干扰项：
- 预训练数据是模型基础，但非RLHF直接作用环节（排除A）；
- 模型参数量与代码审计与行为对齐无直接关系（排除C、D）。

选项分析

选项B：

其他选项错误原因：