题目
下列属于Transformer架构优势的是( )A. 仅能处理短文本B. 解决循环神经网络的梯度问题C. 无需训练数据D. 参数量固定不变
下列属于Transformer架构优势的是( )
A. 仅能处理短文本
B. 解决循环神经网络的梯度问题
C. 无需训练数据
D. 参数量固定不变
题目解答
答案
B. 解决循环神经网络的梯度问题
解析
考查要点:本题主要考查对Transformer架构核心优势的理解,需区分其与循环神经网络(RNN)的关键差异。
解题思路:
- 明确选项关键点:需判断选项中哪些描述符合Transformer的实际优势。
- 对比RNN的局限性:RNN因序列逐次处理方式存在梯度消失/爆炸问题,而Transformer通过自注意力机制实现并行计算,有效规避此类问题。
- 排除干扰项:注意排除与模型基本需求(如训练数据)或不合理假设(如固定参数量)相关的错误选项。
破题关键:
- Transformer的核心优势在于并行处理和自注意力机制,直接关联到对RNN梯度问题的解决。
选项分析
A. 仅能处理短文本
- 错误。Transformer通过自注意力机制可高效处理长文本,无需像RNN那样逐词依赖,因此能更好地处理长序列。
B. 解决循环神经网络的梯度问题
- 正确。RNN在长序列中易出现梯度消失/爆炸,而Transformer通过并行计算和自注意力机制,减少了此类问题的发生。
C. 无需训练数据
- 错误。所有深度学习模型均需训练数据,Transformer也不例外。
D. 参数量固定不变
- 错误。模型参数量由架构设计决定(如层数、注意力头数),训练过程中参数会更新。