题目

以下哪种语言模型是基于统计方法，通过计算词语在语料库中的共现频率来预测下一个词的概率？（）A. N-gram语言模型B. RNN语言模型C. Transformer语言模型D. BERT语言模型

以下哪种语言模型是基于统计方法，通过计算词语在语料库中的共现频率来预测下一个词的概率？（）

A. N-gram语言模型

B. RNN语言模型

C. Transformer语言模型

D. BERT语言模型

题目解答

A. N-gram语言模型

考查要点：本题主要考查对不同语言模型核心原理的理解，特别是区分统计方法与神经网络方法的关键特征。

解题核心思路：

统计语言模型（如N-gram）直接基于语料库中词语的共现频率计算概率，不依赖复杂的参数训练。
神经网络模型（如RNN、Transformer、BERT）通过参数化的函数（如神经网络）建模语言规律，而非直接统计频率。
破题关键：抓住“统计方法”和“共现频率”两个关键词，直接对应N-gram模型的特性。

选项分析

A. N-gram语言模型

核心原理：基于马尔可夫假设，假设下一个词仅与前$n-1$个词相关。通过统计语料库中词语序列的共现次数，计算条件概率$P(w_t | w_{t-n+1}, ..., w_{t-1})$。
特点：完全依赖历史数据的频率分布，无参数训练过程。

B. RNN语言模型

核心原理：使用循环神经网络（如LSTM）建模长序列依赖，通过词嵌入和隐藏层状态预测下一个词。
特点：基于参数化的函数，而非直接统计频率。

C. Transformer语言模型

核心原理：利用自注意力机制捕获全局上下文关系，通过多层变换网络生成预测概率。
特点：依赖参数化的注意力权重，而非简单的共现统计。

D. BERT语言模型

核心原理：基于Transformer的双向预训练模型，通过Masked LM任务学习上下文关系。
特点：双向建模且依赖参数化，非统计方法。

结论：只有N-gram模型符合“统计共现频率”的描述。