3.3 语言模型
n元语法的好处是什么呢?多年来自然语言处理已经利用n元语法开发了预测序列行为的统计语言模型(language model)。序列行为涉及在包含多个X的序列中识别下一个X。例如,语音识别、机器翻译等。在给定前一个元素的前提下语言模型预测序列中的下一个元素。
让我们更仔细地看看它是如何工作的,以及如何使用前几章讨论的工具。假设有一个单词序列,w1,w2,?wn。预测序列中的任意“下一个单词”wi可以表示为下面的概率函数:
等价于:
请注意,这里涉及两个联合概率分布的计算。我们假定用语料库中的单词序列的频率来估计它的概率。即,
P(w1,?wi-1) = Count(w1,?wi-1)
P(w1,?wi) = Count(w1,?wi)
以下比率称为相对频率(relative frequency):
注意: 正如我们所看到的,n