#20 Large Language Models in Machine Translation

Thorsten Brants, Ashok C. Popat, Peng Xu, Franz J. Och, Jeffrey Dean, EMNLP-2007

内容は結構シンプル。目的意識としては

How might one build a language model that allows scaling to very large amounts of training data?(どーやってでかいデータで言語モデルを作るか)
How much does translation performance improve as the size of the language model increases?(データサイズによって、翻訳の精度はどの程度改善されるものなのか?)
Is there a point of diminishing returns in performance as a function of language model size?

といったところ。

State-of-the-artであるKneser-Ney Smoothingや、KatzのBackoff、線形補完など様々な統計的言語モデルがあるが((4)式の $\rho$ のところ)、精度は出るが、計算の方法が複雑なこともあり、並列計算をしようと思うと大変なところが多い。で、でかいデータを使って色々やりたいので、(単純なモデルでいいから)並列計算を使って動かせるものを考えたい。そこでこの論文で出てきているのはStupid Backoff。(5)式にあるようにsmoothingをかけないものすごい単純なモデルになっている。(5)式は正規化してないので、確率ではないことには注意が必要(あとの実験のパープレキシティのところで効いてくる)。(5)式の $\alpha$ はこの実験では0.4で固定してあると書いてあって、どうやって推定してあんねんと思ったんだけど、実験でやって0.4がよかったからそれを使っていて、頑張って推定してもこの $\alpha$ を変えたところで精度もちょっとしか上昇しなかったからfixした、とある(すごく適当な感じがするけど、large dataだからそれでもよい感じになってくるのか。。。)。本当はデータサイズが大きくなるにつれて、weightを減らしていくべきだとは思うんだけどね。

で、Stupid Backoffだとsmoothingしないで単純に頻度を使っているだけなので、コーパスを分割して、単語の頻度を数えてmergeするというMap-Reduceの考え方が使えるのでその付近が紹介してある。これでStupid Backoffのほうはでかいデータを食わせることができて(分散してデータ置いたりするから?)、Kneser-Neyのときの60倍のデータを食わせることができる、と書いてある。

実験結果のまとめは図5になっていて、training dataが小さいときは当然Kneser-Neyのほうが強いんだけど、データを10倍間隔で増やしていくとStupid Backoffとの差が縮まっていって、この実験では追いついてしまっている。

「機械翻訳で評価するんじゃなくって、言語モデルだけで評価すればいいような気がするのに、機械翻訳が入っているのに何か意味はあるのだろうか」というような質問をしたところ