#67 Joint Training and Decoding Using Virtual Nodes for Cascaded Segmentation and Tagging Tasks

Xian Qian, Qi Zhang, Yaqian Zhou, Xuanjing Huang, Lide Wu, in Proc. of EMNLP 2010, Massachusetts, USA.

Joint Learningでword segmentationとNERを一緒にやる話。既存手法にDynamic Conditional Random Fields(DCRFs)というものがあるが、Figure 1のようにsegmentationとtaggingのcross-productを同時に学習するモデルがある。こういうモデルだとエラーが伝播しない点はよいのであるが、cross-productの部分を同時に学習するので非常に大変である。

そこでこの論文では、Figure 2のほうにcross-product( $s_i$ 、 $t_i$ )で考えるのではなく、 $s_i$ 、 $t_is_{i-1}$ 、 $t_{i-1}$ と $t_i$ 、 $t_is_{i-1}$ 、 $t_{i-1}$ という一種のマルコフ性を考えたようなものをfeatureにして学習するモデルを提案。(DCRFsより少し表現力は落ちるが、)DCRFsよりも計算量が少なくて済むというメリットがある(Table 1)。大体の話はこんなもんで、実験だと提案手法はDCRFsより計算時間が半分くらいになっていることが分かる。なぜかF値では提案手法を上回ってしまっているが*1、素性が対等でないっぽいので評価としては不当なところがあるのかもしれない。まあ、コンパラならいいんでしょうたぶん。特別変わったモデル(モデルとしてはsecond-order CRF)ではないけど、Joint Learningなモデルとしてはなかなか筋がよさそう(な気がした)。

*1:提案手法で表現できる素性はDCRFsで全て表現できるはずなので、直感的にはよくなることはないはず