去年のACLの自動要約に関する論文。最終的な要約を出力するまでを2つのstepに分けて考えている。
- nCRPをsentence-levelで考えて、文の抽象度合い、具体化度合いのようなものを得る
- 要約文にきやすいような文はtreeの上のほうにあるだろう、という仮定から
- treeのどのレベルにいるか、という付近を使って文の類似度をはかり、類似度を回帰するようなモデルを作成、テスト文でそのスコアを計算し、要約文を構築
という流れ。2 step目はまあよくあるかなぁという感じなんだが、最初のstepが新しい、かつ直感に合うような気がしていいなぁと思った(そういうわけでnCRPの論文とかをひっくりかえして読んでいた)。全体でやっていることはFigure 3が分かりやすい。nCRPを理解してから読むとすっきり読めてよいかと思う(あんまり理解しないで読んでたらもやもやしてしまった)。
「自動要約系の話で生成モデルを使っているものはあまりないのかな?」と思ったがそんなことはなくてNLPのメジャーな会議でも各年一本(は言いすぎだったっぽいが)くらいはそういうのが出ているっぽい。
- Bayesian Querey-Focused Summarization, Hal and Daniel, ACL 2006
- Exploring Content Models for Multi-Document Summarization, Haghighi and Vanderwende, NAACL 2009
あとはMTを追従しているかのようにdecoding周りの話が多い。去年のEMNLPにもA*を使ってdecodingする話が出ていたのを思い出した。
@inproceedings{Celikyilmaz:2010:HHM:1858681.1858765, author = {Celikyilmaz, Asli and Hakkani-Tur, Dilek}, title = {A hybrid hierarchical model for multi-document summarization}, booktitle = {Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics}, series = {ACL '10}, year = {2010}, location = {Uppsala, Sweden}, pages = {815--824}, numpages = {10}, url = {http://portal.acm.org/citation.cfm?id=1858681.1858765}, acmid = {1858765}, publisher = {Association for Computational Linguistics}, address = {Stroudsburg, PA, USA}, }