実際の本のページ番号との対応が付いたとかそういう感じで話題ですが、最近表題のhighlightが実はsimpleだけどものすごい可能性を秘めているなんじゃないかとwktkしている。kindleのhighlight機能は実際の本でいうところの赤線を引く、みたいなのに対応している。これだけだと全然すごくない。いや、iPhoneでもiPadでもKindleでもhighlightを同期できるとかっていうのは結構重要なことなんですけど、この際どうでもよい。「みんながどこにhighlightを付けたから分かる」というのが重要なのだ。プライバシーとかの関係で「誰が」の部分は分からないが、それでいいのだ十分統計量なのだ。
Kindleでは現在日本語の本が買えないので、英語の本を買ったりしている。論文だったら構成やバックグラウンドの知識などからどこを読めばいいかどこを読まなくてよいかがある程度分かるので、分量のわりには読むのに時間がそんなにかからないし(理解はまだ別だが)、そんなに時間をかけていたらそもそもお仕事にならない。自分のところで使われる語彙数というのは結構限られたものでも十分であったりする。しかし、論文以外のものとなってくると話は変わってくる。構造化がそんなにきちんとされているわけでもないし、構造化がされていても自分のなじみのものと違ったりするし、out of domainな感じで語彙力足りん!!などなど様々な障壁が待ち構えている。
そこでhighlightである。皆様が付けてくれたhighlightが簡易要約のような形になってこのパラグラフで言いたいことは何なのよ、どこは読み飛ばしちゃだめでどこ読み飛ばしてよいのよ、という緩急のサインを与えてくれる。これは結構すごいことのように思う。
...と、ここまでは一般user視点で感動したこと。僕は自然言語処理×機械学習な人を目指しているのでこのデータを考えるとよだれが出てくる(インターン行きたい!って書いたらインターンにいけるはてなキーワードのキャンペーンはまだか...)。最近は自動要約とかのタスクに興味を持っているが、こやつの正解データをたくさん得ようと思ったら結構難しいし、そもそも正解が正解なのかがよく分からん(だから複数人にやってもらうんですが)。ただ、文書をわっと見せられて「この中の文書のどこが大事?」と言われたらそこそこ付けられるものだし(補助問題みたいな形)、自分はあんまり自信がなかったりしてもKindle使っている人は世界中にいるので「やっぱり重要」というところはhighlightの「数」になって表われてくる。要するに、完全な要約文は得られなくとも要約に必要な部分要素は手に入るんじゃないかってこと。
highlight機能はそれ単体でも素晴らしいが、これだけだと本の中でも役割や「意味的な構造」がよく分からなかったりで足りないかなと思うところもあるし、「俺」がhighlight付けたってのを重視して何かしらのpersonalizationをやってくれよとか色々ideaが出てくるのでそういう意味でも面白い。
追記
@toyodam先生からhighlightのランキングは分かると教えてもらった。
上位100件くらいは見れるんかなと思ったらぱっと試した感じ上位300万件くらいは見せてくれた。ちょっと予想外。Kindleとかにはtweetするオプションもあったりするので、それと合わせると面白そう(問題はhighlightされていない本の箇所は集らない...ということだが)。