PNE(蛋白質核酸酵素)のテキストで各年のトレンドとか共起語とか

テキストから専門用語を取ってくるのはしばらく前に一段落してて、今は違うことやってます。PNEの1985年から2006年までのテキストが手元にあるんですが、それなりにテキストの数*1もあるし、自分の専門外の文章で年毎の特徴とかよく分からないなーと思ったので、それを俯瞰できるような感じのものを作りました。

各年ごとに特徴的だった語をタグクラウドで表示しているだけですが。。。どうやって特徴的な単語かを決めているかというのはRIDF(Residual IDF)というやつで決めています。もっと有名なやつだとTF-IDFとかがありますが、TF-IDFのほうだと全然うまくいっていない感じだったのでRIDFでやっています。RIDFは自然言語処理特論で勉強したので使ってみました。

あと、その単語自身のほうにフォーカスを合わせてみると

  • その単語がどの時期によく登場していて
  • どういう単語と一緒に登場しているか

とかが分かるとうれしいかなと思って単語ごとにそれを表示できるようなページも作っています。例えばこんなの。

なんかまだチューニングらしきことをやってないので重いけど。。。共起の尺度はコサイン類似度で特にこったことはしていません。登場回数が多い年の代表的な論文の名前とかがスニペットっぽく出るとよいかなーと思ったけど、どこまでやるかは未定です。

僕はDBCLSでこういうことをやっていたりするのですが、他のRA(Research Assistant)の人たちがどういう仕事をやっているかを紹介する通称「収穫祭」が3月にあるらしいので、DBCLSでのバイトに興味がある人は来てみるといいですよ!!

今回の講演会は、DBCLSの大学生・大学院生アルバイト(Research Assistant; 以下RA)の皆さんがどのように統合データベースプロジェクトに関わり、ライフサイエンス分野の統合データベース構築・維持・管理に貢献しているかを、実際に働いているRAの発表を中心に理解を深めていただくとともに、提供されているサービスを使いこなすための効率的な利用法について広く知ってもらうことも目的としています。

AJACS17 - MotDB

*1:といっても6000ファイルくらいですが