自然言語処理

go-active-learningを改良している話(Slackからのアノテーションをサポートなど)

以下の話の続きです、地味に続いています。自分が普段使うツールを改良していくのは楽しいですね。 自分で使ってみて、これは欲しいといったものを追加していってます。社内で紹介したところフィードバックをもらったので、それを踏まえてどうしていきたいか…

劣モジュラ最大化によるエントリの推薦をやってみた

背景 半年前から機械学習に関するよさそうなエントリを提示してくれるbot(ML君)を運用しています。 大量のtweetの中から関連するエントリを人手で探す手間は省けるようになったのですが、最近別の問題が起こっています。以下の画像はある日に提示されたエン…

能動学習で効率的に教師データを作るツールをGoで書いた

みなさん、教師データ作ってますか?! 機械学習のツールも多くなり、データがあれば簡単に機械学習で問題を解ける環境が整ってきました。しかし、データ作成は重要ながらも未だに大変な作業です。最近、私もいくつかのドメインで教師データを作る機会があった…

Go言語にさらに入門するために係り受け解析器を書いた話

今年からGo言語に入門していますが、もう少し複雑なものをものを書いてみたいと思ったので、係り受け解析器を書きました。その過程で工夫したこと、苦労したことをまとめます。作ったものはこちら。 一人で作っているプロジェクトですが、100行以下の細かめ…

実タスクで機械学習を導入するまでの壁とその壁の突破方法

社内で機械学習の案件があった際に、機械学習の経験者しか担当できないと後々の引き継ぎで問題が起こりがちです。これを防ぐために、機械学習に興味があり、これまで機械学習を経験したことがないエンジニアにも担当できる体制を整えられることが望ましいで…

タスクに合わせたトークナイザ、単語分割に関連したポエム

ポエムを適当に書きます。2本立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ 文書分類でneologdとmecabを比較した まとめ Sentencepieceの紹介記事を読んだ ニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記…

NLP2017の論文を読みました

NLP2017の論文を読んだので、面白かった論文を中心に読んだメモを残しておきます。もう一月ほど前になるので、大分昔な感じがしますが…。 参考リンク集 言語処理学会第23回年次大会(NLP2017) プログラム PDFの入手等はこちらから Accepted Papers, Demonstra…

不定期ML&NLP報#4

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 NIPS読み会 Kaggle Tok…

不定期ML&NLP報#3

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 NIPS2016 NL研 coling2…

不定期ML&NLP報#2

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。今回は医療品設計やセキュリティなど、自分があまり知らなかった分野での機械学習適用事例が多く、勉強になるものが多かったです。前回はこちら。 このエントリ忘れてるよというのがありま…

不定期ML&NLP報#1

先日、社内で定期的に行なわれているフロントエンド会にお邪魔してきました(podcastが配信されています)。jser.infoというサイトを参照しながら雑談していたのですが、最近のフロントエンドの動向を知るという目的にはこのサイトなかなかよさそうでした。 機…

自然言語処理の深層学習において転移学習はうまく行くのか?

このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EMNLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。 [1603.06111] How Transferable are Neural Networks in NLP…

実タスクで能動学習を試してみた

実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械…

Improving sentence compression by learning to predict gazeを読んだ

NAACL2016 shortのベストペーパー。雑に読んだ。 https://arxiv.org/pdf/1604.03357.pdf 要約の一タスクである文短縮のタスクに視線(gaze)を予測する補助タスクを組込むとよくなったよ、という内容 一種のmulti-task learning(多段の双方向LSTMでやる) CCG-s…

はてな社内の勉強会で構造学習について発表しました

先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。 今日からできる構造学習(主に構造化パーセプトロンについ…

Convolutional Neural Networks for Sentence Classificationを読んだ

仕事で研究しているときはもちろん論文を読むわけだけど、どういう論文読んでいるかが分かるとどういう研究をしようとしているか分かってしまうという問題(?)があり、学生の頃と比較するとほとんど書けていなかった*1。転職後、技術的な内容をブログなど通じ…

Stanford Shift-Reduce Parserの精度の再現

Stanford ParserはBerkeley Parserと並んで有名なParserの一つ。以前はPCFGのparserだけだったが、最近はShift-Reduceに基づいたものも出ている。 The Stanford NLP (Natural Language Processing) Group beam searchを使うとPCFGを使ったものよりちょっ早で…

Berkeley Parserの解析失敗について

最近、構文解析器をよく使っているんだけど、public availableな構文解析器の中で精度が高いBerkeley Parserを使っていた(Stanford ParserがF値で85%くらいで、Berkeley ParserはF値で89%くらい)。Javaでできているので、Clojureから触るには何かと便利。 た…

面白そうと思いつつ読めてない論文達

自分用メモ。今は読んでる場合じゃないのだけれど(誰か紹介して)、どっかにメモっとかないと忘れる論文。"かなり"重要そうなのをピックアップしてある。 Painless Unsupervised Learning with Features (pdf, presentation) Parsing Natural Scenes and Natu…

Phrase-Based Models

MT勉強会によるチュートリアル第二回。今日はid:mamorukさんによるPhrase-Based Models。MTの基本的なツール*1であるMosesとかでも使われている。Statistical Machine Translation作者: Philipp Koehn出版社/メーカー: Cambridge University Press発売日: 20…

言語処理学辞典勉強会第二回

自分用メモ。FSNLPでやったところもあったりしたが、忘れまくっている。デジタル言語処理学事典 〔CD‐ROM付〕作者: 言語処理学会出版社/メーカー: 共立出版発売日: 2010/06/30メディア: 単行本購入: 1人 クリック: 14回この商品を含むブログ (8件) を見る 格…

ANPI_NLPと普通の日記

ANPI_NLPlabのSNSにも書いたし、Twitterでも大分情報が流れているのでここを見ている人の大部分は知っていると思うけど、ANPI_NLPについて。東日本大震災が起きて、NLPの研究者やエンジニアにできることがあるのではないかということでANPI_NLPという活動が…

IBM Model 1のEMアルゴリズムのupdate式の導出

気分転換的にStatistical Machine Translationを読んだりしながらMTを勉強。自分用メモ。p90の(4.11)式と(4.14)式の導出だけ。EステップもMステップもアライメントに関して周辺化するところがややこしいのだが、和の一つ一つの要素に崩していけるのでそこを…

練習がてらC++でHMMのコードを書いた

いわゆるお勉強的なコードなので特に新しいところはないです。HMMをベースにしたモデルを作る必要が(たぶん)出てきそうなんですが、そういえばHMMの前向き後ろ向きアルゴリズムの付近とか実装したことねぇやべぇと思ったので書いてみました*1。系列の長さが1…

Stanford Pos-Taggerをサーバーで起動

Stanford Pos-Taggerを(なんとなく)使ってるんだけど、起動が遅い。どうにかならないの?と思ったらFAQに書いてあって、サーバーを立ち上げてからクライアントで接続しろとのことだったので、それの方法をメモ。まず、サーバーを起動。 cd /path/to/stanford-…

論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介

100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル 形態素解析、分かち書き ノンパラベイズ その他 クラスタリング 最適化 教師なし学習 今年の1月1日から…

合同研@NAIST

nlpjm2010 初参加かと思ったら去年も行っていたということに気がついた。今年のほうが知り合い増えているかなと思ったが、事前に知っている人は去年のほうが多かった気が(知ってる人はこない人が多かった。NAISTだから...じゃないよね?)。まあ、知り合い増や…

HMMのスケーリング係数

HMMを実装する上で考えなければならない問題点HMMにおけるパラメータ推定はフォワードバックワードによって効率的に計算される。しかし、実際に計算機上でこのアルゴリズムを動かそうとすると気を付けなければならないことがある。再帰式 の右辺のそれぞれの…

依存構文解析(MST parserとLIP)

前回の続きと今回の資料。係り受けの問題をちょっと違う見方で見てみる。 Graph-based Method Integer Linear Programming Method Span-based Method こっちは次回らしい(Eisnerアルゴリズム => この前岩立さんのチュートリアルがあった) Graph-based Method…

EMNLP読み会2010

告知していたように、研究室でEMNLP読み会を開催しました。おかげ様で読み手の人数が増えたので、二回に分けてやることになりそうです(第二回目は11月に)。ai-aさんとkodai-t、joseph-iが読み手で参加してくれました、ありがとうございます(自分も一個担当)…