自然言語処理

Pretraining Sentiment Classifiers with Unlabeled Dialog Dataを読んだ

論文読み会をやるので久しぶりに論文を読みました。久しぶりじゃダメなんだけど...。今年のACL2018でYahoo! JAPAN Researchの方が発表された内容です。 pretrainingを教師なしの対話データを使って精度向上させる Y!のリアルタイム検索でも使われているっぽ…

NLP(言語処理学会)2018で面白かった論文メモ

あれこれ雑にメモっていて、きちんとしてから外に出そうと思っていましたが、下書きのままお蔵入りしそうだった。出せるところで出す...!すでに開催から一ヶ月も経ってしまった。 A1-1: ニューラルヘッドライン生成における誤生成問題の改善 B2-4: ニューラ…

Hacker Tackleで「はてなにおける機械学習の取り組み」について登壇しました

LINE福岡で行なわれたHacker Tackleにて登壇してきました。 発表内容は(1)機械学習を使ったサービス開発の難しい点について整理し(2)その難しさを乗り越えていくためにはてながどのような取り組みを行なっているかについてでした。一口に機械学習を使ったサ…

Rettyにおける推薦文からの見出し抽出の論文を読んだ

OR学会の自然言語処理と数理モデルの特集で、はてなと同じくC向けのサービスを運営しているRettyさんの論文が出ていたので、週末に論文を読みました。方法論としてはシンプルだけど、サービスへの貢献もなかなかありそうだなーと思いながら眺めました。 CiNi…

AWS Lambda上で鯖(Mackerel)の曖昧性問題を機械学習で解決しよう

この記事は、はてなエンジニア Advent Calendar 2017の1日目の記事です。 サービスに関連する言及のみを観測したい こんにちは。Mackerelチームでアプリケーションエンジニアをやっているid:syou6162です。サービスを運営していると、サービスに関するtweet…

go-active-learningを改良している話(Slackからのアノテーションをサポートなど)

以下の話の続きです、地味に続いています。自分が普段使うツールを改良していくのは楽しいですね。 自分で使ってみて、これは欲しいといったものを追加していってます。社内で紹介したところフィードバックをもらったので、それを踏まえてどうしていきたいか…

劣モジュラ最大化によるエントリの推薦をやってみた

背景 半年前から機械学習に関するよさそうなエントリを提示してくれるbot(ML君)を運用しています。 大量のtweetの中から関連するエントリを人手で探す手間は省けるようになったのですが、最近別の問題が起こっています。以下の画像はある日に提示されたエン…

能動学習で効率的に教師データを作るツールをGoで書いた

みなさん、教師データ作ってますか?! 機械学習のツールも多くなり、データがあれば簡単に機械学習で問題を解ける環境が整ってきました。しかし、データ作成は重要ながらも未だに大変な作業です。最近、私もいくつかのドメインで教師データを作る機会があった…

Go言語にさらに入門するために係り受け解析器を書いた話

今年からGo言語に入門していますが、もう少し複雑なものをものを書いてみたいと思ったので、係り受け解析器を書きました。その過程で工夫したこと、苦労したことをまとめます。作ったものはこちら。 一人で作っているプロジェクトですが、100行以下の細かめ…

実タスクで機械学習を導入するまでの壁とその壁の突破方法

社内で機械学習の案件があった際に、機械学習の経験者しか担当できないと後々の引き継ぎで問題が起こりがちです。これを防ぐために、機械学習に興味があり、これまで機械学習を経験したことがないエンジニアにも担当できる体制を整えられることが望ましいで…

タスクに合わせたトークナイザ、単語分割に関連したポエム

ポエムを適当に書きます。2本立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ 文書分類でneologdとmecabを比較した まとめ Sentencepieceの紹介記事を読んだ ニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記…

NLP2017の論文を読みました

NLP2017の論文を読んだので、面白かった論文を中心に読んだメモを残しておきます。もう一月ほど前になるので、大分昔な感じがしますが…。 参考リンク集 言語処理学会第23回年次大会(NLP2017) プログラム PDFの入手等はこちらから Accepted Papers, Demonstra…

不定期ML&NLP報#4

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 NIPS読み会 Kaggle Tok…

不定期ML&NLP報#3

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 NIPS2016 NL研 coling2…

不定期ML&NLP報#2

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。今回は医療品設計やセキュリティなど、自分があまり知らなかった分野での機械学習適用事例が多く、勉強になるものが多かったです。前回はこちら。 このエントリ忘れてるよというのがありま…

不定期ML&NLP報#1

先日、社内で定期的に行なわれているフロントエンド会にお邪魔してきました(podcastが配信されています)。jser.infoというサイトを参照しながら雑談していたのですが、最近のフロントエンドの動向を知るという目的にはこのサイトなかなかよさそうでした。 機…

自然言語処理の深層学習において転移学習はうまく行くのか?

このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EMNLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。 [1603.06111] How Transferable are Neural Networks in NLP…

実タスクで能動学習を試してみた

実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械…

Improving sentence compression by learning to predict gazeを読んだ

NAACL2016 shortのベストペーパー。雑に読んだ。 https://arxiv.org/pdf/1604.03357.pdf 要約の一タスクである文短縮のタスクに視線(gaze)を予測する補助タスクを組込むとよくなったよ、という内容 一種のmulti-task learning(多段の双方向LSTMでやる) CCG-s…

はてな社内の勉強会で構造学習について発表しました

先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。 今日からできる構造学習(主に構造化パーセプトロンについ…

Convolutional Neural Networks for Sentence Classificationを読んだ

仕事で研究しているときはもちろん論文を読むわけだけど、どういう論文読んでいるかが分かるとどういう研究をしようとしているか分かってしまうという問題(?)があり、学生の頃と比較するとほとんど書けていなかった*1。転職後、技術的な内容をブログなど通じ…

Stanford Shift-Reduce Parserの精度の再現

Stanford ParserはBerkeley Parserと並んで有名なParserの一つ。以前はPCFGのparserだけだったが、最近はShift-Reduceに基づいたものも出ている。 The Stanford NLP (Natural Language Processing) Group beam searchを使うとPCFGを使ったものよりちょっ早で…

Berkeley Parserの解析失敗について

最近、構文解析器をよく使っているんだけど、public availableな構文解析器の中で精度が高いBerkeley Parserを使っていた(Stanford ParserがF値で85%くらいで、Berkeley ParserはF値で89%くらい)。Javaでできているので、Clojureから触るには何かと便利。 た…

面白そうと思いつつ読めてない論文達

自分用メモ。今は読んでる場合じゃないのだけれど(誰か紹介して)、どっかにメモっとかないと忘れる論文。"かなり"重要そうなのをピックアップしてある。 Painless Unsupervised Learning with Features (pdf, presentation) Parsing Natural Scenes and Natu…

Phrase-Based Models

MT勉強会によるチュートリアル第二回。今日はid:mamorukさんによるPhrase-Based Models。MTの基本的なツール*1であるMosesとかでも使われている。Statistical Machine Translation作者: Philipp Koehn出版社/メーカー: Cambridge University Press発売日: 20…

言語処理学辞典勉強会第二回

自分用メモ。FSNLPでやったところもあったりしたが、忘れまくっている。デジタル言語処理学事典 〔CD‐ROM付〕作者: 言語処理学会出版社/メーカー: 共立出版発売日: 2010/06/30メディア: 単行本購入: 1人 クリック: 14回この商品を含むブログ (8件) を見る 格…

ANPI_NLPと普通の日記

ANPI_NLPlabのSNSにも書いたし、Twitterでも大分情報が流れているのでここを見ている人の大部分は知っていると思うけど、ANPI_NLPについて。東日本大震災が起きて、NLPの研究者やエンジニアにできることがあるのではないかということでANPI_NLPという活動が…

IBM Model 1のEMアルゴリズムのupdate式の導出

気分転換的にStatistical Machine Translationを読んだりしながらMTを勉強。自分用メモ。p90の(4.11)式と(4.14)式の導出だけ。EステップもMステップもアライメントに関して周辺化するところがややこしいのだが、和の一つ一つの要素に崩していけるのでそこを…

練習がてらC++でHMMのコードを書いた

いわゆるお勉強的なコードなので特に新しいところはないです。HMMをベースにしたモデルを作る必要が(たぶん)出てきそうなんですが、そういえばHMMの前向き後ろ向きアルゴリズムの付近とか実装したことねぇやべぇと思ったので書いてみました*1。系列の長さが1…

Stanford Pos-Taggerをサーバーで起動

Stanford Pos-Taggerを(なんとなく)使ってるんだけど、起動が遅い。どうにかならないの?と思ったらFAQに書いてあって、サーバーを立ち上げてからクライアントで接続しろとのことだったので、それの方法をメモ。まず、サーバーを起動。 cd /path/to/stanford-…