バイオと自然言語処理&機械学習

  • 同じ遺伝子でも見つかった経緯とか、分野によって違う名前がついていたりする
    • そういうものに対して同じ遺伝子かどうかを判断するようなものが必要だったりする
  • バイオ自然言語処理における最も基礎的なタスクの1つに、固有表現抽出(Named Entity Extraction)がある
  • 一般に1つの固有表現は複数の単語から構成されるため、そのままでは、SVMなどの分類学習手法を適用できない

ここ数年は、急激な分子生物学分野の発展とともに研究分野の細分化が進み、分野ごとに辺らな専門用語が出現するが、それらの専門用語が分野間で非共有になる傾向がある。

自然言語処理の研究では、すでに1990年代より、機械学習を用いた手法が、さまざまなタスクにおいて多く用いられている。機械学習を用いる際の利点には、対象となるデータの特徴が変化しても、すぐに対応できる保守性の良さや、専門知識を持った人が細かなチューニングを行なわなくても、ある程度の制度が自動で得られること点などがある。

単語などなど

単語 意味
シノニム 同義語
シーソラス 語彙集
オントロジ 概念・用語の明示的な仕様
(遺伝子/タンパク質配列の)アノテーション 生体内でどのような昨日に関与しているか注釈を付けること