「データ活用のための数理モデリング入門」を読みました

著者の一人からご恵贈いただきましたので、紹介してみたいと思います。

機械学習を中心としたデータ活用の敷居は下がってきているが...

10年ほど前と比べると、データ活用、特に機械学習を「使う」ハードルは以下のように下がってきています。

  • sklearnやPyTorchなどのライブラリを使えば、ある程度型にはまった問題は簡単に扱うことができるようになりました
  • 画像認識や自然言語処理の分野でも事前学習済みのモデルが配布されるようになりました
  • Amazon SageMakerやCloud AutoML など、コードを書かずとも機械学習のモデルが学習され、推論もできるマネージドサービスが普及し始めています

しかしながら、何かデータを入れれば何か結果を返してくれるブラックボックスとして使われてしまっている事例も残念ながら時々見かけます。どういった問題を解くかは、道具をどう「使う」かよりも何倍も重要です。

もちろん「使う」だけでなく「運用する」ための技術(MLOps)的な話題はありますが、本書のスコープ外の話題ではあるので、このエントリでは取り扱いません。

問題をどう数理的に捉えるか: 数理モデリング

「使う」のは簡単になってきた一方、課題となっている問題をどう数理的に捉えるか、というのは昔も今も重要なままですし、それほど簡単にはなっていないと思います。慣れない人からすると、数理的に捉える、というのはいかにも難しい響きですが、解決したい問題や解明したい現象がどういったプロセスを経て起こっているかを記述する道具、と私は捉えています。

今日のアイスクリームの売上はおおよそ今日の気温に比例する、というめちゃくちゃシンプルな線形回帰も立派な数理モデリングです。もちろん、現実はそれほど簡単ではないため、もっと複数の項目を考慮したモデルになる思いますが、回帰分析という数理モデリングとしては同じです。

現実の問題は、回帰分析だけで解決できるわけではもちろんありません。時には自分で問題設定を考え、数式を組み立てモデリングする必要に迫られるときもあるかもしれません。単にツールとしてライブラリを「使う」だけではなく、問題に合わせて自分で問題を設計できるところが数理モデリングの面白さの一つです。世の中の問題は似ているようで、それぞれ個性があります。個性にも色々あって

  • toB向けとtoC向けで扱うデータ量や分布、性質が異なる
  • 定常的なものではなく、時々刻々と変化していく
  • 単一の要素だけでは決まらず周囲の状況のよって予測結果が大きく変わる
  • 自社独自のXXXのデータと組み合わせるともっと深い知識が得られないか
  • 予測結果がよさそうなものばかりを推薦すると同じカテゴリのものばかりになってしまう。色んなカテゴリのものも含めてユーザーが飽きないようにもしたい

などが例えばあるでしょう。こういった自社のデータやビジネスに合ったものを提供したい場合に数理モデリングが必要になってきます。

過去の類似したアプローチを学ぼう

こうしたモデリングをゼロから自分でできるという人はそれほどいないでしょう*1。そういったときに役に立つのが過去の類似したアプローチです。個性溢れる問題とはいえ、似たような問題は過去に研究されていることが多いです。本書は様々な分野での数理モデリングのアプローチを紹介してくれる本です。

データ活用のための数理モデリング入門

データ活用のための数理モデリング入門

購買予測 / 離脱予測 / 資源配分 / オンライン広告 / 社会ネットワークなど様々な分野の問題において、どういった数理モデリングのアプローチが取られているかが解説されています。この本で書かれている数理モデルだけで問題が解決することは少ないかもしれませんが、数理モデリングのプロでもこういった基礎的なモデルをベースラインとして採用しつつ、少しずつ現象に合う / 説明できるモデルに洗練させていくものです。

データがなければ数値モデリングは片手落ちになってしまうことも多いですが、一方でデータも正しく活用されなければその価値を十分に発揮することは難しいです。自社に眠るデータの価値を存分に発揮させたい、という方、本書を手に取られてみてはいかがでしょうか。

関連

*1:いや、できる人もそれなりにいることは知っていますが、普通の人はそうではないでしょう...