2020-01-01から1年間の記事一覧
2020年もお疲れ様でした。仕事は当然まだおさまっていない。 2020年以前 CREになった & データ基盤をやるようになった コロナとWFH 数理統計学の復習を始めた 2020年以前 2018年は砂場活動を結構頑張っていた時期だったらしい。 2019年は振り返りエントリが…
前回はこちら。 今回で最終回。尤度比検定の練習問題や線形回帰のパラメータの推定量について。尤度比検定から派生して興味が湧いたNPSの信頼区間推定についてがっつり書いてしまった。 多項分布のパラメータの尤度比検定 NPSと尤度比検定 NPSの信頼区間推定…
前回はこちら。 今回は検定論の話。話題がそもそも難しい & 自分の理解も不十分なところが結構あるので、間違っていることが結構あるかもしれない。色んな本を見ながら書いているので、表記も結構バラバラです。 全体像 定義 帰無仮説と対立仮説 検出力 一様…
前回はこちら。 今回は完備十分統計量を使ったUMVUEの構成法や検出力について。長かった(?)推定論の話も、今回で一段落ですね。 十分統計量の定義の復習 十分統計量の別の定義とFisher-Neymanの因子分解定理 十分統計量を用いた不偏推定量のRao-Blackwelliza…
先週はデータ基盤やデータ整備のイベントで2件登壇してきました。どちらもオンライン登壇でした。 Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」 CROSS Party online 2020 データ整備人が語る!DXにも不可欠なデータ整備の姿 今後の予定…
前回はこちら。 今回は最尤推定量や推定量の一致性、十分統計量の話がメイン。 推定量のよさ: 一致性 一致性を示す上で便利な不等式グッズ 一致性を満たす推定量の例: 最尤推定量 最尤推定量のよさ: 不変性 十分統計量 フィッシャー情報量の復習 フィッシャ…
前回はこちら。 今回は不偏推定量について詳しく見ていきました。いつも以上に盛り上がった! 平均二乗誤差とそのバイアス・バリアンス分解 推定量の「よさ」について 真のパラメータについて何も分からない場合 パラメータについて多少知識がある場合 所感 …
自分の勉強用メモです。統計の区間推定や検定でほぼ必ずお世話になる分布やt分布だけど、正規分布と比べると確率密度関数が覚えきれないくらい複雑。天下り的に分布やt分布を定義されても結構しんどい。現実的なモチベーションから必要な道具を作っていった…
前回はこちら。 確率変数の変数変換 前回は導出メインだったけど、今回は実際の問題を解きながら。 変数変換の公式自体は「なるほど」という感じだけど、実際の問題を解くときには変換後の変数の積分範囲をきちんと考える必要があって、そちらほうが難しい。…
前回はこちら。 モーメント母関数 前回は モーメント母関数の定義 モーメント母関数をk回微分してt=0を代入すると、k次モーメントになることの証明 を行なったのでした。今回は標準正規分布を例にして、実際にモーメント母関数を計算し、k次モーメントも計算…
統計検定1級の資格がめっちゃ欲しいわけでもないし、試験自体コロナの影響で中止になったわけだけど、すうがくぶんかの講座の受講を始めた。 受講のモチベーション 受講の理由は一言でいうなら、自分の数学力の圧倒的な衰えに対する危機感から。前職は研究職…
去年に引き続き、東京都立大学の非常勤講師の依頼をid:mamorukさん(小町先生)からして頂いたので、今年も講義を担当してきました。講義の内容としては Mackerelでのロール内異常検知を題材に、機械学習をプロダクトに取り込んでいく際、どういった視点が必要…
タイトルだけ見ると何のこっちゃという感じですが、前提としてはこんな感じです。 Mackerelチームではサービスに関するtweetを定期的に観測している mackerelというクエリは鯖に関するものとmackerel.ioに関するものが混じるので、そのまま流していると困る …
ここ最近、チーム内でSQLのレクチャー会をやっています。世間的にはプランナーの人や営業の方がSQLを書くのもそれほど珍しいことではなくなってきていると思いますが、チーム内ではまだまだ一般的ではないです。なんとかしていきたい。 SQLレクチャー会の目…
FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を…
N番煎じネタです。Google Apps Scriptでやる例をよく見る気がするけど、Cloud Functionsを使ってやりたかったのじゃ。 以下のような設定をyamlに書いておくと、クエリ結果をテンプレートに従ってテキストに展開して、定期的にSlackに投稿(cron likeな設定が…
自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Da…
第3回 データアーキテクト(データ整備人)を”前向きに”考える会という勉強会で、CREとしてデータ基盤を整備する活動についてオンライン登壇しました。 カスタマーサクセスのためのデータ整備人の活動記録 from syou6162 イベント登壇はまあまあやってきたは…
データ基盤の小ネタです。 データ基盤におけるview データ基盤でデータスキャンがそれほど大きくない場合、積極的にviewを使っています(BigQueryを利用しています)。日時のバッチでテーブルとして掃き出してもよいですが、バッチを回さずにクエリをガシガシ…
特に結論はないです。今の時期にどういうことを感じていたかをテキストで残しておくと、10年後とかに見返したときに振り替えれるかなぁと思って。 よかった系 自宅環境を整備しないといけなくなったので、少しだけ環境が整理された スタンディングデスクは買…
著者の一人からご恵贈いただきましたので、紹介してみたいと思います。 機械学習を中心としたデータ活用の敷居は下がってきているが... 10年ほど前と比べると、データ活用、特に機械学習を「使う」ハードルは以下のように下がってきています。 sklearnやPyTo…
ここ半年ほどデータ分析やりまくっているのはいいんだけど、機械学習全然やってない 仕事に不満があるわけでは全然ないけど、人間は欲張りなのであれこれやりたい FirebaseのBigQuery Exportである程度データが溜まりつつある ということで、タイトルの通り…
とりとめもなく書きます。 MacBook Pro iPad mini Fit Boxing スタンディングデスク デロンギ BigQuery MacBook Pro 自分の金ではなく会社用のPC。これまでは13インチを使ってたけど、32GBの広大なメモリを求めて16インチのものを買った。画面が広くなると、…
2020/02からMackerelチームのCRE (Customer Reliability Engineer) になりました。もうちょっと早くエントリを書く予定でしたが、職種が変わった & 期初であれこれイベントが多いということで遅くなってしまった...。 CREになろうと思ったきっかけ 一番大き…
ポエムです。元々書きたかったエントリがあったのですが、長くなってしまったのでパーツ毎に切り出します。 自分のやりたい方向性やキャリア的なものを考えると、大体その中心には「データ」がいます。データに対してどう向き合い方はいくつかパターンがある…