2020-01-01から1年間の記事一覧

2020年の振り返り

2020年もお疲れ様でした。仕事は当然まだおさまっていない。 2020年以前 CREになった & データ基盤をやるようになった コロナとWFH 数理統計学の復習を始めた 2020年以前 2018年は砂場活動を結構頑張っていた時期だったらしい。 2019年は振り返りエントリが…

すうがくぶんか 統計検定1級対策講座 第八回

前回はこちら。 今回で最終回。尤度比検定の練習問題や線形回帰のパラメータの推定量について。尤度比検定から派生して興味が湧いたNPSの信頼区間推定についてがっつり書いてしまった。 多項分布のパラメータの尤度比検定 NPSと尤度比検定 NPSの信頼区間推定…

すうがくぶんか 統計検定1級対策講座 第七回

前回はこちら。 今回は検定論の話。話題がそもそも難しい & 自分の理解も不十分なところが結構あるので、間違っていることが結構あるかもしれない。色んな本を見ながら書いているので、表記も結構バラバラです。 全体像 定義 帰無仮説と対立仮説 検出力 一様…

すうがくぶんか 統計検定1級対策講座 第六回

前回はこちら。 今回は完備十分統計量を使ったUMVUEの構成法や検出力について。長かった(?)推定論の話も、今回で一段落ですね。 十分統計量の定義の復習 十分統計量の別の定義とFisher-Neymanの因子分解定理 十分統計量を用いた不偏推定量のRao-Blackwelliza…

Data Engineering StudyとCROSS Party online 2020に登壇しました

先週はデータ基盤やデータ整備のイベントで2件登壇してきました。どちらもオンライン登壇でした。 Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」 CROSS Party online 2020 データ整備人が語る!DXにも不可欠なデータ整備の姿 今後の予定…

すうがくぶんか 統計検定1級対策講座 第五回

前回はこちら。 今回は最尤推定量や推定量の一致性、十分統計量の話がメイン。 推定量のよさ: 一致性 一致性を示す上で便利な不等式グッズ 一致性を満たす推定量の例: 最尤推定量 最尤推定量のよさ: 不変性 十分統計量 フィッシャー情報量の復習 フィッシャ…

すうがくぶんか 統計検定1級対策講座 第四回

前回はこちら。 今回は不偏推定量について詳しく見ていきました。いつも以上に盛り上がった! 平均二乗誤差とそのバイアス・バリアンス分解 推定量の「よさ」について 真のパラメータについて何も分からない場合 パラメータについて多少知識がある場合 所感 …

母平均の区間推定を例にt分布を導入するモチベーションを整理

自分の勉強用メモです。統計の区間推定や検定でほぼ必ずお世話になる分布やt分布だけど、正規分布と比べると確率密度関数が覚えきれないくらい複雑。天下り的に分布やt分布を定義されても結構しんどい。現実的なモチベーションから必要な道具を作っていった…

すうがくぶんか 統計検定1級対策講座 第三回

前回はこちら。 確率変数の変数変換 前回は導出メインだったけど、今回は実際の問題を解きながら。 変数変換の公式自体は「なるほど」という感じだけど、実際の問題を解くときには変換後の変数の積分範囲をきちんと考える必要があって、そちらほうが難しい。…

すうがくぶんか 統計検定1級対策講座 第二回

前回はこちら。 モーメント母関数 前回は モーメント母関数の定義 モーメント母関数をk回微分してt=0を代入すると、k次モーメントになることの証明 を行なったのでした。今回は標準正規分布を例にして、実際にモーメント母関数を計算し、k次モーメントも計算…

すうがくぶんかの統計検定1級対策講座を受講してる

統計検定1級の資格がめっちゃ欲しいわけでもないし、試験自体コロナの影響で中止になったわけだけど、すうがくぶんかの講座の受講を始めた。 受講のモチベーション 受講の理由は一言でいうなら、自分の数学力の圧倒的な衰えに対する危機感から。前職は研究職…

オンラインでのプログラミング系の演習をGoogle Colab & Google Driveで行なう

去年に引き続き、東京都立大学の非常勤講師の依頼をid:mamorukさん(小町先生)からして頂いたので、今年も講義を担当してきました。講義の内容としては Mackerelでのロール内異常検知を題材に、機械学習をプロダクトに取り込んでいく際、どういった視点が必要…

Twitter検索結果の語義曖昧性を解消するsaba_disambiguatorのアップデートを行ないました: その2

タイトルだけ見ると何のこっちゃという感じですが、前提としてはこんな感じです。 Mackerelチームではサービスに関するtweetを定期的に観測している mackerelというクエリは鯖に関するものとmackerel.ioに関するものが混じるので、そのまま流していると困る …

SQLレクチャー会をチーム内でやっている話

ここ最近、チーム内でSQLのレクチャー会をやっています。世間的にはプランナーの人や営業の方がSQLを書くのもそれほど珍しいことではなくなってきていると思いますが、チーム内ではまだまだ一般的ではないです。なんとかしていきたい。 SQLレクチャー会の目…

データ分析を元にFAQサイトを継続的に改善する

FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を…

Cloud Functionsを使って、BigQueryのクエリ結果をSlackに定期的に投稿する

N番煎じネタです。Google Apps Scriptでやる例をよく見る気がするけど、Cloud Functionsを使ってやりたかったのじゃ。 以下のような設定をyamlに書いておくと、クエリ結果をテンプレートに従ってテキストに展開して、定期的にSlackに投稿(cron likeな設定が…

BigQueryのテーブルのメタデータをCloud Data Catalogで管理する

自分が使いたいと思ったBigQuery上のリソース(tableやview)、内容を事前に完全に把握できている、ということは結構少ないのではないかと思います。そういったときに手助けをしてくれるのがメタデータです。BigQueryのリソースに対するメタデータを、Cloud Da…

カスタマーサクセスのためのデータ整備人の活動記録というタイトルでオンライン登壇しました

第3回 データアーキテクト(データ整備人)を”前向きに”考える会という勉強会で、CREとしてデータ基盤を整備する活動についてオンライン登壇しました。 カスタマーサクセスのためのデータ整備人の活動記録 from syou6162 イベント登壇はまあまあやってきたは…

データウェアハウスやデータマートのviewが壊れていないかvalidationする

データ基盤の小ネタです。 データ基盤におけるview データ基盤でデータスキャンがそれほど大きくない場合、積極的にviewを使っています(BigQueryを利用しています)。日時のバッチでテーブルとして掃き出してもよいですが、バッチを回さずにクエリをガシガシ…

WFHの感想

特に結論はないです。今の時期にどういうことを感じていたかをテキストで残しておくと、10年後とかに見返したときに振り替えれるかなぁと思って。 よかった系 自宅環境を整備しないといけなくなったので、少しだけ環境が整理された スタンディングデスクは買…

「データ活用のための数理モデリング入門」を読みました

著者の一人からご恵贈いただきましたので、紹介してみたいと思います。 機械学習を中心としたデータ活用の敷居は下がってきているが... 10年ほど前と比べると、データ活用、特に機械学習を「使う」ハードルは以下のように下がってきています。 sklearnやPyTo…

最近の砂場活動その14: GoogleAnalytis For Firebaseのデータを使ってImplicit-feedbackな推薦システムを構築する

ここ半年ほどデータ分析やりまくっているのはいいんだけど、機械学習全然やってない 仕事に不満があるわけでは全然ないけど、人間は欲張りなのであれこれやりたい FirebaseのBigQuery Exportである程度データが溜まりつつある ということで、タイトルの通り…

最近買って or 使ってよかったもの

とりとめもなく書きます。 MacBook Pro iPad mini Fit Boxing スタンディングデスク デロンギ BigQuery MacBook Pro 自分の金ではなく会社用のPC。これまでは13インチを使ってたけど、32GBの広大なメモリを求めて16インチのものを買った。画面が広くなると、…

MackerelチームのCustomer Reliability Engineerになりました

2020/02からMackerelチームのCRE (Customer Reliability Engineer) になりました。もうちょっと早くエントリを書く予定でしたが、職種が変わった & 期初であれこれイベントが多いということで遅くなってしまった...。 CREになろうと思ったきっかけ 一番大き…

データに関連するいくつかの見方と私

ポエムです。元々書きたかったエントリがあったのですが、長くなってしまったのでパーツ毎に切り出します。 自分のやりたい方向性やキャリア的なものを考えると、大体その中心には「データ」がいます。データに対してどう向き合い方はいくつかパターンがある…