最近の砂場活動その18: GKEの設定をTerraformで行なう

前提 機械学習を使った情報推薦をGKE上で行なっている 最近の砂場活動その14: GoogleAnalytis For Firebaseのデータを使ってImplicit-feedbackな推薦システムを構築する - yasuhisa's blog えいやっで作ったので、GKEはgcloudコマンドで作った 当時どんなコ…

最近の砂場活動その17: CloudWatch Eventsから直接AWS Batchのジョブをキックする

AWS

前置き 機械学習のモデルの定期的な再学習、CloudWatch Eventsを使うと便利です Cron的なスケジュール管理ができる 機械学習のモデルの学習はAWS Batchで行なっていた(今だとSageMakerな人も多いのかもしれない) しかし、以前はCloudWatch Eventsから直接AWS…

最近の砂場活動その16: 機密データをパラメータストアに保存して、AWS Batch & ECS(ecspresso)上のアプリから参照する

AWS

アプリケーションのコード内に機密情報(例: DBのユーザー名やパスワード)を直接ハードコードしないのは当然として、環境変数経由で渡すことは多いと思います。CloudFormationのようなInfrastructure as Code(IaC)をしている場合、環境毎の設定をyamlなどで書…

能動学習のツールgo-active-learningのリポジトリをアーカイブしました & アノテーションに関するポエム

能動学習のコマンドラインツールのリポジトリをアーカイブしたついでに、アノテーションに関するポエムを書きました。 背景 アーカイブの理由 ドッグフーディングする機会が減った 複数に散らばったリポジトリをモノレポにしたかった 脱線ポエム: アノテーシ…

Apple Watch Series 6を買った

Apple WatchのSeries 6を買いました。Series 1を持ってたと思うので、かなり久しぶりのApple Watchです。 最新 Apple Watch SE(GPSモデル)- 40mmスペースグレイアルミニウムケースとブラックスポーツバンド発売日: 2020/09/18メディア: エレクトロニクス 動…

統計学勉強会でNPSの信頼区間について発表しました

以前ブログにも書いたNPSの信頼区間を題材に、統計学勉強会で発表しました(します)。資料はこちら。 自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会) from syou6162 3/19に最終出社したばかりなので発表の時期としては微妙…

最近の砂場活動その15: CI/CDのパイプラインを整備する

最近、新しいPCをセットアップしていたけど、PCのセットアップを完了しないと趣味サイトのdeployすらできないことに気付いた。しばらくdeployしていないと、久しぶりにdeployしたときに大抵事故るし、小まめにやることでdeployの心理的障壁を下げていきたい…

この作業をいつやっていたか、その日は何の作業をやっていたかをesa.ioで分かりやすくするスクリプトを書いた

今日やった作業のログをesa.ioの記事に残すようにしていますが、「この作業はいつやっていたんだ...?」を知りたくなるときがあります。また、その日に作業していた記事一覧も分かると、その日に何をやっていたかがざっくりと把握しやすくなります。具体的に…

コロナ禍での転職活動(データエンジニア)についてのメモ

Twitterでは先に言っていましたが、現職のはてなを3月末で退職します。3/19が最終出社日でした。はてなでの思い出はこちらに書きました。 そのため、転職活動をしたわけですが、コロナ禍での転職活動は平常時と異なる部分も結構ありました。また、データエン…

esa.ioのカテゴリとタイトル名の治安を守るvalidatorを作った

esa.ioが気にいっていて、あれこれ調査していったことなどを書き足しています。記事の数も数百を越えてきました。この辺までくると、自分一人で書いているとはいえ、意識して使わないと色々不便なところが出てきます。例えばこういうやつ。 カテゴリを適切に…

Google Calendarの予定一覧を今日の日報に流し込む

GAS

日報を書くとき、カレンダーの今日の予定一覧を見ながら書くことが多いと思います。しかし、カレンダーの予定を毎回日報にコピペするのは面倒。日報に最初から予定の一覧が流し込まれていれば、もっと楽をできる! ということでやってみました。私の場合、esa…

Google Cloud Professional Data Engineer Certifiedに合格した

GCP

2021/02/23に受験しまして、合格しました。やったー。 前提: 受験前の私の状態 なぜ受験したか 試験のための準備 データエンジニアリングで頻出の話題をカバーする 個別コンポーネントの知識を取り込んでいく 権限 / セキュリティ / 監査回り 練習問題をひた…

「今日から始めるデータ活用」というタイトルでオープンセミナー岡山に登壇します

登壇は明日ですが、スライドと発表に至った経緯や発表内容決めるまでに考えたことをまとめておきます。 オープンセミナー岡山 これから始めるデータ活用 from syou6162 発表タイトルに至った経緯 直接の経緯はオープンセミナー岡山の実行委員長であるid:a-kn…

開発効率を計測するデータ基盤の管理にDataformを使ってみた

Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。 使ってみようとした背景 Dataformについて 試してみてどうだったか よかった まだまだこれからっぽいところ & 気になり 参考 使ってみようとした背景 今週、社内の開発合宿に参加…

はてなで働き始めてからほぼ5年になるので振り返ってみる

そろそろ前職を退職してから、はてなで働き始めて5年(!)が経とうとしている。5年も働いていると、昔何をやっていたか、その当時どういう気持ちで働いていたかを忘れてしまう。備忘録っぽく書き残しておこう。ポエムです、長いです、大体自分向けに書いてる。…

esa.ioに分報っぽく投稿するアプリをReactとFirebaseで作った

こういう風に投稿すると(左)、esa.ioにこういう感じ(右)で投稿される分報風のアプリを自分用に年末年始に作りました。 作った動機 使った要素技術 Firebase Authentication Firebase Hosting + React Firebase Cloud Functions デプロイ自動化 所感 作った動…

2020年の振り返り

2020年もお疲れ様でした。仕事は当然まだおさまっていない。 2020年以前 CREになった & データ基盤をやるようになった コロナとWFH 数理統計学の復習を始めた 2020年以前 2018年は砂場活動を結構頑張っていた時期だったらしい。 2019年は振り返りエントリが…

すうがくぶんか 統計検定1級対策講座 第八回

前回はこちら。 今回で最終回。尤度比検定の練習問題や線形回帰のパラメータの推定量について。尤度比検定から派生して興味が湧いたNPSの信頼区間推定についてがっつり書いてしまった。 多項分布のパラメータの尤度比検定 NPSと尤度比検定 NPSの信頼区間推定…

すうがくぶんか 統計検定1級対策講座 第七回

前回はこちら。 今回は検定論の話。話題がそもそも難しい & 自分の理解も不十分なところが結構あるので、間違っていることが結構あるかもしれない。色んな本を見ながら書いているので、表記も結構バラバラです。 全体像 定義 帰無仮説と対立仮説 検出力 一様…

すうがくぶんか 統計検定1級対策講座 第六回

前回はこちら。 今回は完備十分統計量を使ったUMVUEの構成法や検出力について。長かった(?)推定論の話も、今回で一段落ですね。 十分統計量の定義の復習 十分統計量の別の定義とFisher-Neymanの因子分解定理 十分統計量を用いた不偏推定量のRao-Blackwelliza…

Data Engineering StudyとCROSS Party online 2020に登壇しました

先週はデータ基盤やデータ整備のイベントで2件登壇してきました。どちらもオンライン登壇でした。 Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」 CROSS Party online 2020 データ整備人が語る!DXにも不可欠なデータ整備の姿 今後の予定…

すうがくぶんか 統計検定1級対策講座 第五回

前回はこちら。 今回は最尤推定量や推定量の一致性、十分統計量の話がメイン。 推定量のよさ: 一致性 一致性を示す上で便利な不等式グッズ 一致性を満たす推定量の例: 最尤推定量 最尤推定量のよさ: 不変性 十分統計量 フィッシャー情報量の復習 フィッシャ…

すうがくぶんか 統計検定1級対策講座 第四回

前回はこちら。 今回は不偏推定量について詳しく見ていきました。いつも以上に盛り上がった! 平均二乗誤差とそのバイアス・バリアンス分解 推定量の「よさ」について 真のパラメータについて何も分からない場合 パラメータについて多少知識がある場合 所感 …

母平均の区間推定を例にt分布を導入するモチベーションを整理

自分の勉強用メモです。統計の区間推定や検定でほぼ必ずお世話になる分布やt分布だけど、正規分布と比べると確率密度関数が覚えきれないくらい複雑。天下り的に分布やt分布を定義されても結構しんどい。現実的なモチベーションから必要な道具を作っていった…

すうがくぶんか 統計検定1級対策講座 第三回

前回はこちら。 確率変数の変数変換 前回は導出メインだったけど、今回は実際の問題を解きながら。 変数変換の公式自体は「なるほど」という感じだけど、実際の問題を解くときには変換後の変数の積分範囲をきちんと考える必要があって、そちらほうが難しい。…

すうがくぶんか 統計検定1級対策講座 第二回

前回はこちら。 モーメント母関数 前回は モーメント母関数の定義 モーメント母関数をk回微分してt=0を代入すると、k次モーメントになることの証明 を行なったのでした。今回は標準正規分布を例にして、実際にモーメント母関数を計算し、k次モーメントも計算…

すうがくぶんかの統計検定1級対策講座を受講してる

統計検定1級の資格がめっちゃ欲しいわけでもないし、試験自体コロナの影響で中止になったわけだけど、すうがくぶんかの講座の受講を始めた。 受講のモチベーション 受講の理由は一言でいうなら、自分の数学力の圧倒的な衰えに対する危機感から。前職は研究職…

オンラインでのプログラミング系の演習をGoogle Colab & Google Driveで行なう

去年に引き続き、東京都立大学の非常勤講師の依頼をid:mamorukさん(小町先生)からして頂いたので、今年も講義を担当してきました。講義の内容としては Mackerelでのロール内異常検知を題材に、機械学習をプロダクトに取り込んでいく際、どういった視点が必要…

Twitter検索結果の語義曖昧性を解消するsaba_disambiguatorのアップデートを行ないました: その2

タイトルだけ見ると何のこっちゃという感じですが、前提としてはこんな感じです。 Mackerelチームではサービスに関するtweetを定期的に観測している mackerelというクエリは鯖に関するものとmackerel.ioに関するものが混じるので、そのまま流していると困る …

SQLレクチャー会をチーム内でやっている話

ここ最近、チーム内でSQLのレクチャー会をやっています。世間的にはプランナーの人や営業の方がSQLを書くのもそれほど珍しいことではなくなってきていると思いますが、チーム内ではまだまだ一般的ではないです。なんとかしていきたい。 SQLレクチャー会の目…