はじめに
これが2022年100本目のエントリみたい!💯🙌 nikkieです。
12/15(木)にみんなのPython勉強会が渋谷とオンライン(Zoom)でハイブリッド開催されました。
2つのトークをレポートします。
目次
2022師走tapy、これまでのレポート
[ハイブリッド開催]みんなのPython勉強会#88 - connpass
やっとむさんによる「手軽なpytestでテストを活用しよう!」のレポートはこちら
スタッフ視点でのハイブリッド開催レポートはこちらです。
新卒2年目がデータ分析APIにチャレンジした話
ヒカリエ11Fで受付をしながらZoomに入って聞いていました。
レポートするにあたり別途スライドも確認しています。
クラスタリングのWeb APIを開発した中での学びの共有トークでした👏
データ同士で距離が算出できるように前処理が重要になってきますよね〜。
AWS Lambda周りの話も参考になります!
会社紹介・開発背景(slide=4,6)
スカラさんはPyCon JP 2022のスポンサーブースでもお話を聞いていて、めっちゃ興味深かったんですよ!
スカラさんブース! #pyconjp
— nikkie にっきー 🎤10/1 XP祭り 10/14-15 PyCon JP (@ftnext) 2022年10月14日
社会課題解決のプロジェクトのお話がめっちゃ興味深かったです!
PoCで想定と違うが分かってからうまくピボットして、三方以上よし!なエコシステムを作り上げられてる! pic.twitter.com/tpOR8du5Ko
今回、Persaというサービス(ペルソナ可視化・分析)向けに2つのAPI(クラスタリング、テキストマイニング)を開発したというお話でした。
BUSINESS-ALLIANCE社はスカラさんオフィス内にあるらしく1、社内ベンチャーって感じなんですかね
AWSの構成・AWS SAMで開発(slide=7,9)
バックエンドはAPI Gateway + AWS Lambdaという構成。
SAMを使うとローカルでLambdaを動かせるんですね!
クラスタリングのクラスタ数
実装はスライド18にありますね。
教師なし学習のクラスタリング、クラスタ数がハイパーパラメタなんですよね(訓練の前に人が指定しておく必要がある)。
聞き逃したのだと思うのですが、「クラスタリングAPIでクラスタ数ってどう決めてるんだろう」というのが気になりました。
「パラメタに含める」とありますが(slide=19)、そうなるとこのAPIの利用者はクラスタ数を知っている=クラスタリングが実装できる必要があるような。
今後、クラスタ数を決めるのを助ける機能を追加するんでしょうかね(このあたりは完全に妄想です)
個人的に気になったので、レポートを書くにあたり『見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑』「14 k-means法」を参照したところ、以下の学びがありました。
「苦労したところ」から
- 「質量混在データはgower距離」(slide=21)
- カテゴリカル変数の扱い(slide=14)など、トークではデータの前処理を詳細に共有いただきました
- 質的(カテゴリカルな)な特徴量があるときのクラスタリング手法とPythonでの実装について - Qiitaで補完しました
- このQiitaによると「Manhattan距離とDice距離を組み合わせて定義される距離」なるほど
- gowerライブラリがあるみたいです
- 「AWS Lambdaでsubprocessは非推奨」(slide=22)
多様化するWeb業界で活躍できるエンジニアを育てた際に心がけたこと
もう一本レポートです。
昨年の師走tapyに引き続き4、日本システム技研 中澤さんのトーク。
「年末にテクニカルな話をしない男」5とのことですが、
出来る仕事を与えるのではなく出来るようになるための仕事を調整する (まとめのslide=46より引用)
など、未経験者の方の可能性を引き出すアプローチは非常に学びになりました。
エモかった「案件の事例」(slide=44)
私も受託開発の経験があるのですが、その経験から言っても「開発費の一部を持ち出してリプレース」、これはすごい!
普通は選択肢に上ってこない印象ですし、この方法を思いついてやりきるという点から「育てる(というか、育つ環境を用意する!)」という覚悟がヒシヒシと伝わってきます👏👏
日本システム技研さん、エンジニア絶賛募集中とのことですよ📣
Django Congress JP 2019からのアップデート
DjangoによるWebエンジニア育成への道 - Speaker Deck
私の中では中澤さんと言えばDjango Congress JP 2019でのトーク!
これがめちゃくちゃ印象的だったんですよ!
今回のスライドで「フロントエンド開発の比重が高まっている」(slide=31)とあり、TypeScriptの話題が出たことで、2019からの環境の変化を感じました。
フロントエンド力の強化(slide=37)
私もフロントエンドには広大な伸びしろ勢なので、ここに積ん読リストを作ります!
1日15分の社内勉強会、いいですね!
#stapy サバイバルTypeScripthttps://t.co/GPsSNUEDBq
— nikkie にっきー 🎤10/1 XP祭り 10/14-15 PyCon JP (@ftnext) 2022年12月15日
サバだからさかなー🐟
これです。みんなでやると楽しいのでおすすめです()https://t.co/uQTHtRFxfV
— Junya Fukuda (@JunyaFff) 2022年12月15日
#stapy
どうかしているVS Code拡張を作る中でTypeScript触ってますが、ブルーベリーの絵本、なかなかいい感じです6。
JavaScript開発環境周りの「package.jsonってどういうこと?」などに答えてくれました。
終わりに
2022師走tapy、2つのトークのレポートでした。
松井さん、中澤さん、素晴らしいトークをありがとうございました!👏
次回1月は準備中です。お楽しみに!
#stapy 次回は1/19(木)かもしれないです!👹
— nikkie にっきー 🎤10/1 XP祭り 10/14-15 PyCon JP (@ftnext) 2022年12月15日
connpass公開をお楽しみにー
これにて、2022師走tapyレポート3部作、完!
発表者、参加者、運営スタッフ、そしてスカラさん、皆さんありがとうございました!
- 住所が「渋谷ヒカリエ17階 株式会社スカラオフィス内」 https://business-alliance.co.jp/company/↩
- scikit-learnのUser Guideの中に「WCSSを最小にするクラスタ重心を見つける」とあります https://scikit-learn.org/stable/modules/clustering.html#k-means↩
- 『機械学習図鑑』の参考文献にあった「Review on Determining Number of Cluster in K-Means Clustering」(2013)はクラスタ数決定法をサーベイしています。Elbow法以外の手法も知ることができます↩
-
スライドはこちら
↩ - 今のペースだと、2023師走tapyは100回です。100回目も中澤さんに話してほしいな〜(あくまで個人的な意見です)↩
- 先日の本バトルでも言及しました。https://nikkie-ftnext.hatenablog.com/entry/itbookaward-2023-2-other-5-books↩