はじめに
聞いて聞いて!
リリースされた新バージョンのpipは、installのprogress barがかっこよくなってるんだよ! nikkieです。
Python実践レシピで知った--upgrade-depsオプションでvenv作るとpip 22.0.2が入りました。
— nikkie にっきー (@ftnext) 2022年1月31日
なんと、pip installのprogress barがめっちゃかっこよく🆒なってる!https://t.co/JMSGBuQIGZ
richを使ってるみたいです
news.rst にも「Utilise rich for presenting pip's default download progress bar.
(画像は最近動かしたGitHub Actionsのログの一部のスクリーンショットです)
1/31(月)に『ゼロからはじめるデータサイエンス入門〜R・Python一挙両得〜』をテーマにしたBPStudyに参加しました。
そのレポートを綴ります。
目次
イベントの概要
今回のBPStudyは、昨年12月に出版された「ゼロからはじめるデータサイエンス入門〜R・Python一挙両得〜」の著者の矢吹 太朗さんと、辻 真吾さんに登壇いただきます。
お二人の話を伺い、データサイエンスを学ぶきっかけをつかみましょう。
みんなのPython勉強会でお世話になっている辻さんの新刊(共著)『ゼロからはじめるデータサイエンス入門』。
著者から話が聞けるということで参加しました。
1時間のプログラムは以下のような感じ:
- イントロダクション (辻さん)
- RとPythonの比較から見るデータサイエンス(矢吹さん)
- データサイエンスをはじめよう!(辻さん)
- 質疑
めちゃめちゃ面白かったです!
#bpstudy 『ゼロからはじめるデータサイエンス入門』の著者トーク、めちゃめちゃ面白かったです。ありがとうございました👏
— nikkie にっきー (@ftnext) 2022年1月31日
矢吹さんから入門として教科書と同じ結果にするために、RとPythonで結果を揃える裏話の数々!
そして、辻さんから、次のレベルとして同じ結果にならなくても気にしない心得
矢吹さんの「RとPythonの比較から見るデータサイエンス」に知的好奇心を刺激しまくられました。
矢吹さん「RとPythonの比較から見るデータサイエンス」
RとPythonで同じ結果を出すための事例が6つ紹介されました。
この本に登場するコードは https://github.com/taroyabuki/fromzero で公開されています。
カッコはコードを参照するための項番号です(nikkieがレポートを書く中で振ったので、矢吹さんの発表とは違っているかもしれません)。
特に興味深かった事例を以下に示します。
事例1:コピーと参照
#bpstudy RとPythonで同じ結果を出すための事例紹介1
— nikkie にっきー (@ftnext) 2022年1月31日
コピーと参照
y = x
yを変更するとxは変わる?
・Rではxは変わらない(コピー)
・Pythonではxは変わる(参照)
(私はデータサイエンスより言語設計者の意図が気になっちゃいますね。刺激的な本!)
- R:https://github.com/taroyabuki/fromzero/blob/main/code/R-notebook/ch03/03.03.ipynb
- Python:https://github.com/taroyabuki/fromzero/blob/main/code/Python-notebook/ch03/03.03.ipynb
事例3:分散
#bpstudy 事例3:分散
— nikkie にっきー (@ftnext) 2022年1月31日
R varは不偏分散
Pythonのpandas?
標本分散(不偏分散の(n-1)/n倍)
numpy?
(あとでドキュメント確認します)
- R:https://github.com/taroyabuki/fromzero/blob/main/code/R-notebook/ch04/04.01.ipynb
- Python:https://github.com/taroyabuki/fromzero/blob/main/code/Python-notebook/ch04/04.01.ipynb
numpy、pandasともddof
(Delta Degrees of Freedom)という引数があるのですが、このデフォルト値が異なります。
- pandasはddof=1なので、デフォルトで不偏分散
- numpyはddof=0なので、デフォルトで標本分散(不偏分散の(n-1)/n倍)
事例4:ヒストグラム
#bpstudy 事例4 ヒストグラム
— nikkie にっきー (@ftnext) 2022年1月31日
RとPythonで同じ形のヒストグラムを描くのは難しい
Rは右が閉じている a < x <= b
Pythonは左側が閉じている a <= x < b
Rは境界の値を丸めてから数を数える
→Pythonでも丸める
この話、裏側がわかって、めっちゃ面白いですね!
- R:https://github.com/taroyabuki/fromzero/blob/main/code/R-notebook/ch04/04.02.ipynb
- Python:https://github.com/taroyabuki/fromzero/blob/main/code/Python-notebook/ch04/04.02.ipynb
終わりに
『ゼロからはじめるデータサイエンス入門』の著者から話が聞けたBPStudy#173、とても刺激的でした。
私は電子書籍を待っているのですが、リフロー版を準備中とのこと!
配信開始が楽しみですね。
お問い合わせありがとうございます。電子書籍はリフロー型のデータを鋭意作成中です🚧配信日が決まりましたら、お知らせしますのでお時間いただければ幸いです🙇
— 講談社サイエンティフィク (@kspub_kodansha) 2022年2月1日
参加者の皆さま、ありがとうございました。