nikkie-ftnextの日記

イベントレポートや読書メモを発信

週末ログ | #pyhack と キカガク脱ブラックボックス講座

はじめに

だんないよ、nikkieです。
この土日は機械学習の基礎固めに使いました。
学んだことを手短にまとめます。

経緯

 

学んだこと

  • 重回帰分析の数学部分

  •  scikit-learn使い方
    (1)modelを宣言
    (2)model.fitでパラメタ調整
    (3)model.scoreで予測精度を確認
    (4)model.predictで予測
  • モデルの構築に入る前にデータを確認すべき
    (i) 分布の確認:seabornでdistplot
    (ii) 相関関係の確認:seabornでpairplot
      モデルの予測精度がなかなか上がらないのでデータを見たら、
      説明変数が使いにくい分布だった、ないしは
      説明変数と目的変数の間に相関がなかったというのは冷や汗モノすぎる。。
  • train_test_splitで学習用データと性能評価用データに分けるとき
    random_stateパラメタを固定して、ランダムだが毎回同じように分ける。
    =再現性を確保する
  • テストデータはテストのときにしか使わない。
    学習用データのスケーリングには学習用データの平均と標準偏差を使った。

 

所感

@terapyonさんと@NaoY_pyさんに
キカガク講座をおすすめしていただいたのが大きかった。
本当にありがとうございました!


Python使いが集まる #pyhack の環境はすごく学びがあると実感。
継続して参加して、Pythonで食べていけるように力をつけたいです。