「今週の進捗」を毎週記録してブログで公開する意義

以前も似たような挑戦をして失敗した記憶があるけど、やっぱり意義のあることだと思うから、これからまた挑戦したいと思う。
まずは、どんな意義があるのかを言語しておく
– 毎週記録する意義
1. 毎週1習慣を振り返ることで、自分の努力や成果を可視化することができ、客観的に自分の状況を把握することができる
2. 将来振り返った時に、人生記録として振り返ることができる
– ブログで公開する意義
1. 一般に公開し、他の人に見られるということによって、自分を奮い立たせることができる(きっと長期的に続けらるはず)
2. 他の人の役にたつかもしれない(し、役に立たないかもしれない)
とまあ、客観的に意義を並べてみたけど、心情的には人生の記録を永久保存できるということが大きいかもしれない。
1個人の人生の記録を、情報という形態を利用して保存するということにすごく興味があって、それはきっとものすごく難しいことだと思うんだけど、究極的に人生ログを生み出すことができれば、きっと物理的な「死」を乗り越え、人間は恒久的な存在になれるんじゃないかなと夢見ている。
・・・
そんな話をしていると長くなりそうなので、これはまたの機会として、早速今週の進捗を振り返っていきたい。

今週の進捗20190929

  • DataQuest「Data Analyst in R」
    • Step2修了
    • Step3 1-3まで修了
  • カルマンフィルタを勉強し始めるが、統計モデリングと制御のダブル素人で中断
  • 目黒の某医療系AIベンチャーに訪問
    • なんと正式にインターン内定をもらった!
    • DataQuestに登録してガチでデータサイエンティストを目指し出したのが7/10なので、そこから約75日で、データサイエンティストの仕事をゲット!嬉しい
  • Rのベイズ統計の本を読み始める2冊
  • Data Gateway Talkに初参加!
  • Kaggleの画像系コンペ格闘中
  • AtCoder(Begginer)で1000点ゲット!

DataQuestはデータサイエンティスト初心者にはめちゃくちゃいい入門になると思う。

7/10にDataQuestに登録した段階では、pythonの知識と経験はあったものの、データサイエンティストの経験はもちろん知識もほとんどない状態でスタートした
それから2ヶ月弱かけて必死でpythonのデータアナリスト、データサイエンティストのコースを完全修了したら、データサイエンティストとしての基本的な知識やスキルが体系的に身について、実践として実装できるようにまでなったのは本当にありがたかった
DattaQuestは海外のウェブサイトだということもあって、もちろん全て英語なわけなんだけど、そこでひたすら英語の文章を読んでいたこともあって、その後の英語論文とか英語ドキュメントとかが、専門用語とか含めてだいぶ読みやすくなったのは想定していなかった大きな収穫だった。
今はRのコースをやっていて39%まで習得した。さっさとRのコースも修了して、Rの統計モデリングの実装とかをガンガンできるところまで持っていきたい。

データサイエンティストを目指して75日で仕事をもらえるところまできたのは、本当にラッキーだったしとても嬉しい

色々言えないことはあるけど、画像系の分類をやったりしてパワポ資料作ったりして、それを評価してもらったというのがとても嬉しい。
努力して手に入れたスキルや経験を評価してもらうのは意外と難しくて、やっぱり目に見える成果が非常に大事だなというのも改めて実感しているし、今後もスキルアップはもちろん成果を作っていきたい。

ベイズ統計、ベイズ統計モデリングは重要だよ

ベイズ統計勉強するために読んでいる本が2つ

1つめは数式ゴリゴリだから読むの大変だけど、背景的な数学的知識を詰め込むにはかなりいい良書だと思う。
2つめは、R初心者がベイズ統計をRで実装しながら勉強していく感じのコードベースの本。少し古めだけど、Rの使い方的なのも一緒に学べるから初心者にはとっつきやすい本かな。

じゃあ、そもそもなんでベイズ統計とかやる必要あるのかって話。
機械学習を学んで一通り実装とかやってみて、ディープラーニングも色々やって気づいたこと。それはディープラーニングって意外と現実の課題に対して応用できないことが多い。
時系列データだと、ディープラーニングはあんまり役に立たないとか、課題がはっきりしてる(犬か猫かみたいな)場合じゃないとディープラーニングを利用できないとか、そういう色んな制約っていうのがあるんだなと。
もちろん、計算量が圧倒的で、高い精度を予測とかできるメリットはあるし、GANみたいに新しいものを生成する時にも計算量で黙らせる的な感じの有効性はあると思うんだけど、まあ端的に言えば長所だけじゃないんだって話(厳密な議論はしてない)
AI=万能, AI=ディープラーニング -> ディープラーニング=万能
みたいな三段論法なのかわからないけど、ディープラーニングは全然万能じゃないし、ビジネスサイドまで持ってくると解決しなければいけない課題が山積みなのは間違いない
そういうわけで、ベイズ統計モデリングもできた方がいいよってことと、AIに魅せられて業界に乱入してきたような若造(自分のこと)とかは、数学的な背景知識ないくせに、「ディープで予測できるよ〜」とか言えちゃう(優秀なライブラリの使い方を知ってるだけ)業界だったりもするから、色々複雑。
逆に数学的な背景なしに乱入する若造は多いから、その中でも生き残っていくためには、やっぱり過去の研究者たちの偉業に向き合って、勉強し直すのが重要なんじゃないかなって思うわけ。
まあ、ひとまずベイズ統計モデリング、頑張ります。

Data Gateway Talk

データサイエンティストやアナリストが50人以下集まるような感じで新鮮だった。会場は表参道のZOZOSUITオフィス。
初心者向けの会だな〜って感じではあったので、コードとかあんまり書いたことないけどデータサイエンス興味ある、みたいな人にはすごくおすすめ
実際のモデルの話とかはあまりないので、上級者はあんまり来ないのかな。
懇親会で色々な人と話て一番感じたのは、やっぱりデータサイエンティストとか全然人足りてないやん!!っていうこと。
そりゃ人材入れば欲しいけど、探してもいないし、育てるのも大変だし、みたいな感じなんだと思う。やる気なかったら育てられないしね。
これから毎年のように新しいデータサイエンティストが大学から輩出されていくだろうなと思いつつ、実際のところ山のようにハードルがあるんだろうなと思ってる。
データサイエンティストになるために乗り越えなければいけない様々なハードルとかについては、またどっかてまとめていきたい。

Kaggleの画像系コンペRSNAに挑戦中!

これから画像系のデータサイエンティストとして頑張っていく身としては、少しでもKaggleの画像系コンペに触れて、最先端を知っておきたいということで挑戦中。
ただ、環境構築だけで数日経過し・・・という絶望的な状況。
画像データ156GBもあるし、ダウンロードするだけでも超やばい。
GPCを立ててダウンロードしたものの、途中でメモリマックスになってやり直し、を実は3回もやりましたww
メモリ拡張の方法とかも、最初全然わからなかったし、拡張したと思ったら、ダウンロードしたzipを解凍したら2倍の容量が必要になって限界突破w
メモリとか、1TBとか多めに開けとくのが一番ですね。
画像のデータがDICOMだったりして、これどうやって扱えばいいのか?っていう超初歩的?なところからスタートして、第一締め切りがなんと10月4日という絶望。
なんとかfirst submissionできるように頑張る。1epochでもいいから学習してラベリングしたいww

AtCoder3回目ですが遂に1000点ゲットした!

AtCoder、なんか人気あるしやってみようということ始めたけど、なんとかD問題まで正解して1000点ゲットしました!
提出するときのドキドキ感はヤバイね
競技プログラミングって初めての経験だけど、使う手法とかって実はある程度決まってたりするんだな〜っていうのが最近わかってきたこと。
とりあえず動的計画法のbit dpを理解して実装できたから(ほぼ優秀な誰かの写しだけど)次はきっと1500点いけるんじゃないか?!という期待を込めてまた来週も頑張りたい

来週はRSNAとRの勉強に捧げます

RSNAのデッドラインが近づいている。
来週はとにかくKaggle RSNAに全力を捧げます。Rもひっそりと頑張ります。
それでは!