今週の進捗20191007

RSNA挫折したのでGCPのDE資格の勉強しました

  • KaggleのRSNAに全力を捧げると誓って終わった先週
    • 速攻でRSNA挫折しました・・・
    • というのもRSNAのデータ容量がとんでもなく多かった
    • デフォルトで156GBをKaggleからDL必須
    • zipだから解凍も必要で+156GB
    • Kaggleの画像コンペだからDICOMという医療系の画像ファイルをPNGに変換する必要ありで、これまた変換だけでも数時間くらい経過
    • PNG生成が完了した!と思ったらVMにGPCを搭載できなくて詰む・・・(Compute EngineにGPUを導入するには、最初からGPUありを選ぶか、インスタンスをコマンドラインから生成しておくかする必要があるみたいな記述をどこかで見つけて驚愕)
    • 結局、GPCないと画像コンペ成り立たないので、新しいGPCありVMを起動を計画、、データどうすんの?使えないVMの上に載ってる膨大のデータ
    • Cloud Strageにアップする以外の方法がわからず、gsutilして寝た(日曜日の夜)
    • 朝起きたら、まだデータの移行が済んでなくて、計算リソースだけ湯水の如く消費(涙)
    • 慌ててGCPのBilling見たら、高額の資金を垂れ流ししている・・・
    • 結局9月の下旬だけで1万円近くを消費しました(Googleクレジット300$があるので、キャッシュはなくなってないですが、貴重なクレジットが、、)
  • 全力を捧げると誓ったRSNAですが、1日も経たずに破綻
    • そして絶望
    • 溶けるお金
    • ビッグデータの恐ろしさを痛感しました
    • ビッグデータエンジニアってお金ないとできない(社会に有用な価値を提供するには元手が必要なんです!)
  • やっと気づいた「サーバーサイドど素人の自分は、ビッグデータを扱える人間にはなれない
    • だったら、GCPやればいいんじゃん?
    • AWSやってた人もGCPに流れてるって話よく聞くし
    • 天下のGoogle様の開発するシステムだし
    • GCPってデータエンジニアのためにあるんじゃん?
  • ということで、1歩下がって3歩進む精神(vimmerが大切にしている精神)に法って、GCPを攻略しよう!
    • 調べたら、Google Cloudのまさにな資格がありました!
    • Professional Data Engineer
    • どうやら日本でこのデータエンジニアの資格を持っている人はあまりいないよう
    • エンジニア何だけど、若干ビジネスよりの人間が使っている様子
    • 資格勉強すれば、GCP扱えるようになるし、機械学習プロジェクトに対する適切なソリューションを提示できるようになるのでは?
    • DE資格のためのCoursera講座を発見
    • 1週間のトライアル期間あり
    • トライアル期間後は月額5000円くらい
    • 2ヶ月くらいかけて1万円で勉強すればいいか〜というノリで登録してはじめました
  • DEはスキルよりもビジネスよりだった!
    • QwiklabsでGCPのツールを実践したりできるから、スキルも学べるんだけど、資格自体がそもそもビジネスユースケースを理解してソリューションを提示することを大きな目標としているみたいで、講座もビジネスよりの内容が多いことが発覚(少し講座やってみて、気になって調べたらわかった)
    • ビジネスユースケースを学ぶのに10000万円は高いんじゃい?
    • 調べたら、某AI企業の優秀エンジニアさんのブログに、このCourseraを4日間で完了したツワモノがいるという情報が!!
    • この講座、4日間で終わるんじゃね?(この時点で既に2日目の夕方なのに、講座は10%くらいしか進んでいなかったw)
    • よし4日で終わらせよう!
  • 4日目、Qwiklabsのバグ?に阻まれて、停滞期(闇期)
    • 実際にコード書いたりして実践を積むんだけど、インストラクション通りにやってたはずなのに、アカウントブロックされたw
    • 計算リソースの使いすぎですエラーだったみたいなので(なんでだ?)ごめんなさいメールを英語で書いて送る
    • 今回は特別に許す!からロック解除したぞ!っていう返事がしばらくしてきた
    • 今度こそ、間違えないようにやろうと決意し、もう一度インストラクション通りに進める
    • 全く同じところでブロックされるww
    • 「やってしまった、、」というか、これはQwiklabsが悪いんじゃん?
    • また長めのメールにテクニカルイシューを書く
    • この手順でこうやって
    • この部分でこのアクションするとロックがかかる
    • スクショをpngに保存して添付までして根拠を示す
    • あぁ、時間が溶ける・・・
    • メール送信したら朝の5時になっていたwwww
    • 昼頃に目覚めたらもう一度ブロック解除されていたのでよかった
    • テクニカルイシューの方は、よくわからないが解決したみたい(これ以上関わりたくない)
  • 結局4日では終わらずズルズル6日間経過。
    • 頑張ったら6日間で終了したのでした!

GCPのDE資格のためのCousera講座を受講してよかったこと

  • Googleがこの20年どんなシステムを構築してきたのか理解できた
  • データサイエンスの課題に対してどんなアーキテクチャを導入すればいいのか、システムの仕組みも含めてハイレベルな次元で言えるようになった
    • IOT活用でリアルタイムストリーミングデータを扱う場合には、Pub/SubとDataflowとBigQueryの連携が便利
    • 超高速でレイテンシーを最小限にしたい場合にはNoSQLのBigTableが優秀
    • KaggleコンペとかにはBigQueryで前処理して、構築したモデルをML Engine利用してJobベースでバージョン管理するのがいい(これを高いレベルの確信をもって言えるようになっただけでもうかなり満足)
    • 計算量が多くなって分散処理をしたい時には、Dataprocを利用すればSparkを利用したジョブを投げれて便利
    • などなど
  • 英語のリスニング力がこの1週間で急激に向上したw(まさかの副産物)
    • もともとML系の知識はある程度あったことから、動画の講義では冗長な内容もあって、1倍速で観るのはかったるかったし、真面目に全部ゆっくり見たら絶対4日では終わらないと前半で確信した(結局6日かかったけど)
    • 最初1.25倍速で聞いてみたら、意外と聞き取れることに感動した嬉しくなった
    • しばらく聴いてたら慣れてきたし、動画長すぎてめんどくさくなってきたから、1.5倍に変更した
    • 1.5倍でも全体像掴めることに気づいて、これでしばらく聴いてた
    • 遂に途中から1.75倍と2倍を行き来するようになったw
  • 高速で動画をみた事によって、複数回視聴することが多くなって逆に記憶の定着が高まった
    • 高速で聴いてだいたい理解して、聞き取れなかったポイントを戻って聞くのが効率いいことがわかった
    • わからな買った部分に戻って、繰り返して内容を聞くことができて記憶への定着が確実に高まった
    • 最初はメモとってたけど、倍速再生はじめてからはメモが全く追いつかなくなったことから、メモとるのをやめて逆に動画の内容に集中できた
  • GCPのDE資格を取れそう
    • 当たり前っちゃ当たり前だけど、GCPのDE資格をとるための講座を終えてみて、あとちょっとテスト前対策すればDE資格余裕で取れそうな気がする
    • 時間ある時にDE資格もとってみます(副産物としてね)

Courseraの無料トライアル最強説浮上!短期集中で時間を割いて「Coursera1週間高速学習」を繰り返せば無料で最強エンジニアになれる!!

  • これも副産物だけど、Courseraの無料トライアル最強説が浮上
  • 大前提として
    • 普通の社会人が1週間でCourseraのコースを完全終了するのは結構厳しい
    • まあ当たり前といえば当たり前、みんな楽々終了しちゃったらビジネスとして成り立たないもんね
  • でも、大学生とかフリーランスなら!!1週間でいける可能性あり!
  • Courseraには面白い(エンジニアにとってね)コースがたくさんあって、全ての講座(正確には講座が一連のセットになったコースセット)に対して、無料トライアルが利用できる。
    • つまり以下のサイクルを繰り返す事によって、特に大学生は無料で最高峰の授業を無限に勉強ができる
    • 1: 勉強してみたいCourseraのコースを見つける
    • 2: 向こう1週間の時間を確保する
    • 3: 意を決して無料トライアルをスタートする
    • 4: 動画の倍速を多用して1週間短期で高速学習を実施する
    • 5: 1週間以内に全部の講座を終わらせる、必要がある部分は複数回見る
    • 6: サブスクのキャンセルを忘れずに(忘れると普通に月額料金取られます)
    • 7: 1に戻る
  • 時間のある大学生とかは「Coursera1週間高速学習」ぜひやってみてね!
    • 勉強できる事は幸せな事だよ(社会人になるとよくわかるよ)
    • 勉強するにはお金がかかるよ(普通はね)
    • だけど今のIT時代には、素晴らしい抜け道があるよ

来週は医療AIインターンと時間あれば(いや時間つくる)Kaggle頑張ります

  • 医療AI楽しみ
  • GCPも使いこなせるようになった事だし(ナメてるw)Kaggle本気出します

ではでは!