
データがない場合収集する必要があります。しかし、それを人間の手で集めるのは非常に手間がかかる作業となります。一方で、それをプログラムで行うと、大幅な時間短縮を実現できます。プログラミング言語Pythonを用いて、どのようにデータを集めればよいかをとりあげるイベントを、合同会社長目代表の小川英幸がはんなりPythonで行いました。
データ取得注意点
プログラムでデータを集めることはできますが、次の2点には注意が必要です。
- サーバ負荷への配慮
- 著作権
イベントではまず、簡単なプログラムをループで実行してその実行間隔を表示し、プログラムの実行スピードを体感していただきました。そしてその間隔を time モジュール の sleep 関数 を使って制御することをとりあげました。

著作権としては、データの取得を拒まないサイトでも、そのデータの著作権はそのサイトにあり、そのデータを収集して公開することはいけないということでした。
apiからデータを取得する
続いて、apiからデータを取得する方法をとりあげました。
Pythonではrequestsというライブラリを使うことにより、容易にapiをたたいてデータを取得することができます。データを取得したあと、それを少し変形するだけで、データを可視化できることもとりあげました。その辺りを簡単にできるのもプログラミング言語Pythonの強みです。
apiが準備されている場合、それを使った方が結局いろいろと便利です。あと、データが購入できる場合購入しましょう。
サイトからデータを取得する
apiもなくデータが売っていない場合、サイトからのデータ取得を考えます。今回はrequests-htmlというライブラリを用いて「はんなりPythonの会」のブログからデータを取得しました。方法的にはセレクターをクロームのデベロッパーツールを使って探し、それを指定してデータを取得します。
最後に課題を行い、イベントは終了しました。
まとめ
以上のように、プログラミング言語Pythonを使ってデータを取得する方法を学びました。
資料は次のリンク先にあります。
https://colab.research.google.com/drive/1W8ksOmrHht9Feugs5pV6lJRL7vApWU-1