はんなりPython: データ取得ハンズオン
はんなりPython: データ取得ハンズオン

はんなりPython: データ取得ハンズオン

データがない場合収集する必要があります。しかし、それを人間の手で集めるのは非常に手間がかかる作業となります。一方で、それをプログラムで行うと、大幅な時間短縮を実現できます。プログラミング言語Pythonを用いて、どのようにデータを集めればよいかをとりあげるイベントを、合同会社長目代表の小川英幸がはんなりPythonで行いました。

データ取得注意点

プログラムでデータを集めることはできますが、次の2点には注意が必要です。

  1. サーバ負荷への配慮
  2. 著作権

イベントではまず、簡単なプログラムをループで実行してその実行間隔を表示し、プログラムの実行スピードを体感していただきました。そしてその間隔を time モジュールsleep 関数 を使って制御することをとりあげました。

著作権としては、データの取得を拒まないサイトでも、そのデータの著作権はそのサイトにあり、そのデータを収集して公開することはいけないということでした。

apiからデータを取得する

続いて、apiからデータを取得する方法をとりあげました。

Pythonではrequestsというライブラリを使うことにより、容易にapiをたたいてデータを取得することができます。データを取得したあと、それを少し変形するだけで、データを可視化できることもとりあげました。その辺りを簡単にできるのもプログラミング言語Pythonの強みです。

apiが準備されている場合、それを使った方が結局いろいろと便利です。あと、データが購入できる場合購入しましょう。

サイトからデータを取得する

apiもなくデータが売っていない場合、サイトからのデータ取得を考えます。今回はrequests-htmlというライブラリを用いて「はんなりPythonの会」のブログからデータを取得しました。方法的にはセレクターをクロームのデベロッパーツールを使って探し、それを指定してデータを取得します。

最後に課題を行い、イベントは終了しました。

まとめ

以上のように、プログラミング言語Pythonを使ってデータを取得する方法を学びました。

資料は次のリンク先にあります。

https://colab.research.google.com/drive/1W8ksOmrHht9Feugs5pV6lJRL7vApWU-1

Follow Chomoku!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

PAGE TOP