近頃データ分析、データ分析と声高に叫ばれていますが、一方で何をやったらよいもんやらという声も聞きます。Aiだ人工知能だというのもありますが、最初からそれをやるのは難しいですし、そういう会社を呼んでも「データがないのでできない」という感じでコンサル料を取られて終わるという展開になりがちです。
データ分析はざっくり3つの段階に分けられます。
1.データを集める
2.データを調べる
3.データを活用する
AIとかというのは3の段階ですので、データを色々する最終段階だけを見ていても、何も始まらないというと分かりやすいかもしれません。そして、データを集めてそれを調べるという過程が意外に重要で、思いの外やると効果が出る部分であるというのは、よく言われますが意外に知られていません。
合同会社長目は、データの活用に関してはその辺りから重点的に始めるべきだと考えています。また、その中でもデータを見て色々と考えるという点が重要だと考えています。そのため、今後のブログではデータを可視化して、そこから何か考えるようなことを行います。
第一弾の今回は梅雨のデータを可視化していきます。
梅雨のデータを可視化する
「梅雨っていつから?」
って聞かれると「大体6月中旬から7月中旬ですねー」と答えます。京都では大体祇園祭の前後で梅雨が終わるといわれます。果たしてあっているのかどうか。
梅雨は、沖縄では早く始まり、北海道ではないということも分かっています。北海道は花粉症もないしうらやましいです(寒いのは駄目ですが)。関東と関西でどれくらい違うのかというのは分かりません。
さて、データを探してみると、気象庁のサイトにありました。アドレスを下に貼っておきます。
https://www.data.jma.go.jp/fcd/yoho/baiu/index.html
地域ごとに、梅雨は定義されているようです。データを見てみると、入り、明けともに「ごろ」という言葉がつけられているのが分かります。これを見ると、明確に宣言しているわけではないことが分かりますが、日付は一応書いているので、データとして扱えることが分かります。あと、データを詳しく見ていると、入り、明けが宣言されていないケースがあります。
例えば四国のデータを見ると1963年は入りが宣言されていないのに、明けが宣言されており、1993年は明けが宣言されていませんが、翌年は入りが発表されています。このように値がない場合をどうするかというのも、データ分析では重要なところですが、今回の場合はひとまず「ない」ってことで進めていきます。
データを見る
さて、このデータを使えるようになるにはちょっとした前処理がいるのですが、そこは省略します。そうして、グラフにしたのが下のアプリケーションです。
アプリを見る前に、解説しておきます。アプリにグラフは4つあります。そのうち3つのグラフは上の選択ボタンとスライダーで管理できます。地方を選び、見たい年の範囲を選ぶと下の3つのグラフに反映されます。
下の3つのグラフは、一番上のグラフが選択した地域が梅雨入りした時期(X軸)、梅雨明けした時期(y軸)、点のサイズは降雨量、そしてそれぞれの(腹の出たおっさんのような)バイオリンプロットです。データの加工の都合上、1900年となっていますが、1900年は関係なく、各年のその時期だと考えてください。
2番目のグラフは年度ごとの梅雨の時期のグラフです。3番目のグラフは梅雨の期間と雨の量の関係です。雨の量は絶対値ではなく、平均との比較が出ていました。
そして4つ目のグラフは年度を選び、その年度にどの地域がいつからいつまで梅雨だったかというのが見られるようになっています。普通はグラフ化するというとデータを少しだけ使って、簡略化したものを見るというのが良く行われるパターンですが、ここではデータから何かを発見するために、たくさんのデータを見られるツールを作っています。
アプリ単体を見る場合、https://chomoku.herokuapp.com/tsuyu-dash に飛ぶとみられます。
まとめ
そろそろ梅雨なので、今回はこんなデータを見てみました。
このようにデータを可視化するだけで、これまで感覚的に思っていたことが実際本当にそうだったとか、全然違ったりということが分かります。
そして、この異常値は何だろうとか、これはこうなっているから、こんなデータがあるとこんなことが分かるのではないか、という感じで、色々と調べるのがデータを役立てる初めの一歩となります。
おっと、梅雨っていつから?ってのの答えを調べるのを忘れていました。最初のグラフの腹の出たおっさんのようなグラフをマウスで触りその一番膨らんでいるところが、それに当たります(medianで表示される部分です)。
沖縄 5月9日 ~ 6月21日
九州南部 5月31日 ~ 7月15日
九州北部 6月6日 ~ 7月19日
四国 6月5日 ~ 7月18日
中国 6月7日 ~ 7月18日
近畿 6月7日 ~ 7月18日
東海 6月8日 ~ 7月19日
北陸 6月10日 ~ 7月17日
関東 6月9日 ~ 7月19日
東北南部 6月10日 ~ 7月23日
東北北部 6月13日 ~ 7月26日
でした。沖縄は本州に比べて一カ月くらい前倒しで梅雨が来るということ、それに比して本州は南北でもそれほど違いがないということが分かります。
気になることといえば、梅雨の期間の雨量の差と始まる時期が予想できるのかです。この辺り、他のデータを加えたものを作ってみたくなるところです。