【時系列データ分析の基本①】データを見るコツ

資格・勉強

企業でデータ分析業務に十数年携わってきた中年がデータを分析・評価するにあたって文系・理系問わず抑えるべきポイントを簡単に紹介します。

そこそこのレベルであれば、だれでも簡単にデータ評価・分析ができるようになります。

最初は全体、徐々に見る範囲を狭めていく

よくある駄目な例として、いきなり細かいところから評価してしまう人がいます。

ぱっとデータを見たときに目についたところや目立つ部分に注目してしまい、気になってしまう気持ちはわかりますがそこはぐっと堪えて、まずは全体を見てください。

細かいところからいきなり評価しようとしても、その部分が良いか悪いかは全体を見ないと判断できません。

時系列データで全体を見るポイント

  • 全体の傾向はどうなっているのか
  • 傾向が変わる点はあるか
  • データのバラつき加減はどうなっているか
  • オフセットは発生しているか
  • 周期性はあるか

だいたいこのような点を抑えます。

また、よく安定しているという言葉を使う場合がありますが、イメージとしては下図のようにとらえると良いと思います。

変動・安定・収束のイメージ

データが大きく変化している場合は変動、やや変化しているものの傾向が一定となっている場合を安定。変化がなく、横ばいの傾向となっている場合を収束です。

傾向の分析方法

時系列データを全期間表示したものを眺めてみて、全体的に増加(上昇)や減少(下降)しているのか、横ばいなのか周期性があるのかなどを確認します。また、傾向が変化する点があるかどうかも確認します。

増加・上昇のイメージ
減少・下降のイメージ
横ばいのイメージ

どの程度、データが直線的に増加・下降しているかを定量的に評価する場合にはExcel関数のlinest関数を使うと簡単に評価できます。また、グラフを作成してグラフの機能で近似などを行う方法もあります。

データのバラつき加減の評価方法

データのバラつき具合が全体を通して一定の範囲内にあるのか、増加・減少しているのかなどを確認します。

バラつきのイメージ

評価方法としては、移動平均と時系列データの差分や、平滑化結果と時系列データの差分をとり、分散・標準偏差で評価する方法があります。

Excel関数だと移動平均はAVERAGE関数、分散はVAR関数、標準偏差はSTDEV関数が対応します。

平滑化は、ローパスフィルタ、ハイパスフィルタ、ローカットフィルタ、ハイカットフィルタなどがありますが、Excel単独では対応が難しいです。

オフセットの評価

オフセットは全体を見た時に段差が発生しているかどうかを見ます。よくある原因としては、観測機器の異常や設定値の変更などがあります。

オフセットのイメージ

数値として評価する場合はオフセット発生前後の平均値の差分をオフセット量として用いたりします。このとき、なるべく時系列データが横ばいである期間を平均値取得の対象期間となるようにします。

周期性の評価

周期性は季節的な変動などを表している場合があります。

周期性は、凸(凹)から、次の凸(凹)までが1周期です。周期性を評価するうえで難しいのは、時系列データを目で見た場合は周期性がありそうに見えても、周波数解析などを行うと強いスペクトルがでない場合があることです。これは、変動の波が毎回同じ間隔ではなく、微妙にずれていることが原因であることが多いです。

周期性のイメージ

どのような周期性があるかを評価するにはフーリエ変換を用いると簡単に評価できます。Excelの機能でフーリエ変換があるのでそれを利用すると簡単です。

注意点としては、周期性の評価の前にlinest関数で時系列データから傾きを求めて時系列データから除外しておく必要があります。

範囲を狭めてみるときのポイント

時系列データを適当な期間で区切ります。区切る期間の取り方ですが、これはデータの長さによって異なります。期間が長い場合は、複数回に分けて徐々に短い期間にしていきます。

例えば、1日1データを取得しているものが10年間蓄積されていた場合を仮定すると次のようにデータを分割できます。

  1. 年単位で区切る
  2. 四半期ごとに区切る
  3. 月ごとに区切る

ほかにも時間軸の取り方を変えたり、他の基準となる単位があればそれを利用することも考えられます。

区切ったデータは重ねてみる

分割したデータは、重ねてみて何か違いがあるかどうかを確認します。

データを重ねてみて重なるグループと異なるグループに分かれるか、傾向が徐々に変わっていないかなど色々な視点からデータを眺めてみます。

細かく見る時のポイント

全体の傾向を捉えたうえで、任意の期間のデータが全体に対してどのような位置づけとなるのか評価します。

データが異常値なのか、一定間隔で現れている現象なのかなど評価します。

異常値の傾向も注意する

異常値が発生した場合、過去の異常値と比較して同程度なのか、異常値の大きさが大きくなっていないかなどを評価します。観測機器などの場合、徐々に危機が壊れているケースなども考えられます。

コメント

タイトルとURLをコピーしました