データを分析・評価するにあたって押さえるべきポイントを簡単に紹介します。
以前データ処理を行っていたときに気を付けていたポイントをまとめました。参考になれば幸いです。
最初は全体、徐々に見る範囲を狭めていく
ぱっとデータを見たとき、つい目立つ部分に注目してしまうことがあると思います。ただ、そこはぐっと堪えてまずは全体を見てください。
全体の中で、目立つ部分がどういった位置づけになるのかを評価することが大切です。
時系列データで全体を見るポイント
- 全体の傾向はどうなっているのか
- 傾向が変わる点はあるか
- データのバラつき加減はどうなっているか
- オフセットは発生しているか
- 周期性はあるか
だいたいこのような点を抑えます。
また、データの表現と評価方法は次の通りです。
変動・安定・収束の評価
データが大きく変化している場合は変動、やや変化しているものの傾向が一定となっている場合を安定。変化がなく、横ばいの傾向となっている場合が収束です。
傾向の分析方法
時系列データを全期間表示したものを眺めてみて、全体的に増加(上昇)や減少(下降)しているのか、横ばいなのか周期性があるのかなどを確認します。また、傾向が変化する点があるかどうかも確認します。
どの程度、データが直線的に増加・下降しているかを定量的に評価する場合にはExcel関数のlinest関数を使うと簡単に評価できます。また、グラフを作成してグラフの機能で近似などを行う方法もあります。
データのバラつき加減の評価方法
データのバラつき具合が全体を通して一定の範囲内にあるのか、増加・減少しているのかなどを確認します。
評価方法としては、移動平均と時系列データの差分や、平滑化結果と時系列データの差分をとり、分散・標準偏差で評価する方法があります。
Excel関数だと移動平均はAVERAGE関数、分散はVAR関数、標準偏差はSTDEV関数が対応します。
オフセットの評価
オフセットは全体を見た時に段差が発生しているかどうかを見ます。よくある原因としては、観測機器の異常や設定値の変更などがあります。
数値として評価する場合はオフセット発生前後の平均値の差分をオフセット量として用いたりします。このとき、なるべく時系列データが横ばいである期間を平均値取得の対象期間となるようにします。
周期性の評価
周期性は季節的な変動などを表している場合があります。
周期性は、凸(凹)から、次の凸(凹)までが1周期です。周期性を評価するうえで難しいのは、時系列データを目で見た場合は周期性がありそうに見えても、周波数解析などを行うと強いスペクトルがでない場合があることです。これは、変動の波が毎回同じ間隔ではなく、微妙にずれていることが原因であることが多いです。
どのような周期性があるかを評価するにはフーリエ変換を用いると簡単に評価できます。Excelの機能でフーリエ変換があるのでそれを利用すると簡単です。
注意点としては、周期性の評価の前にlinest関数等で時系列データから傾きを求めて時系列データから除外しておく必要があります。
徐々に範囲を狭めてみる
範囲を狭めてみるときのポイント
時系列データを適当な期間で区切ります。区切る期間の取り方ですが、これはデータの長さによって異なります。期間が長い場合は、複数回に分けて徐々に短い期間にしていきます。
例えば、1日1データを取得しているものが10年間蓄積されていた場合を仮定すると次のようにデータを分割できます。
- 年単位で区切る
- 四半期ごとに区切る
- 月ごとに区切る
ほかにも時間軸の取り方を変えたり、他の基準となる単位があればそれを利用することも考えられます。
区切ったデータは重ねてみる
分割したデータは、重ねてみて何か違いがあるかどうかを確認します。
データを重ねてみて重なるグループと異なるグループに分かれるか、傾向が徐々に変わっていないかなど色々な視点からデータを眺めてみます。
細かく見る時のポイント
全体の傾向を捉えたうえで、任意の期間のデータが全体に対してどのような位置づけとなるのか評価します。
データが異常値なのか、一定間隔で現れている現象なのかなど評価します。
状況を確認する
比較したいデータが他の期間と異なる傾向・数値であった場合、その背景を確認します。
取得したデータと関連する項目について、他の期間と異なる部分は無いかなどを確認していきます。
異常値の傾向も注意する
異常値が発生した場合、過去の異常値と比較して同程度なのか、異常値の大きさが大きくなっていないかなどを評価します。観測機器などの場合、徐々に危機が壊れているケースなども考えられます。
コメント