site_admin のすべての投稿

レポート内のパーセンタイル値

バージョン5.6.2より,いくつかのレポートでパーセンタイル(Percentile)値が表示されるようになりました。ここでは,GenieATMに実装されているパーセンタイル値の仕様をご説明します。

一般的にPパーセンタイルとは,低い方から数えてP%に相当する値と定義されます。例えば,25個の値に対する95パーセンタイル値は,昇順に並び替えた値をv1~v25とするとv24近辺の値になります。しかし,様々な解釈の仕方があり,厳密な定義は定まっていないようです。

ここでは,よく知られる2つの定義をご説明します。GenieATMはこのうち2番目の考え方に基づく方式を採用しています。

一つ目は,測定された値の中からパーセンタイル値を選択する方式です。各値が0%から100%までの一定の範囲を占めると仮定し,Pパーセントに最も近い値を採用します(nearest rank)。25個の値の場合,最初の値v1が0%から4%までを,2つ目の値v2が4%から8%までを,最後のv25が96%から100%を占めることになります。このとき,95パーセンタイル値は24番目の値v24となります。

パーセンタイルの概念1

ただし,40パーセンタイル値はv10ではなくv11となります。これは,英語での記述
A percentile (or a centile) is a measure used in statistics indicating the value below which a given percentage of observations in a group of observations fall.
となっていることからも分かるように,ちょうど40%までを占める値は40パーセンタイル値にはなれないからです。

もう一方の方式は,データは無数の値の中から取得されたサンプルに過ぎないという想定に基づきます。データは,特定のパーセントにおける値を表し,データが取得できていないところの値は,線形補完によって隣接する値から算出します。

パーセンタイルの概念2

上記の例では,v1からv25までの実測データが,それぞれ2%,6%・・・,94%,98%に位置する値だとみなされます。そのため,例えば94パーセンタイル値はv24が該当しますが,狭間に位置する95パーセンタイル値は隣接するv24とv25を距離に応じて按分した値,つまり(3v24+v25)/4となります。

一般にデータの数をN,データ列をvi (i = 1~N)とした場合,Pパーセンタイル値がviとvi+1の間に位置することがわかっているならば,Pパーセンタイル値は次の式によって求められます。

P-percentil = (vi+1 + vi)/2 + (NP/100 – i)(vi+1 – vi)

GenieATMでは,この概念に基づいてパーセンタイル値を算出します。

なお,デフォルトではレポートには95パーセンタイル値が表示されますが,

システム管理 > プリファレンス > レポート

の「詳細レポートのパーセンタイル値」から設定を変更することができます。