Toshiyuki Kawanishi Blog


2008
3 . 30

インターネットのトラヒックはHeavy Tail?

インターネットのトラヒックHeavy Tailでしょうか?
以下の論文を読んで、これについて改めて考えさせられました。

Søren Asmussen, Mats Pihlsgård, "Performance Analysis with Truncated Heavy-Tailed Distributions"

Heavy Tailとは、Long Tailとも呼ばれ、起こる確率が小さいレアな現象が、全体に大きく影響を与えるシステムのことです。それに対して、Light Tailとは、Short Tailとも呼ばれ、レアな現象が、ほとんど全体に影響を与えないシステムのことです。
なお、Long Tailという言葉は、最近はロングテール理論などといって、ビジネス分野で使われることが多い言葉でもあります。これについては、英語ですが以下のサイトが参考になるかと思います。
http://www.longtail.com/

確率論的には、指数分布を物差しとして、それよりも減衰がゆっくりなものがHeavy Tailで、減衰が急なものをLight Tailというように定義されます。

インターネット上のパケットは小さいものもありますが、たまに大きいものも届くので、それが結構、全体の性能に影響を与えると、一般に言われています。そのため、インターネットのトラヒックはHeavy Tailだという報告が多くあります。
ただ、実際のデータは無限大に大きくはならないので、たとえ、パケットの大きさの分布がHeavy Tail的な形をするグラフを描いたとしても、ある一定以上のところで切れて(Truncateされて)、それ以上の大きさのパケットが到着する確率が0になるようになるはずです。

それでは、途中で切れたHeavy Tail型の分布は、Heavy Tailだとみなして近似計算をおこなった方がいいのか、Light Tailだとみなして近似計算をおこなった方がいいのか、それを調べてみようというのが、冒頭で紹介した論文のテーマです。
数値的にシミュレーションをおこなって実験した結果、Light Tailとみなした方が良い計算結果が得られるというのが論文の結果となっています。

ということは、実際のインターネットトラヒックはLight Tailとみなせるのでしょうか?いずれにしろ、どういう目的で何を計測した時にHeavy Tailとみなせるのか、Light Tailとみなせるのかというのが大事そうです。この辺を含めてもっと調べてみたいなと思います。

ただ、この論文は難しいので、ちゃんと読むためには、例えば以下の本を勉強する必要がありそうです。私も早速注文しました。