2001/11/24
アクセスログ量の話
さて私は当然ですがリファラとは別にアクセスログも取っています。これはapacheというhttpデーモンの吐き出すログですが、もちろん整理されておらず、そのままでは解析に使用できません。そのため、cgiによって取得したhttp変数に頼ることになりますが、何らかの事情で細かいログを調べなくてはならないときは、データを直接解析することになります。このデータのサイズというのは実際にどのくらいだとおもいます?
たとえばここに22日のアクセスログがあります。この日のトップページのビュー数は227アクセスです。この数字は最近の平均どおりのアクセス数です。さて、このときにトップページに発行されたイベントはどのくらいあるでしょうか。だいたいこの7倍の数字になります。何故かって?そのためにはHTTPの仕組みを軽く説明しましょう。まず相手のサーバにログインしそこでGETというイベントを発行します。このイベントを受けたサーバは実際のデータを流します。私のトップページにデータ取得を要求した後でカウンタで用いている画像やバナーと言っているぺんぎん画像などもGETイベントでいちいち取らなければならないのです(本来のindex.htmlとペンギンバナー、それに6桁のカウンタを足すと8回だが、カウンタは同じ数字が出ていた場合は1つしかダウンロードされないので7とした)。つまり227アクセス×7回で1089行のログが残ります。一行当たりのログはへ平均して110バイトです。するとトップページだけで1日あたりおよそ117Kバイトのログが記録されることになります。これはトップページでのログ量で、全てのコンテンツを含めた場合、だいたい5000行近くのログが記録されています。つまり1日で500Kバイトのログが記録されるのです。一年で180メガのログ。これが平均200ちょっとの小さなサイトのアクセスログの量です。
そういうわけで、私は1週間分程度のログしか持っていません。それよりも前のログは自然に消滅するようになっています。ログでハードディスク一杯にして飛ばしたら洒落になりませんから。
前 後
Topへ