エリア分割について、今回さらに掘り下げて見ていく。この手法は、実際には集計結果にどのような影響があるのだろうか。規模や形状の影響を想像できなければ、独自の視点を考えることは難しい。可変単位地区問題への対応と独自視点を構築するために、今回はモンテカルロ法による地区分割の実験を行い、その結果を紹介する。

モナコ公国にあるモンテカルロ地区にちなんだシミュレーション手法「モンテカルロ法」をご存じだろうか。これが分かればデータ分析力がグンとアップする(写真/Shutterstock)
モナコ公国にあるモンテカルロ地区にちなんだシミュレーション手法「モンテカルロ法」をご存じだろうか。これが分かればデータ分析力がグンとアップする(写真/Shutterstock)

 今回はかなり難解な解説になるが、データ分析には非常に有用なため、ぜひじっくり読み進めてほしい。

 まず、モンテカルロ法(Monte Carlo Method)について、どのようなものかを紹介しよう。簡単にまとめると、「確率変数のサンプリングをコンピューターを用いて行うことで、数学的問題を(主として数理統計学における意味で)数値的に解く手法」のことだ(i)。

 かみ砕いて説明すると、ここでいう確率変数のサンプリングは、コンピューターを使ってある確率分布に基づく疑似乱数を発生(サンプリング)させることや、得られたデータから再びサンプルを発生させること(リサンプリング)である。サンプリングとそれに基づく計算(割合、平均、分散など)を数百回、数千回、数万回と試行すると、解は一定の値に収束していき(大数の法則)、近似解を得られるという考え方だ。

 簡単な例を1つ挙げる。コインの表と裏が出る確率は、言うまでもなく2分の1である。では、実際の確率はどう求めればよいか。最も簡単な方法は、実際にコインを投げてみて、何万回も行って結果を集計することだ。ただ、単純だが効率的な方法ではない。

 そこでコンピューターを使って、コイン投げ(0または1をランダムに発生させる)を数百回、数千回、数万回と行い、その結果を集計してみる。図はコイン投げを1万回行い、1回目から各回数までの表の出た割合を調べたものである。

 コインを投げる回数を増やすと、表の出る確率が2分の1に近づいていくことが分かる。これがモンテカルロ法だ。モンテカルロ法は、並列処理が必要な自然言語処理の分野や、実際に実験が難しい金融商品のリスク算出など様々な分野で使われている。

 さて今回は、このモンテカルロ法を地区の分割に応用してみる。「新宿区の地価公示は、地区の形状と規模の違いによって、地区ごとの平均価格の平均値がどのように変わるのか」を考える。

 まず、新宿区内の地価公示点と国勢調査の小地域(町丁目)の境界を図に、またデータの要約統計量について表に示す。

新宿区内の地価公示点と小地域(町丁目)の境界
新宿区内の地価公示点と小地域(町丁目)の境界
新宿区全体の地価の要約統計量(単位:千円)
新宿区全体の地価の要約統計量(単位:千円)

 このデータにおいて、近い地点同士で地区を構成し、平均価格を算出してみる。さらに、各地区の平均価格の平均値「μ_g」を算出するとどうなるかを調べる。

 地点数「s」は、地価公示点が78箇所なので「s=78」となる。作成する地区の数を「g」とすると、「g=1」の場合は地区を分割しないのと同じでなので、「μ_g」は全体平均と同じである。1つの地区に1つの地点のみが所属する場合、各地点の値がそのまま各地区の平均値になる。当然「μ_g」は全体の平均と同じになる。gの数がsに近づくほど「μ_g」は全体平均に近づいていく。