復元抽出と非復元抽出(標本の選び方)

復元抽出と非復元抽出について見ていきます。

抽出した標本を元に戻すか戻さないかという話ですが、これらに拘るのは各標本の確率変数が「独立か独立でないか」に着目したいからです。独立になる場合には数学的処理が随分楽になるので、できれば復元抽出(このとき独立になる)で考えたいのです。

 

・復元抽出と非復元抽出
ある母集団から標本を抽出する場合に、\(1\)個の個体を抽出するたびに戻し、これを繰り返して標本を抽出する方法を復元抽出といいます。復元抽出では毎回抽出する集団が母集団そのものになるので、\(n\)個標本を抽出する場合、各抽出した標本に対応する確率変数を\(X_1,X_2,\cdots,X_n\)とすると、抽出する集団が毎回元通りになることから各確率変数は互いに影響のないものになるので、\(n\)個の変数 \(X_1,X_2,\cdots,X_n\) は互いに独立になります。

一方、抽出した個体を元に戻さない方法を非復元抽出とよびます。非復元抽出では、選び出された個体によって次以降の選び出され方が変わるので、各標本の選び出され方は互いに影響があり、\(n\)個の確率変数 \(X_1,X_2,\cdots,X_n\) は互いに独立でないことになります。

独立であるときには和の分散の公式のような独立が条件である等式が利用できるので、できれば復元抽出で考えたいです。しかし現実の調査では、1回の調査で同じ物や人を2度調査することはあまり無いですし、いっぺんに\(100\)人を選らんで調査をするという方法にしても、これは結局\(1\)人ずつもとに戻さずに抽出しているのと同じことなので、結局非復元抽出になってしまいます。

しかし実際の調査では母集団の大きさ\(N\)が大きく、抽出された標本の大きさ\(n\)が\(N\)に比べて小さい場合が多く、この場合には多少標本を取り出しても集団はほとんど変化しないので、近似的に復元抽出とみなすことができます。近似のための\(N\)と\(n\)の比の明確な基準はありませんが、目安としては \(\displaystyle\frac{n}{N}≦10\) です。

色々書きましたが、問題を解く際には特に気にせず復元抽出(独立)と考えて構いません。

 

箱に入った球を取り出すという操作に関する確率の問題を解く場合、箱に毎回球を戻す操作のほうが戻さない操作より簡単なのと同じで、復元抽出のほうが数学的処理が楽になります。

 

 

・抽出と各確率変数の期待値・分散・標準偏差
ある母集団から\(n\)個の標本を抽出する場合、各標本に対応する確率変数を\(X_1,X_2,\cdots,X_n\)とします。
母平均・母分散・母標準偏差を\(m,σ^2,σ\)とするとき、各確率変数の期待値・分散・標準偏差について次のことが成り立ちます。(復元・非復元によらない)

期待値:\(m=E(X_1)=E(X_2)=\cdots =E(X_n)\)
分散:\(σ^2=V(X_1)=V(X_2)=\cdots=V(X_n)\)
標準偏差:\(σ=σ(X_1)=σ(X_2)=\cdots=σ(X_n)\)

(解説)
復元抽出の場合には、毎回同じ集団(母集団)から大きさ\(1\)の標本を抽出することになるので、各変数の期待値・分散・標準偏差は、いずれも母平均・母分散・母標準偏差と一致する。

非復元抽出の場合も、くじ引きの公平性(どの順番で引いても当たる確率は同じ)の考え方より、どの確率変数においても期待値は同じになる。最初に抽出した標本の変数については \(E(X_1)=m\) だから
\(m=E(X_1)=E(X_2)=\cdots =E(X_n)\)

また同様に
\(E(X_1^2)=E(X_2^2)=\cdots=E(X_n^2)\)
が成り立ち、これと分散の等式
\(V(X_k)=E(X_k^2)-\{E(X_k)\}^2\)
と、一番最初の標本について
\(V(X_1)=σ^2\)
が成り立つことから
\(σ^2=V(X_1)=V(X_2)=\cdots=V(X_n)\)

標準偏差は正の平方根をとるだけだから同じく成り立つ。

 

これも扱うのはほとんど復元抽出なので、非復元についてはあまり気にしてなくてよいです。

 

 

 

以上になります。お疲れさまでした。
ここまで見て頂きありがとうございました。
next→標本平均と期待値と分散・標準偏差 back→母集団分布

タイトルとURLをコピーしました