Juliaの世界

BDA3の2.11 Exercisesの6を解く。 リンクはBayesian Data Analysis

  1. Predictive distributions

米国のcountyごとのガン死亡数yjy_jを負の二項分布でモデル化を行う。 負の二項分布NegBin(r,p)は表が出る確率pのコインで、r回表が出るまでに出た裏の数の分布である。

using Distributions, StatsPlots
plot(NegativeBinomial(5,1//6),yrotation=90,label="NegativeBinomial(5,1//6)")
savefig(joinpath(@OUTPUT, "NegativeBinomial.svg"))
nothing

この図はサイコロの1の目を5回出すのに必要なサイコロを振る回数の分布である。 この回数にサイコロの1の目を出した回数は含まれていない。

county jのガン死亡率θjθ_jの事前分布をGamma(α,β)とする。 その時、米国のcounty jのガン死亡数yjy_j

yjθjNegBin(α,β10nj) y_j|θ_j \sim \mathrm{NegBin}(α,\frac{β}{10n_j})

とモデル化する。 njn_jはcounty jの人口である。

ガンマ分布Gamma(a,b)は1時間ごとに1/bの確率で発生する不具合がa回起こるのに掛かる時間の分布である。

plot(Gamma(5,6),yrotation=90,label="Gamma(5,6)")
savefig(joinpath(@OUTPUT, "Gamma.svg"))
nothing

図は1時間ごとに1/6の確率で壊れる機械が5回壊れるまでの時間の分布である。1日に5回壊れる可能性が高い。

county jのガン死亡数yjy_jの期待値E(yj)E(y_j)

式(1.8)は以下である。

E(u)=E(E(uv)) E(u)=E(E(u|v))

従って、

E(yj)=E(E(yjθj)) E(y_j)=E(E(y_j|θ_j))

で、ガン死亡数yjy_jの期待値を計算できる。Y~NegBin(r,p)の期待値E(Y)は

E(Y)=r(1p)p E(Y)=\frac{r(1-p)}{p}

である。yjθjNegBin(α,β10nj)y_j|θ_j \sim \mathrm{NegBin}(α,\frac{β}{10n_j})なので、

E(yjθj)=α1β/10njβ/10nj=10njαβ1 E(y_j|θ_j)=α\frac{1-β/10n_j}{β/10n_j} \\ =10n_j\frac{α}{β}-1

である。よって、

E(yj)=E(E(yjθj))=E(10njαβ1)E(yj)=10njαβ E(y_j)=E(E(y_j|θ_j)) \\ =E(10n_j\frac{α}{β}-1) \\ E(y_j)=10n_j\frac{α}{β}

である。

county jのガン死亡数yjy_jの分散Var(yj)Var(y_j)

式(1.9)は以下である。

var(u)=E(var(uv))+var(E(uv)) var(u)=E(var(u|v))+var(E(u|v))

従って、

var(yj)=E(var(yjθj))+var(E(yjθj)) var(y_j)=E(var(y_j|θ_j))+var(E(y_j|θ_j))

で、ガン死亡数yjy_jの分散を計算できる。 Y~NegBin(r,p)の分散Var(Y)は

Var(Y)=r(1p)p2 Var(Y)=\frac{r(1-p)}{p^2}

である。yjθjNegBin(α,β10nj)y_j|θ_j \sim \mathrm{NegBin}(α,\frac{β}{10n_j})なので、

var(yjθj)=α(1β/10nj)(β/10nj)2=10njαβ+(10nj)2αβ2 var(y_j|θ_j)=\frac{α(1-β/10n_j)}{(β/10n_j)^2} \\ =10n_j\frac{α}{β}+(10n_j)^2\frac{α}{β^2}

となる。よって

var(yj)=E(var(yjθj))+var(E(yjθj))=E(10njαβ+(10nj)2αβ2)+var(10njαβ)var(yj)=10njαβ+(10nj)2αβ2 var(y_j)=E(var(y_j|θ_j))+var(E(y_j|θ_j)) \\ =E(10n_j\frac{α}{β}+(10n_j)^2\frac{α}{β^2})+var(10n_j\frac{α}{β}) \\ var(y_j)=10n_j\frac{α}{β}+(10n_j)^2\frac{α}{β^2}

である。