BDA3の2.11 Exercisesの6を解く。 リンクはBayesian Data Analysis。
米国のcountyごとのガン死亡数yjを負の二項分布でモデル化を行う。 負の二項分布NegBin(r,p)は表が出る確率pのコインで、r回表が出るまでに出た裏の数の分布である。
using Distributions, StatsPlots
plot(NegativeBinomial(5,1//6),yrotation=90,label="NegativeBinomial(5,1//6)")
savefig(joinpath(@OUTPUT, "NegativeBinomial.svg"))
nothing
この図はサイコロの1の目を5回出すのに必要なサイコロを振る回数の分布である。 この回数にサイコロの1の目を出した回数は含まれていない。
county jのガン死亡率θjの事前分布をGamma(α,β)とする。 その時、米国のcounty jのガン死亡数yjを
yj∣θj∼NegBin(α,10njβ) とモデル化する。 njはcounty jの人口である。
ガンマ分布Gamma(a,b)は1時間ごとに1/bの確率で発生する不具合がa回起こるのに掛かる時間の分布である。
plot(Gamma(5,6),yrotation=90,label="Gamma(5,6)")
savefig(joinpath(@OUTPUT, "Gamma.svg"))
nothing
図は1時間ごとに1/6の確率で壊れる機械が5回壊れるまでの時間の分布である。1日に5回壊れる可能性が高い。
式(1.8)は以下である。
E(u)=E(E(u∣v)) 従って、
E(yj)=E(E(yj∣θj)) で、ガン死亡数yjの期待値を計算できる。Y~NegBin(r,p)の期待値E(Y)は
E(Y)=pr(1−p) である。yj∣θj∼NegBin(α,10njβ)なので、
E(yj∣θj)=αβ/10nj1−β/10nj=10njβα−1 である。よって、
E(yj)=E(E(yj∣θj))=E(10njβα−1)E(yj)=10njβα である。
式(1.9)は以下である。
var(u)=E(var(u∣v))+var(E(u∣v)) 従って、
var(yj)=E(var(yj∣θj))+var(E(yj∣θj)) で、ガン死亡数yjの分散を計算できる。 Y~NegBin(r,p)の分散Var(Y)は
Var(Y)=p2r(1−p) である。yj∣θj∼NegBin(α,10njβ)なので、
var(yj∣θj)=(β/10nj)2α(1−β/10nj)=10njβα+(10nj)2β2α となる。よって
var(yj)=E(var(yj∣θj))+var(E(yj∣θj))=E(10njβα+(10nj)2β2α)+var(10njβα)var(yj)=10njβα+(10nj)2β2α である。