本文是一篇手記,記錄瞭我對負二項分佈及其應用的理解。目錄如下:
1.理解"負"的含義
負是指負二項級數,但實際上,“負”除瞭告訴我們負二項分佈的由來,對理解其直觀意義並無幫助。
根據組合數定義:
begin{aligned}left(begin{array}{c}x+r-1 \xend{array}right) &=frac{(x+r-1)(x+r-2) cdots r}{x !} \&=(-1)^{x} frac{(-r-(x-1))(-r-(x-2)) cdots(-r)}{x !} \&=(-1)^{x} frac{(-r)(-r-1) cdots(-r-(x-1))}{x !} \&=(-1)^{x}left(begin{array}{c}-r \xend{array}right)end{aligned}
把組合數定義帶入下面的式子((1-q)^-r是負二項級數):
begin{aligned}1 &=p^{r} p^{-r} \&=p^{r}(1-q)^{-r} \&=p^{r} sum_{x=0}^{infty}left(begin{array}{c}-r \xend{array}right)(-q)^{x} \&=p^{r} sum_{x=0}^{infty}(-1)^{x}left(begin{array}{c}-r \xend{array}right) q^{x} \&=sum_{x=0}^{infty}left(begin{array}{c}x+r-1 \xend{array}right) p^{r} q^{x}end{aligned}
2.理解定義1:伯努利過程視角
定義1完全是基於負二項級數得到的,從伯努利過程的視角出發,也能自然的能理解負二項分佈;
實際上,負二項分佈描述的是第r次成功前失敗的次數,記為k,那麼有:
text{Pr}(X=k) = left(begin{array}{c}k+r-1 \r-1end{array}right) cdot(1-p)^{k} p^{r}
2.1.理解其作為sum of i.i.d geom
一旦理解瞭定義1,很自然的就可以理解為什麼sum of i.i.d geom 是 負二項分佈:
因為幾何分佈刻畫的是在多次伯努利試驗中,第一次成功前所經歷的失敗次數。
2.2.理解其期望/方差/MGF的推導 done
理解瞭sum of i.i.d geom 是 NB後,NB的很多數字特征是可以通過geom推導出來的。
包括:
期望/方差/MGF
假設由r個i.i.d的幾何分佈相加,得到瞭NB(r,p),那麼期望與方差可以寫作:
E(X)=frac{r(1-p)}{p} quad operatorname{Var}(X)=frac{r(1-p)}{p^{2}}
MGF:
M(t)=frac{p^{r}}{left(1-(1-p) e^{t}right)^{r}}
隻需要從幾何分佈的期望/方差/MGF出發就能得到上面的結果。
2.3.理解定義1的拓展
由於gamma函數在整數時恰好等於整數-1的階乘,即:
Gamma(a)=(a-1)!
因此,可以把組合數的定義式利用gamma函數對定義1進行拓展,這樣使得r得取值范圍在整個正實數范圍。即:
# failures before r-th success, denote by k:
f(k ; r, p) equiv operatorname{Pr}(X=k)=frac{Gamma(k+r)}{k ! Gamma(r)}p^{r} (1-p)^{k} quad text { for } k=0,1,2, dots
3.理解其與泊松分佈的極限關系
令X~NB(r,p),若 stopping parameter r
趨於無窮,且每次成功的概率p趨於0,且保持期望不變(E(X)=r(1-p)/p),並把期望記作λ,那麼λ就等於:
lambda=r frac{1-p}{p} quad Rightarrow quad p=frac{r}{r+lambda}
將p帶入定義2的表達式,得失敗次數為k的概率為:
P(X=k ; r, p)=frac{Gamma(k+r)}{k ! cdot Gamma(r)} p^{r}(1-p)^{k}\=frac{1}{k !} cdot frac{Gamma(r+k)lambda^{k}}{Gamma(r)(r+lambda)^{k}} cdot (frac{r}{r+lambda})^r\=frac{lambda^{k}}{k !} cdot frac{Gamma(r+k)}{Gamma(r)(r+lambda)^{k}} cdot frac{1}{left(1+frac{lambda}{r}right)^{r}}
現在,考慮r趨於無窮,第二項將會趨於1(分子分母同階);第三項根據compound interest limit 趨於e^{-λ},所以得到:
lim _{r rightarrow infty} P(X=k ; r, p)=frac{lambda^{k}}{k !} cdot 1 cdot frac{1}{e^{lambda}}
即泊松分佈的PMF。
換句話說,上面的r參數實際上控制瞭NB與Poisson的deviation;這個性質使得負二項式分佈可以作為泊松的穩健替代,即:當r很大得時候就會逼近泊松分佈,當r很小的時候,其方差比泊松分佈大。【這一點可以從NB的mean與var中都能看出來,具體見下面】
4.理解期望/方差/overdispersion之間的關系
根據前面第2節的結果,期望與方差分別為:
mu=E(X)=r frac{1-p}{p}\sigma^2=Var(X)=rfrac{1-p}{p^2}
重新改寫一下方差,並以期望的形式表示(一點代數技巧):
sigma^{2}=mu+frac{1}{r} mu^{2} > mu
我們發現,在NB中,方差總是大於期望的;而當r(stopping parameter)趨於無窮大的時候,方差與期望相等。前面我們已經推導瞭當r趨於無窮的時候,NB就成瞭泊松分佈。這裡再次印證瞭這個結論。
我們不妨把1/r稱為dispersion parameter,它能夠幫助我們檢驗數據的overdispersion情況(利用Wald test檢驗原假設1/r=0是否成立)。
這一點性質使得我們可以把NB當作一個更general得模型來用,在實際count modeling的時候比poisson適合面更廣,因為它能夠handle overdispersion!
5.理解定義2:gamma-poisson mixture distribution
實際上,負二項分佈也叫gamma-poisson mixture distribution;其由來如下:
令Y|λ ~ Pois(λ),λ ~ gamma(ro,bo),有X的邊際分佈服從NB,X ~ NB(r0,b0/(1+b0));
推導如下:
begin{aligned} P(Y=y) &=int_{0}^{infty} P(Y=y | lambda) f_{0}(lambda) d lambda \ &=int_{0}^{infty} frac{e^{-lambda }lambda ^{y}}{y !} frac{left(b_{0} lambdaright)^{r_{0}} e^{-b_{0} lambda}}{Gammaleft(r_{0}right)} frac{d lambda}{lambda}\ &=frac{ b_{0}^{r_{0}}}{y ! Gammaleft(r_{0}right)} int_{0}^{infty} e^{-left(b_{0}+1right) lambda} lambda^{r_{0}+y} frac{d lambda}{lambda} \ &=frac{Gammaleft(r_{0}+yright)}{y ! Gammaleft(r_{0}right)} frac{ b_{0}^{r_{0}}}{left(b_{0}+1right)^{r_{0}+y}} int_{0}^{infty} frac{1}{Gammaleft(r_{0}+yright)} e^{-left(b_{0}+1right) lambda}left(left(b_{0}+1right) lambdaright)^{r_{0}+y} frac{d lambda}{lambda} \ &=frac{Gamma(y+r_0)}{y ! Gamma(r_0)}left(frac{1}{b_{0}+1}right)^{y}left(frac{b_{0}}{b_{0}+1}right)^{r_{0}} end{aligned}
這正好是負二項分佈的PMF。
從這個定義中,我們可以猜一下:
the unconditional NB的方差直觀上要比conditional poisson的大:由於NB分佈中存在一個λ參數額外的不確定性,因此the unconditional NB的方差直觀上要比conditional poisson的大。
這實際上是所有mixture distribution的特點,證明留到方差分解一節。
【註意這和第4節的結論並不一樣:第4節的意思是說對於NB來說,其variance總是大於mean,而這個程度由參數r來控制;本節的這個猜測是從mixture分佈的特點出發,認為the unconditional NB方差要大於conditional poisson的方差】
gamma-poisson mixture distribution的定義允許我們探究很多有意思的事實,因此,在進入方差分解一節以前,我們不妨先看看NB與gamma期望的關系。
5.1理解NB與gamma的期望關系:利用全期望公式
如果以定義1中NB(r0,p)的視角來看,可以定義1與定義2中p和b0的關系:
p=frac{b_0}{1+b_0}
根據定義1,NB(r0,p)的期望可以寫作:
mu=r_0 frac{1-p}{p}
帶入p=b_0/(1+b_0),可以得到:
mu=frac{r_0}{b_0}
ro/bo恰好是gamma(ro,bo)的期望,這說明在gamma-pois mixture model的視角下,NB與gamma的期望是一致的。這是巧合嗎?當然不是,如果你還記得全期望公式:
E(E(X|lambda))=E(X) quad(全期望公式)\E(X|lambda)=lambda quad(泊松分佈的期望)\
所以:
E(X) = E(lambda)=r_0/b_0
可以很自然的發現,在gamma-pois mixture model的視角下,NB與gamma的期望是一致的。
5.2.variance decomposition of mixture distribution
在gamma-poisson mixture distribution的視角下,我們猜測由於NB分佈中存在λ這個額外的不確定性,因此NB的方差直觀上看要比conditional泊松的大。我們的猜測是完全有依據的,這個依據可以通過方差分解公式(EVVE法則)來證實:
operatorname{Var}(X)=E[operatorname{Var}(X | lambda)]+operatorname{Var}[E(X | lambda)]
第一項:Var(X)是指unconditional NB的方差,根據定義:
sigma^2=Var(X)=rfrac{1-p}{p^2}
帶入p=b_0/(1+b_0),可以得到:
sigma^2=Var(X)=rfrac{1-p}{p^2}
第二項 由於Var(X|λ) = λ,所以E(Var(X|λ))=E(λ) = ro/bo = ro(1-p)/p(根據全期望公式得到)
第三項 Var(E(X|λ))=Var(λ)=ro/bo^2 ,帶入bo=p/(1-p),可以得到:
Var(E(X|λ))=r_0/b_0^2 = frac{r_0 (1-p)^2}{p^2}
第二項和第三項加起來正好等於第一項。
6.counting modeling中的應用
學習負二項分佈的目的最終是為瞭應用,計數資料建模中最常見的分佈是泊松/負二項分佈,即:泊松/負二項回歸。
在正式介紹這倆方法前,不妨先回顧一下線性回歸以及GLM的概念。
6.1 回憶GLM
本節回憶幾個基本問題。
1.線性回歸中根據方程預測出來的是什麼?
假設Y|X ~ N(μ,σ^2),根據回歸方程:E(Y|X=xi)=μi = axi+b;我們預測出來的值本質上是條件期望!
2.GLM是什麼?
廣義線性回歸與線性回歸也是類似的,隻不過它做瞭一點泛化:
1) 不再假設Y | X隻能服從normal瞭,而是假設它服從指數族分佈,但不會改變我們預測的仍然是條件期望E(Y|X);
2) 需要一個link function來連接解釋變量與被解釋變量,即:E(Y|X)=g(βX),這個g()可以是指數函數,也可以是logisitic函數,等等;
3.泊松/負二項回歸與GLM的關系?
泊松/負二項分佈都屬於指數族分佈,而這倆分佈的定義域都是非負整數;因此,可以假設Y|X服從泊松/負二項分佈進行計數資料的預測;
具體來說,對於泊松回歸,預測的值是E(Yi|X=xi)=λi;而λi恰好是泊松分佈的參數,它反映的是在單位觀測時間下,稀有事件的發生次數,因此泊松回歸更直觀;而對於負二項回歸來說,在NB(r,p)中,r和p無法直觀體現出期望與方差,因此,負二項分佈的第一種定義對我們理解其回歸的過程沒有幫助;我們需要對NB進行重參數化,將r和p以期望和方差的形式來表達負二項分佈的參數。
4.對於泊松/負二項回歸來說,選擇什麼link function呢?
顯然Y|X ≥0,而由於我們不對X做任何分佈假設,因此βX的取值范圍是整個實數集;這就使得如果直接利用βX預測得到的結果很多可能都會小於0,從而不具備解釋性;因此,我們需要一個能把βX的取值范圍限制在非負數的link function;很顯然,指數函數e^(·)是一個好的選擇。因此,我們選擇e^(·)作為link function,即:E(Y|X)=e^(βX)。
6.2.reparameterized for counting modeling
對泊松分佈來說,其參數λ,而期望=方差=λ;在泊松回歸中,我們要預測的是正是λ【E(Yi|X=xi)=λi】。所以,泊松回歸理解起來比較直觀。
但對於負二項分佈來說,其參數是NB(r,p)的r和p,和我們的計數建模有什麼關系呢?所以,僅靠前面的2種定義對理解負二項回歸是不夠的,因為在回歸中,相比於NB(r,p)的r和p,我們更關註條件期望E(Y|X)與條件方差Var(Y|X)。
換句話說,NB(r,p)中的參數最好能夠用mean和variance重新表達。
回憶定義1的拓展(# failures before r-th success, denote by k):
f(k ; r, p) equiv operatorname{Pr}(X=k)=frac{Gamma(k+r)}{k ! Gamma(r)}p^{r} (1-p)^{k} quad text { for } k=0,1,2, dots
再順便回憶一下期望與方差:
mu=E(X)=r frac{1-p}{p}\sigma^2=Var(X)=rfrac{1-p}{p^2}
將r和p以μ和σ的形式表達,得到:
begin{aligned}&p=frac{mu}{sigma^{2}}\&r=frac{mu^{2}}{sigma^{2}-mu}\&operatorname{Pr}(X=k)=left(begin{array}{c}k+frac{mu^{2}}{sigma^{2}-mu}-1 \frac{mu^{2}}{sigma^{2}-mu}-1end{array}right)left(frac{sigma^{2}-mu}{sigma^{2}}right)^{k}left(frac{mu}{sigma^{2}}right)^{mu^{2} /left(sigma^{2}-muright)}end{aligned}
有時候,也不那麼關註其方差(例如:在負二項回歸中,我們可能隻關註條件期望),那麼,可以將r和p以r和μ的形式表達,得到:
p=frac{r}{r+mu}\Pr(X=k)=frac{Gamma(r+k)}{k ! Gamma(r)}left(frac{r}{r+mu}right)^{r}left(frac{mu}{r+mu}right)^{k} quad text { for } k=0,1,2, dots
6.3. 負二項回歸
即便對負二項分佈進行瞭重參數化,其PMF還是非常抽象,對於直觀理解其意義比較費勁。
現在,請你忘記負二項分佈的標準定義,你對負二項分佈的印象隻保留在它是泊松分佈一個很好的近似。此時,負二項分佈的參數NB(r,p)已經不再重要,你在回歸任務中,更加關註條件期望E(Y|X)。
因此,我們的目的就是依據解釋變量來預測被解釋變量的條件期望:
mathrm{E}left[Y_{i} | X=mathbf{x}_{i}right]=e^{mathbf{x}_{i}^{top} boldsymbol{beta}}\Y|Xsim NB(r,frac{r}{r+mu})
後面就是利用MLE來求解相應的系數瞭:
quad prod_{i=1}^{n}text{Pr}(y_i|x_i)
在實踐中,負二項回歸往往應用更廣泛。
因為計數資料的條件方差往往大於條件期望,前面推導的結論發現負二項分佈在r很大的時候,其實是泊松分佈很好的近似,因此負二項回歸應用更廣泛。
6.4.基因組學中的應用
計數過程在基因組學中簡直再常見不過,生成reads的過程就可以看作一個計數過程。
我們可以把采樣自某個基因的reads數量建模為泊松分佈,並利用泊松回歸估計具體的數量。
然而,對於同一個基因來說,通常var比mean要大(比如進行瞭3次生物學重復實驗,假設測瞭3隻同樣疾病狀態的小鼠;註意,生物重復不是技術重復;這3次得到某基因的reads counts,一般來講方差大於其均值),特別是對於高表達的基因。因此,負二項回歸要更合適一點。
7.理解其與gamma分佈的極限關系
考慮到伯努利過程的幾何/二項分佈對應瞭泊松過程的指數/泊松分佈;我們自然有理由認為負二項分佈(sum of i.i.d geom)相似的對應瞭gamma分佈(sum of i.i.d exponential);
-
扫码下载安卓APP
-
微信扫一扫关注我们微信扫一扫打开小程序手Q扫一扫打开小程序
-
返回顶部