考研數學:尋根究底之隨機變量篇
[摘要] 隨機變量之于概率正如矩陣之于線代:矩陣是線性代數的活動基地,線代的核心概念基本上都是用矩陣定義的;而隨機變量則是概率統計的活動基地,概率統計的重要概念均以隨機變量為載體展開。

尋根究底之隨機變量篇(一)
普研數學中概率共五題。如果有時間,看看真題,會發現題目是這么表述的:“設隨機變量X…”,“設總體X…”,“設樣本X1,X2,…,Xn為來自總體X的簡單隨機樣本…”。可見考研數學概率部分是以隨機變量為載體出題的;另外,隨機變量之于概率正如矩陣之于線代:矩陣是線性代數的活動基地,線代的核心概念基本上都是用矩陣定義的;而隨機變量則是概率統計的活動基地,概率統計的重要概念均以隨機變量為載體展開。
隨機變量,顧名思義,就是具有隨機性的變量。什么叫有隨機性?劉老師將帶領大家從隨機試驗開始看起。
所謂隨機試驗,就是具有如下特征的試驗:“可重復”,“結果不唯一”,“無法預知”(試驗前無法預知哪種結果出現)。如擲硬幣,擲骰子。對于某個隨機試驗,我們把其結果收集起來構成一個集合,這就構成了該試驗的樣本空間。而樣本空間的子集就是隨機事件。所以隨機事件即某些試驗結果構成的集合。概率第一章的基本概念:樣本空間、隨機事件、必然事件、不可能事件、基本事件,均可以理解成特殊的集合(由隨機試驗的結果構成的集合):全集、子集、全集、空集、單點集。
隨機變量是定義在樣本空間上的單值函數。例如對于擲硬幣這個隨機試驗,其樣本空間為{正,反},我們可以在這個樣本空間上定義一個隨機變量:X(正)=1,X(反)=0。
關于隨機變量的概念,我們不妨多思考一下,以增進和它的關系。套用一句廣告詞:你怎么對待隨機變量,隨機變量就怎么對待你。請思考如下幾個問題:
1. 隨機變量是個函數,這個函數是不是高數中的函數?
不少同學沒有思考過這個問題,那就錯過了深入理解隨機變量的機會。高數中的函數是什么樣子的?起碼定義域是實數集或實數集的子集。而隨機變量的定義域是樣本空間。這說明二者是不同類型的函數。什么?函數還有不同類型?有這種疑惑的同學很可能沒有好好看教材,在同濟六版高數教材第6頁,有一小段話,較為透徹地解答了該問題。大家可以通過翻書或聽我嘮叨幾句這兩種方式解決這個問題。ready?go!映射是兩個集合A,B之間的對應關系,考慮非空集合A、B,對于集合A中的任一元素,若集合B中有唯一確定的元素與之對應,我們就把這種對應關系稱為從A到B的映射。如果集合A、B均為實數集或其子集,我們把這個映射稱為函數。如果定義域為一個一般的集合(非實數集或其子集),那么我們把這種映射稱為泛函(泛函字面意思為廣義的函數)。理解了這些概念后,我們再來看隨機變量,不難發現它原來是個泛函(怪不得不好理解呢)。泛函的知識考研不要求,不必深究。
2. 隨機變量能否表示隨機事件?
這個問題也有不少同學感到困惑。我們以上面定義的這個隨機變量為例,{X=1}是個隨機事件嗎?是??梢杂袃蓚€理解角度:其一,它可以寫成{X=1}={e|X(e)=1}={正},這是一種反對應:由函數因變量的取值反對應自變量的取值。大家可以體會一下如何用隨機變量表示隨機事件;其二,X有兩種可能的取值0,1,并且以一定的概率取每個值,而可以考慮概率的事件自然是隨機事件了。所以以后見到一個隨機變量,我們不一定要弄清它是如何定義的(有時這是困難的),只要我們能分析出這個變量有若干種可能的取值,取每個值有相應的概率即可認可其為隨機變量,進行下一步分析即可。
類似地,{X<=1}也是隨機事件。而且這種方式表示的隨機事件有重要應用。正如深挖群眾提供的貪腐線索有可能揪出大老虎,深入理解基本概念可能會有意想不到的收獲。由{X<=1}為隨機事件,不難得到{X<=a}亦為隨機事件(其中a為給定的實數)。進一步,{X<=x}是隨機事件嗎(x為變量,且不具有隨機性)?給定x,{X<=x}為一個隨機事件;若給定不同的x,就得到不同的隨機事件。如果x的取值范圍是全體實數,我們就得到了一系列的隨機事件。而每個隨機事件又可以與一個概率對應。這樣,對于每個x,有唯一確定的實數與其對應,這就確定了函數關系。這個函數是與X有關的,我們稱其為X的分布函數。是不是有點意外的收獲?
走筆至此,我忍不住要說兩句“形而上”的東西。為什么有同學感覺課上聽懂了,課下卻不會做題?一個重要的原因是上課是學生跟著老師的思路走,缺少主動探索和“試錯”。我們碰到一道題就像路過一個十字路口,有前后左右四個方向可選,而最終我們會選擇其中一個方向走下去。那為什么要選這個方向?很多時候,我們要用主動的試錯去減少可能性,用試錯去建立自己的經驗系統,進而依據經驗系統做決策。而這種試錯最好在平時完成(在考場上試錯就“悲劇”了)。
3. 為什么要引入隨機變量?
隨機變量是把隨機試驗的結果與實數對應起來,方便用數學工具處理。沒有隨機變量的狀態,我們已經見識過了,就在概率的第一章。我們可以考慮隨機事件,但每次說起來和寫起來都不方便:事件中的元素可能是“正”和“反”,也可能是“1點”和“6點”,還可能是“中”和“不中”;相應地算概率可能是P{“正”},可能是P{“擲出偶數點”},還可能是P{“獨立重復地射擊10次,擊中k次”}。而有了隨機變量后,整個概率的世界就不同了:可以用P{X=1}表示擲硬幣朝上的面為正面,表示擲骰子擲出偶數點,還可以表示射擊命中,只需要修改隨機變量X的定義即可;此外,我們可以進一步定義X的分布函數,那么高等數學就可以作為一個工具來為概率統計服務了,比如求極限,求導這些基本計算可以對分布函數進行。
尋根究底之隨機變量篇(二)
在弄清了隨機變量的含義后,我們思考一個問題:用什么方式去描述它?隨機變量有兩個要素:取值和取值對應的概率。而分布是描述隨機變量的方式。分布包括三種:分布函數,分布律和概率密度。為什么要有三種,這么麻煩,一種多簡單?這就像現金可以完成支付,為什么還會有公交卡?因為我們坐公交時刷卡更方便些。分布函數確實可以描述所有隨機變量,但對于離散型隨機變量,用分布律描述較為方便;對于連續型隨機變量,用概率密度描述較為方便。
分布函數是描述隨機變量的通用方式。對于隨機變量X,我們稱F(x)=P{X<=x},(x屬于R)為其分布函數。關于分布函數,前文我們討論過一種理解角度,此外,我們還可以從以下幾個角度理解。
1.F(x)=P{X<=x}= P{X屬于(負無窮,x]},意味著X的分布函數F(x)是隨機變量X落入區間(負無窮,x]的概率。
2.對于上面用擲硬幣這個隨機試驗定義的隨機變量X,大家動手寫一下它的分布函數,不難得到如下結果:當x<0時,F(x)=0;當0=
3.隨機變量X不是高數中的函數,那么其分布函數是高數中的函數嗎?是。我們觀察上面寫出的分布函數的表達式和圖像,會發現它就是一個普通的分段函數,是高數的中的函數。
在討論完隨機變量后,我們討論多維隨機變量。
先考慮一個問題:什么叫多維隨機變量。想一下,咱們在哪個地方提到過“多維”?高數中有二維平面,三維空間。線性代數中向量的維數即向量分量的個數。所謂n維隨機變量,就是一個向量,該向量的每個分量是定義在同一個樣本空間上的隨機變量?;蛘呃斫獬蒼個一維隨機變量放在一塊考慮。
我們學習多維隨機變量,要和一維對比起來理解。前面提到,我們是用分布描述一個隨機變量的,分布有三種:分布函數,分布律和概率密度。那么,推廣一下,就得到了二維隨機變量的描述方式。先看分布函數。
一維隨機變量的分布函數是個一元函數F(x),它是一維隨機變量X落入到一個區間(負無窮,x]的概率;相應地,二維隨機變量的分布函數應是一個二元函數F(x,y),它是二維隨機變量(X,Y)落入一個平面區域(負無窮,x]乘(負無窮,y]的概率。一維隨機變量的分布函數有三條性質:“單調不減”,“0,1之間”,“右連續”。那么推廣過來,就得到了二維隨機變量分布函數的性質:關于x關于y均為單調不減;函數值在0,1之間;關于x關于y均為右連續。理解起來也不困難:所謂“關于”,就是把一個變量固定讓另一個變量變化;分布函數是一個概率,當然在0,1之間,這里與一維有所不同(F(負無窮,y)= F(x,負無窮)=0),只需注意到定義中的逗號是“且”的意思。最后一條性質可以結合圖像理解,考得不多。
仍有一個問題:一維隨機變量的分布函數的三條性質是充要條件,那么二維隨機變量的分布函數的這四條性質是充要條件嗎?這個考試不要求。當然,其它類似理解:如F(x)是一維隨機變量的通用描述方式,每個隨機變量均可對應一個分布函數;相應地,F(x,y)是二維隨機變量的通用描述方式,每個二維隨機變量均可對應一個分布函數。
理解了二維分布函數的定義和描述方式后,我們看看二維隨機變量的類型?;仡櫼幌乱痪S隨機變量有哪些類型?離散和連續。推廣一下,可以得到二維離散型和連續型隨機變量。
什么是一維離散型隨機變量?無非是取值為有限或者可列無限個的隨機變量。類似的,二維隨機變量,若其取值是有限或可列無窮對,則稱其為二維離散型隨機變量。并且二維離散型隨機變量的描述方式與一維一致,也是寫出所有可能的取值,寫出取值對應的概率即可。差別在于二維的取值是實數對,而一維是實數。
類似地,我們可以得到二維連續型隨機變量的定義及性質。
二維隨機變量的分布函數、分布律和概率密度統稱聯合分布。
尋根究底之隨機變量篇(三)
多維分布包括三種:聯合,邊緣,條件。后兩種是多維變量獨有的分布。我們先從邊緣分布看起。先總體把握一下:X,Y放在一塊構成一個向量(X,Y),其分布稱為聯合分布,而X自己作為隨機變量,其分布稱為(X,Y)關于X的邊緣分布。當然分布包括三種:分布函數,分布律和概率密度。前面加上邊緣,就得到三種邊緣分布。何為(X,Y)關于X的邊緣分布函數FX(x)?把握兩點即可:一、隨機變量自己的分布函數;二、它和聯合分布函數的關系:對比FX(x)和F(x,y)的定義,我們發現前者不含y,如何把F(x,y)中的y變沒呢?注意到F(x,y)=P{X<=x, Y<=y}中的“X<=x”和“Y<=y”為兩個事件,如果我們令y趨于正無窮,則“Y<=正無窮”為必然事件,那么F(x,正無窮)=P{X<=x, Y<=正無窮}= P{X<=x }。如果我們已知X和Y的聯合分布函數,要求關于一個隨機變量的邊緣分布函數,只需求極限即可(令一個變量趨于正無窮)。
弄明白邊緣分布函數后,邊緣分布律和邊緣概率密度就是類似的了。關于邊緣分布律,也是把握兩點:一、(X,Y)二維離散型隨機變量,X自己是一維離散型隨機變量,它自己應有分布律,我們把這個分布律稱為(X,Y)關于X的邊緣分布律。二、邊緣分布律和聯合分布律的關系。(X,Y)關于X的邊緣分布律P{X=xi}=pi(i=1,2,…)中不含j,意味著P{X=xi}=pi對所有的j都成立。故P{X=xi}= P{X=xi,Y=y1}+ P{X=xi,Y=y2}+…也就是說,如果我們知道了聯合分布律,要求邊緣分布律,做加法即可。反過來,如果我們已知邊緣分布律,要求聯合分布律。首先要有“已知邊緣求聯合”的意識,之后我們可以把聯合分布律的表畫出來,并把邊緣分布律寫在一邊,再結合已知條件,不難把聯合分布律的表填完整。對于二維離散型隨機變量,其分布問題關鍵是寫出聯合分布律,求邊緣分布律即做加法,求條件分布律做除法即可。
根據離散和連續的對應關系,我們不難得到邊緣概率密度。其概念也是把握兩點:一、(X,Y)關于X的邊緣概率密度其實就是隨機變量X自己的概率密度,這是一維隨機變量的概率密度,與第二章講的概率密度無區別,加上邊緣是為了指明它與聯合概率密度的關系,當然也是為了區分與二維隨機變量相關的兩個概率密度(聯合與邊緣);二、邊緣概率密度與聯合概率密度是什么關系?我們可以通過離散型隨機變量和連續型隨機變量的對應關系來把握。我們通過對聯合分布律做加法就得到了邊緣分布律,而積分可以理解為“連續求和”,所以我們通過對聯合概率密度求積分可以得到邊緣概率密度。
以上是對邊緣分布的討論,下面我們來看條件分布。首先,考研[微博]范圍內只須考慮條件分布律和條件概率密度,不用管“條件分布函數”。我們以下面的二維離散型隨機變量為例,討論條件分布律。先給出二維隨機變量的聯合分布律:P{X=0,Y=0}=1/4, P{X=0,Y=1}=1/4, P{X=1,Y=0}=1/2, P{X=1,Y=1}=0。我們考慮下面的概率P{X=0|Y=0},不難發現這是一個條件概率,我們按照條件概率的定義寫出來P{X=0|Y=0}=P{X=0,Y=0}/ P{ Y=0}=(1/4)/(1/4+1/2)。那么這是不是條件分布律呢?不是,條件分布律要給出Y=0的條件下,X的所有可能取值及取這些值對應的概率。所以上面的式子只是給出了條件分布律中的一項。意識到這點,我們不難寫出另一個式子P{X=1|Y=0}= P{X=1,Y=0}/ P{ Y=0}=(1/2)/(1/4+1/2)。這兩個式子合起來構成一個完整的分布律,我們稱其為給定Y=0的條件下X的條件分布律。通過這個小例子,我們思考一下:什么是條件分布律?條件分布律是一些條件概率。我們觀察最終結果,不難發現結果是比值,分子是聯合分布律中的一項,分母是邊緣分布律中的一項。我們可以簡單地記成:“聯合/邊緣=條件”。而實際做題過程中,如果我們能寫出聯合分布律,寫出邊緣分布律就是做加法,而寫條件分布律就是做除法。實際是聯合分布律中的項占該項所在行(或列)的數字的和的比例。我們把上面討論的內容總結一下,就得到了一般的條件分布律的定義。我們稱P{X=xi|Y=yj}=pij (i=1,2,…)為給定Y=yj的條件下,X的條件分布律。在這個定義式中,要分清哪個指標是固定的,哪個指標是可變的。
條件概率密度可以依據離散和連續的對應關系來理解。如對于條件分布律,有“聯合/邊緣=條件”,那么相應地,條件概率密度等于聯合概率密度除以邊緣概率密度,即fX|Y(x|y)=f(x,y)/ fY(y)。
下面我們對多維分布做一個小結:多維分布分成三個部分:聯合分布,邊緣分布和條件分布。這三部分基本的要求是理解定義和性質,其中聯合分布函數有四條性質,前三條由一維分布函數推廣而來,第四條性質通過畫圖理解;聯合分布律和聯合概率密度的性質(非負性和歸一性)可作為充要條件;邊緣分布函數,分布律和概率密度其實是一維分布,自然滿足一維分布的性質;條件分布律和條件概率密度也滿足非負性和歸一性。多維分布這部分內容對應考研數學兩道大題:多維分布的計算和求隨機變量函數的分布。有了對基本概念的透徹理解,掌握相應的方法就水到渠成了。