A HISTORY OF BAYESIAN INFERENCE IN EDUCATIONAL MEASUREMENT

本章節回顧了在教育測量與測驗中貝氏推論的歷史。我們將貝氏推論在教育測量中的發展與一般貝氏推論的歷史相互交織,主要關注貝氏推論如何促進教育測量的發展,同時也會看到教育測量和相關領域對貝氏推論的貢獻。我們首先提供一個針對貝氏推論的概述,針對不熟悉相關關鍵概念和術語的讀者進行解釋。接著,我們探討了貝氏推論的歷史,包括從18世紀末開始的起源和推廣,到20世紀早期頻率主義方法的崛起,再到20世紀中期對貝氏方法的重新關注。從此時開始,我們聚焦於教育測量的歷史,重點討論兩個關鍵活動:評分考生和估計測量模型參數。接下來的兩節討論了20世紀70年代在教育測量和更廣泛的統計學界中建立分層建模方法的發展及其對估計模型參數的應用。然後,我們簡要回顧了貝氏方法從20世紀70年代到現在擴展到數個應用領域的幾個關鍵方面。接下來的部分反映了馬可夫鏈蒙特卡羅估計方法的出現以及貝氏方法在教育測量中的爆炸性增長。最後兩部分回顧了過去和現在的情況,並展望了貝氏方法如何在該領域的前沿得到應用。 

貝氏推論概述

本節提供貝氏推論基本機制的概述,並介紹目前的觀點。我們在此的介紹是簡短的,對於對貝氏推論有興趣的讀者,可以參考Gelman等人(2013)、Bernardo和Smith(2000)、Jackman(2009)和Kaplan(2014)的著作。對於在測量模型上對貝氏推論有興趣的讀者,可以參考Fox(2010)、Levy和Mislevy(2016)、Almond等人(2015)、Novick和Jackson(1974)和Lee(2007)的著作。

處理不確定性的方法現在通常被稱為貝氏推論,但這個方法比貝氏定理更廣泛。然而,從貝氏定理開始講解是一個適當的起點。貝氏定理是指在已知變數x和未知變數θ的情況下, 

在解釋這個表達式時,我們會著重於典型情況,即x包含觀察數據,而θ包含未知參數。左側的表達式p(θ|x)是後驗分布,這個術語反映了在納入數據信息後對參數的信念。第一個等式中的分子p(x, θ)是數據和參數的聯合概率分布。第二個等式是通過將這個聯合分布分為兩個項得到的:p(x|θ)是給定參數時數據的條件概率,當已知數據時,它被視為參數的似然函數;p(θ)是模型參數的先驗分布,即在考慮數據之前對參數的信念。分母是在模型規格下觀察到的數據的邊際概率。 

對於離散參數,求和遍及所有可能的θ值, 或

在連續參數的情況下,因為p(x)不隨不同的θ值而變化,所以可以從上述表達式中省略它,以得到一個比例關係,如(1)右側所示。

將概率視為信念表達(de Finetti,1974),後驗概率是我們對未知的θ的信念表達,通過從觀察到的x推理出模型來修訂初步的信念,也被表示為概率分佈。作為一個分佈,後驗信念可以以常用的方式進行表達、總結或傳達,包括圖形顯示,如密度圖和散點圖,或數值摘要,如中心趨勢或變異性的點摘要或區間摘要。我們將看到,從這些基本概念和方程式中,一般的概率推斷方法以及在教育測量中的特殊應用得以形成。

貝氏推論選定歷史:起源至20世紀


在此及後續章節中,我們將描述與教育測量相關的貝氏推論的重要歷史發展。Stigler(1986)、Fienberg(2006)和 McGrayne(2011)更詳細地描述了貝氏推論的歷史。

貝氏定理最早可以追溯到 Reverend Thomas Bayes(1764)的著作《關於機率學的一個問題的解決方案》。這篇論文是在Richard Price的努力下於1763年,Bayes去世兩年後出版的。用現代的框架來看,這篇文章著重於一個數據被規定為遵循具有未知參數的二項分佈的情況,該參數控制成功的概率,並且該參數具有均勻的先驗分佈。

這些觀念受到的關注並非來自Bayes的工作,而是來自Laplace的工作。從1774年的論文《Mémoire sur la probabilité des causes par les évènements》開始,並延伸至他的著作《Théorie analytique des probabilités》,首次出版於1812年,Laplace使貝氏的理念受到廣泛關注,並在接下來的一個多世紀繼續影響統計實踐。

我們現在稱之為「貝氏」推論的方法,在當時並未被稱為「貝氏」。相反,它被稱為「逆概率」(Fienberg,2006),其中「逆」一詞強調了從效應推導原因、從數據推導參數、從 x 推導 θ 的概念,並在包含 x 和 θ 的聯合概率模型中保持一致。也就是說,我們構建模型具有特定的流向,從原因到效果,從參數到數據,從 θ 到 x,顯示為條件概率 p(x|θ)。一旦觀察到效果/數據/x,推論就會以相反的方向進行,得到 p(θ|x)。

雖然在19世紀有批評者,但這種思維方式在統計界存在並在20世紀初至少普遍存在,而後來被稱為貝氏推論的方法在當時是一種經常被使用,但有爭議的觀點(正如我們將進一步討論的,爭議的焦點是貝氏定理要求進行反演的先驗概率 p(θ))。

20世紀初貝氏推論與頻率主義的興起

貝氏推論有其批評者,但沒有人的影響力能與 Sir Ronald A. Fisher 相提並論(McGrayne,2011)。了解當時的術語,我們可以看到 Fisher 直接瞄準了貝氏推論,正如他在1925年的著作《統計方法研究工作者》中明確聲明的那樣:

在過去的一個半世紀里,人們一直試圖將概率的概念擴展到從關於樣本的假設(或觀察)推導關於群體的推論。這類推論通常在「逆概率」的標題下進行區分,並曾一度廣泛接受。……[我]只需要重申我的個人信念,我在其他地方也有持續的信念,那就是逆概率理論是建立在一個錯誤之上的,必須完全拒絕。(第9-10頁)

很難過分強調 Fisher 和 Neyman 等人在批評貝氏推論和推廣他們自己的方法方面的影響力。主要的批評涉及將參數視為隨機的適當性,以及是否應使用先驗概率 p(θ),甚至是否具有意義的相關適當性。儘管 Fisher、Neyman 和其他人之間當然存在分歧,但他們從20世紀20年代到世紀中葉的工作整合迅速形成了現在通常歸為頻率主義推論的方法,這種推論將未知參數視為固定的,而不是隨機的,與貝氏推論有所區別。

與是否適當這個問題完全不同,希望使用貝氏定理的人面臨著如何使用的問題。特別是,計算標準化因子 p(x) 在實際操作中可能具有挑戰性。在簡單問題中,這並不是一個重大障礙,但隨著問題的增大,它變得極為困難。隨著20世紀上半葉統計學的發展,貝氏推論受到了理論批評和實際限制的阻礙。

這也是測驗理論和心理測量學迅速發展的時期。在 Psychometrika 成立25周年之際,Gulliksen(1961)指出:“測驗理論中的許多問題……實質上是數學統計中多變量分析的問題”(第103頁)。Gulliksen 讚揚心理學家在統計學方面的熟練程度,以及統計學家將注意力轉向測驗理論中的問題。我們也為此慶祝,但急切指出,在測驗理論中,統計分析的大部分發展都是在頻率主義方法占主導地位的時期進行的。

這並不是說在這段時間內貝氏推論處於沉寂狀態。隨著 Fisher 和頻率主義的興起,捍衛貝氏主義者的職責落在了 Sir Harold Jeffreys 身上,他在20世紀30年代就概率的本質和貝氏推論的適當性與 Fisher 交鋒。在20世紀30年代和40年代,統計世界越來越受到 Fisher、Neyman、Pearson、Wald 和其他人的推論系統的支配,Jeffreys(1939)的著作《概率理論》成為了貝氏學派的據點。

儘管 Jeffreys 是貝氏主義最突出和公開的支持者,但意大利學者 Bruno de Finetti 在相對隱秘的環境中研究對貝氏方法以及貝氏推論與測量建模之間的聯繫非常重要的主題。de Finetti 以主張主觀或認識論概率觀點而聞名,即概率是信仰或(無)確定性的表達。他在可互換性方面進行了開創性的工作,其中包括一個我們在概念上詳述為一組變量可互換,如果我們對它們的信仰都是相同的定理。在二分變量的背景下,de Finetti(1931, 1937/1964)證明了以他的名字命名的定理,該定理已被擴展到更一般的形式(見 Bernardo & Smith,2000)。 

定理的一般形式可以表示為一組 J 個變量 x1, …, xJ: 

概念上,定理說明我們總是可以用一系列條件獨立並且相同分佈(i.i.d.)的變量分佈來表示變量的聯合分佈(左側),條件下的參數,以及參數的分佈(右側)。在貝氏術語中,右側有條件變量的概率,p(xj|θ),以及在該條件分佈中引入的參數的先驗分佈,p(θ)。

De Finetti 的表示定理被認為是一個有力的論證和工具。論證是可互換性是核心假設,它導致在模型中引入參數、參數的(先驗)分佈,以及後續的貝氏計算(例如,Bernardo & Smith,2000;Jackman,2009)。作為工具,它允許分析師使用更簡單、熟悉的 i.i.d. 條件分佈來為變量指定模型,以及指定這些分佈時引入的參數(們)的分佈。雖然定理對於特定問題中的θ、p(θ) 或 p(xj|θ) 的形式一無所知——這取決於推論者根據理論、經驗和對問題背景的了解來探索——但它確實將這種推理和探索置於數學概率框架之中。

de Finetti定理的右側可以用圖13.1中的結構圖形表示,該圖形顯示xs被建模為依賴於θ,並在給定θ的條件下彼此獨立。值得注意的是,這個圖片和結構與許多現代測量模型完全相同。古典測試理論(CTT)、試題反應理論(IRT)、因子分析(FA)、潛在類別分析(LCA)及其擴展都具有這種基本結構,主要區別在於xs和θ的分佈規範。在它們的核心,這些模型將xs視為在給定潛在變量θ的條件下彼此條件或局部獨立的可觀察變量。 

圖13.1 de Finetti定理右側的圖形表示,顯示在給定θ的條件下xs的條件獨立性。另一方面,這是許多測量模型核心結構的圖形表示。來自Levy和Mislevy(2016)圖3.5的重製圖。 

但我們有點搶先了。當時尚未認識到測量建模與de Finetti的工作之間的聯繫,這在很大程度上是因為測量建模處於相對初期階段。此外,貝氏學派(Bayesian community)並未立即意識到de Finetti的工作的重要性。到了20世紀50年代,這種情況才發生了變化。

20世紀中葉的復興

20世紀50和60年代,對貝氏方法(Bayesian methods)的興趣逐漸擴大(Fienberg,2006; McGrayne,2011),如Good(1950)、Savage(1954)和Raiffa & Schlaifer(1961)等文獻所標誌。Raiffa和Schlaifer發展了共軛先驗分佈(conjugate prior distributions)的概念和形式,在這種情況下,特定形式的先驗分佈與似然性相結合,產生相同形式的後驗分佈。這些情況產生了封閉形式解,因此可以用於實際工作,因為隨著問題變得越來越複雜,方程式1中的標準化項p(x)的計算變得不切實際。此外,各種先驗分佈的可用性有助於將貝氏學派從將等權重應用於所有可能值(即均勻先驗)的策略中解脫出來,這是貝氏和拉普拉斯(Laplace)的原始作品中出現的策略(儘管拉普拉斯確實考慮了更一般的形式),有些人認為這是使用貝氏推論(Bayesian inference)的必要條件。

另一組發展是通過綜合觀察和跨源的證據,例如通過經驗貝氏方法(Robbins,1956)。經驗貝氏方法使用其他(通常是過去的)結果來形成先驗分佈,這種操作方式與卡爾·皮爾森(Karl Pearson)關於使用現有數據的觀點相似,分析師認為這些數據是相關的,以形成信仰(Pearson,1941;參見Fienberg,2006)。

在當時,約翰·圖基(John Tukey)與大衛·布里林格(David Brillinger)和大衛·華萊士(David Wallace)一起對選舉預測進行了這方面的研究,包括在選舉之夜進行實時更新(Fienberg,2006;McGrayne,2011)。有各種形式的數據可用,包括各個級別(例如按縣)的過去投票結果、選舉之夜之前的民意調查、政治學家的預測以及選舉之夜流入的已完成和部分選票。這些數據被用來構建先驗分佈,這對於產生信息相對較少的地點的估算特別有幫助。對於任何一個地點的分析,都相當於使用圖基的術語“借用他人的力量”。

正是在這個時候,貝氏(Bayesian)理念開始明確地進入量化心理學和教育測量領域。在一篇具有里程碑意義的論文中,Edwards、Lindman 和 Savage(1963)指出,當時尚無教科書涵蓋所有這些貝氏理念和程序,以實驗(量化)心理學家為目標讀者。此外,他們認為在不久的將來也不太可能有這樣的教材,因為“貝氏統計作為一個連貫的思想體系還太新,尚未完善”(第193頁)。為了填補這個空白,Edwards 等人(1963)試圖“向心理學家介紹統計學中的貝氏觀點”(第193頁),講述了關鍵理念以及它們如何脫離已經建立起來的頻率主義程序。在接下來的幾年裡,這將成為一個思想體系的積極發展時期,針對性的書籍將在十年後出現(Box & Tiao, 1973; Novick & Jackson, 1974)。在教育測量和相關領域,Meyer(1964, 1966)倡導使用貝氏方法,並主張其在推論(Inference)、政策和決策中的作用。

這些出版物標誌著教育測量和量化心理學成為20世紀50年代和60年代貝氏方法復興後首批關注貝氏方法的學科。正如我們將看到的,這並非是教育,尤其是測量領域成為新貝氏程序的早期采納者和測試平台的最後一次。這並不是說測量和測試理論中沒有已經存在的貝氏理念,正如下一節所述;它們只是沒有被稱為這個名字。