3. Basic Principles of the Rasch Model

原文出處:Bond, T., Yan, Z., & Heene, M. (2020). Applying the Rasch model: Fundamental measurement in the human sciences. Routledge. 

我們在2001年版中開發了途徑類比和包含這些原則的地圖,以解釋Rasch模型的基本概念。這個類比在教育和心理學的許多方面的觀察中都是相當直接適用的,而它對於人文科學中應該使用Rasch模型的其他測量情況的相關性在以下章節中詳細說明。上一章節中的跳高例子被用來介紹Rasch模型的正式陳述以及Rasch試題特性曲線(ICC)的基本思想。 

Pathway Analogy(途徑類比法)

讓我們想像一個孩童發展的階段,例如逐漸掌握畫一個合理的人形或進步朝向理解線性測量的技能,就像在第一章中Piaget提到的那樣。對於這兩個例子,我們的發展理論或許可以定義一個單一的發展序列,可以被圖3.1中的箭頭所代表,但是根據第2章所述,我們並不期望我們對這些發展的觀察能像這條直線上的點那樣有著完美的排序或精確性。實際上,我們需要能夠建立一個測量工具(一組任務、一系列評估準則或一系列問題),以使其在實踐中具有實用價值,從而對能力進行有意義的評估。

那麼什麼樣的工具才足夠好——好到足以支持和捍衛我們所做的決定?我們基於理論的工具必須是我們最好的努力,以承認測量理論中的那條直線和實際實踐中的離轉折的共存。這對我們來說總是會產生一些緊張:實際測量永遠不是完美的。只有使用者才能通過經驗來判斷什麼是足夠好的,但是可以衡量實用性的標準內建於Rasch模型中,並在我們的類比中得到了證明。

箭頭代表著無法達到的理論理想,而圓形石板路在圖3.1中代表了我們測試或觀察進度表中(L、M、N…U)的想像選擇的試題。在路徑底部的步驟將適合所有適當的孩子,甚至是初學者,而在路徑頂部的步驟只有最有能力的孩子才能達到。因此,沿途的不同中間步驟將對我們期望在各種測試參加者中出現的不同發展水平非常有用。從路徑底部(A)的步驟距離代表其相對於其他試題的難度。這是我們對試題難度的表現方式:越接近底部越容易,越靠上越困難。 

這個概念是每個孩子會根據自己的能力(發展)來沿著階梯前進。孩子會使用(掌握)這些階梯,直到它們變得太難。任何孩子沿著這條路徑移動的距離都將是我們對孩子發展或能力的估計。我們使用小正方形(Mike、Jack、Jill 等)來表示每個孩子沿著這條路徑移動的距離。這是我們表示個人能力的方式。我們用來表示路徑類比關係的項目和人員關係地圖包含了許多基本信息,這些信息對 Rasch 測量非常重要,但只需注意前面提到的基本難度/能力概念就可以輕鬆獲得。

請參考圖 3.1,回答以下問題(並解釋原因)。所有的答案都可以直接從圖中獲得,不需要任何關於 Rasch 測量的額外知識。請記住來自第 2 章高跳類比的 50:50 原則。 

Bill比Bob能力高很多還是低很多?為什麼?哪位學生在這次測試中被揭示為能力最低的?為什麼?

Bill是否有可能正確回答問題U?為什麼?

Bill錯過問題S或問題M哪個情況更不符合預期?為什麼?

Mike在測試中得了1分,最有可能是回答哪道問題正確?為什麼?

在圖3.1中,白色和陰影相遇的垂直虛線表示有用路徑的邊緣。在這些邊界之內的樁石可以看作是特定路徑上有用的步驟。在這些邊界之外的位置必須謹慎解釋,就像從路徑走到更崎嶇的地區時一樣。

哪些問題在目前形式下不適合放在路徑上?為什麼?

哪個人的發展方式不符合其他人的發展方式?為什麼?

這次測試是否能夠很好地測量Bob的能力?為什麼?

Jill在測試中得了3分。她最有可能回答哪些問題正確?為什麼?

從人與試題在地圖上的圖示,我們可以看出試題 S 比試題 N 更困難,它在路徑上高出很多。試題 U 在地圖上最高,是這個測驗中最難的試題,大部分的孩子無法做對試題 U。試題 L 在地圖上最低,是這個測驗中最容易的試題。大部分的孩子會做對試題 L。地圖顯示出比起 Bob,Bill 在這個測驗中顯然更有能力,他在地圖上高出 Bob 很多。Bill 不太可能做對試題 U,因為試題 U 的難度超過了他的能力水平;做對試題 U 的人通常需要比 Bill 更高的能力。Bill 的能力比做對試題 M 所需的能力高得多。對於 Bill,錯過試題 M 是一件罕見但不是不可能的事情。但是,因為試題 S 更困難,且更接近 Bill 的能力水平,所以如果 Bill 偶爾錯過像試題 S 這樣的試題,我們不應該感到驚訝。 

V和W這兩個石頭在我們的路徑上位置不夠好,無法直接使用,而Betty沒有像其他人一樣使用這條路徑。Bob的位置很好地符合了品質控制線之間的預期,表示他的表現符合了模型的期望,因此Bob的測量結果是很好的。Jill最有可能在L、M和N試題上答對。她的位置顯示,她比必須要回答這些試題正確所需的能力更高。

圖3.1 所示為特定的虛構人員和試題的發展路徑。 

在開發任何測驗時,我們的目標是在路徑上放置足夠的階梯,以代表從稍微發展(A)到高度發展(Z)之間所有有用的點。當然,為了做到這一點,我們需要從足夠的合適人士那裡收集觀察結果。良好的數據分析需要比我們在圖3.1中包含的試題和人員更多的試題和人員。我們在這裡僅選擇了一些示例。同時,由於我們強調建立和定義路徑,因此我們在此時集中討論了試題,卻忽略了人員,這是不可原諒的。現在,讓我們轉向一些具體的Rasch測量理念,並建立一些指導方針,以幫助我們完成這項任務。 

單一維度性

在我們所提出的測量發展的理念之下,有一個重要的隱含原則。可惜的是,這個原則在我們測量大小、重量、溫度等物理特性的測量工具中,是如此被視為理所當然的,以至於當它被明確提出時,對人文科學的研究人員來說,可能會引起關注,因為他們可能沒有仔細思考這個問題。在試圖測量對象的物理特性、人的特性或天氣時,科學家和一般人都會小心翼翼地一次只測量一個特性。一個長方體有許多特性(例如長度、寬度、高度、重量、體積、密度,甚至是硬度等等),但所有試圖對該特定物體進行有意義的估計的嘗試都專注於一次只測量一個特性。這種一次只測量一個屬性或維度的做法被稱為單一維度性

顯然,我們可以從第一章提到的伽利略測量溫度的嘗試中學到一些東西。他的溫度計(一個檢測不同情況中較熱和較冷的前身)是開放在大氣中的,因此同時對溫度和大氣壓力的變化敏感。Sherry(2011)稱它為壓力溫度計 - 同時是壓力計(對大氣壓力的影響敏感)和溫度計(對溫度的影響敏感),但由於它對兩者都敏感,因此不能依賴它來測量任何一種量測變數。讀數的變化是由於溫度維度的變化、壓力維度的變化還是兩者的變化?不可能判斷。Rasch本人受到我們應從物理測量中學到的啟發,並且Rasch測量包含指標,以檢測何時附加的影響會降低我們測量感興趣的單一變量的努力。 

我們都知道,人類存在的複雜性無法滿足任何單一測驗的一個得分。然而,我們可以發展一些有用的量化估計值來評估某些人類屬性,但我們只能一次對一個屬性或能力進行測試。將多個屬性混合成一個通用分數會使得自這個分數做出自信的預測變得更加危險,而這個分數對能力或成就的總結也變得不太有用。但是,精心製作的測驗,如果能夠對單一屬性進行良好的測量估計,對於一些經過深思熟慮的目的可能已經足夠了。對於特殊或困難的情況,收集其他適當屬性的估計值是必不可少的。當然,定性數據可以用來補充量化結果。毫無疑問,人類是複雜、多維的生物。但是,使用身高作為一個人的測量是一種明顯而方便的簡化,對於基於僅僅這一個估計值的門口高度的適合性,很多情況下可以做出有用的預測。如果我們認為這足以適用於每個人,那麼我們就太天真了。 

在我們迄今為止使用的數據矩陣中(參見第2章),人員能力和試題難度的估計僅在每個問題都有助於測量單一潛在特徵(例如,解決面積問題的能力)的情況下才具有意義。如果編寫該能力測試的教師的意圖在每個試題中沒有得到很好的實現,我們可能會發現孩子的其他能力屬性包含在測量中,從而降低了測試結果的意義。例如,一個試題可能非常依賴語言理解能力。另一個試題可能過於關注孩子解釋複雜幾何圖形的能力。還有一個可能寫得非常糟糕,孩子們很難理解提供的反應選項等等。當然,孩子們必須按照教師在測試中表達的意圖進行合作。在孩子用基於對面積的理解的策略被其他策略替換的情況下,例如,簡單的記憶,猜測,作弊,粗心,使用計算器等等,該孩子解決面積問題的能力估計將被其他能力屬性的影響降低,這些屬性並非教師有意針對的。因此,結果得分在這些其他能力的體現和面積理解之間存在的情況下是不可解釋的(請回憶第2章,高跳中其他變量如比賽表面、氣溫、盛行風向和風力等如何干擾測量過程)。當這些因素壓倒了運動員能力的主要作用時,結果將是不可預測的,就像我們在試圖只測量溫度時發現的那樣。在這種情況下,單一維度性原則要求我們的分析程序必須包含指標,以顯示人員和試題在我們對理想單一維度線的概念中的適配程度。 


試題適配度

在教育、心理學和其他人文科學領域,一個好的測量過程應該一次只估計一種能力,而不是有意或無意地將兩個或多個人類性狀混合到一個度量或分數中。每個試題都應該有意義地為所研究的結構/概念做出貢獻。在這裡,有助於明確思考Rasch模型如何專注於"結構效度"和"順序"這兩個關鍵概念。首先,結構效度的一個方面關注的是被記錄的表現是單一潛在結構的反映:試題反應理論(Item Response Theory, 簡稱IRT)由研究者試圖用試題或觀察來表示它,以及被推斷為對這些表現負責的人類性狀。

將試題和受試者以連貫、整合的方式關聯在一起的資料矩陣,比那些關係看似偶然的資料矩陣更有可能滿意地代表(即,適配)正在檢查的結構。當然,檢測這種混淆可能不容易,但對於教師編制的測驗和潛在大規模測驗的初稿,測驗評分完成後,與幾位選定的考生一起逐個討論問題,以幫助確定測驗編寫者的意圖在學生的回答中表現得有多充分。詢問孩子們如何找出某些試題的正確答案;檢查一下一些最聰明的孩子如何錯過了其中一個較容易的試題。有序的資料矩陣,如第2章所示,可以使用電子表格輕鬆實現,這將是決定哪些學生和哪些問題值得更仔細審查的非常好的方法。不符合預期能力/難度模式的試題或受試者將是一個好的起點。這樣,定量和定性調查的各個方面可以共同努力改進測驗設計。

由於通常無法通過對資料矩陣的視覺檢查來評估單個試題或受試者的影響,Rasch分析提供了適配統計數據,旨在幫助研究者就數據做出一系列相互關聯的決策(Smith,1991, 1992, 2000; Smith & Miao,1994; Wright & Masters,1982; Wright & Stone,1979)。Rasch分析提供了關於每個試題在潛在測驗結構中的適配度的指標。典型的適配指標使用回答模式來估計不適配的程度,或者,不適配的可能性。在Rasch測量中,適配的概念被視為一種"質量控制機制"(類似於在工業統計中使用適配)。適配統計數據為研究者在不變比較方面完成了足夠心理測量質量的任務提供了一個指示。這對於評估單一維度結構的意義的研究者來說是至關重要的。也就是說,適配指數幫助研究者確定Rasch對單一維度要求在實證上是否成立。不符合單一維度結構的試題(如圖3.1所示的理想直線)是那些與預期能力/難度模式偏差不可接受的試題(參見第2章)。然後,適配統計數據有助於確定試題估計是否可以作為觀察的有意義的定量總結(即,每個試題是否僅對一個結構的測量做出貢獻)。 

在圖3.1中,請注意階梯(例如試題L、M、N)並未完全沿著理論直線排列。我們可能有一些試題或觀察接近完美,但我們的目標是將它們放置在足夠靠近理論直線的位置,以成為從A到Z的假設路徑的良好實踐指標。假設我們正在開發一個基本數學技能測試。像L、M和N(容易的試題)這樣的試題可能是簡單的加法問題,而試題T和U(困難的試題)可能是長除法問題。像我們示例中的試題V和W這樣的跳躍式試題,如果它們距離中心線不夠近以成為這條路徑的一部分,它們很可能不遵循這種模式。也許試題V是一個將閱讀能力與數學能力混淆的故事問題;試題W的正確答案可能在其他試題中揭示出來。那麼適配統計數據將表明,這些試題可能更適合包含在其他相關路徑中。除非它們適配得更好,否則它們在這條從A到Z的路徑中將不具有用途。典型的適配統計數據揭示的問題包括"雙管齊下"的態度問題,其中一些人回應a部分,一些人回應b部分,一些人回應兩者;或者與健康相關的只適用於部分而不是所有患者的試題。也許我們可以嘗試在下次使用這個測試時重寫這些試題或以其他方式表達它們。我們可以替換它們或在其他測試中使用它們。 

然而,在這個早期階段,最好不要將試題V和W的結果計入任何孩子的測驗分數中。如果不計算這些結果,我們對孩子的數學能力的衡量可能更有意義。此時,初學者可能會對編寫足夠的「好」試題或收集足夠的「好」數據感到絕望;他們可能會傾向於丟掉太多東西,或者最終決定尋找對他們、他們的試題和數據要求較低的分析方法。通常,像試題V和W那樣表現的試題中的缺陷太小,以至於無法明顯地扭曲測量結果。重要的是要記住,不適配的試題(或人)具有不同的意義,這取決於它們不適配的性質。在路徑的右側,放置著那些不適配得足夠好的試題(例如,V),它們的表現「過於不穩定」,無法為良好的測量作出貢獻。我們可以通過在試題V的回應列中暫時刪除一些意想不到的觀察來研究這個問題,這可能有助於揭示問題的本質。去除一些低能力的「猜測者」的正確回應或一些「不專心」的高能力者的錯誤回應,可能會給試題V不適配的原因提供一些線索。 

在路徑的左側,有那些適配得非常好的試題(例如,W),我們可以將它們視為「好得令人難以置信」。少量這樣「好得令人難以置信」的試題並不會降低測量水準。此外,在這個例子中,只需去除一個不適配的試題,比如試題V(太不穩定),路徑就會向試題W移動,這樣試題W現在就在路徑上了。移除過度適配的試題W可能會使V落在有用的路徑上。跟試題編寫者談談V和W的相對品質;很可能他們會同意放棄「太不穩定」的試題V,而保留「好得令人難以置信」的試題W。最後,那些在教育測試或健康監測中對高風險決策進行評估的人對不適配(即,不穩定)的試題和個人表現的容忍度將會降低。對於我們其他人來說,使用Rasch適配指標應該是一個反覆學習的過程:揭示更多關於變量的信息,了解它是如何在人和試題表現中呈現出來的,發現我們的數據收集如何可以更好地控制,等等。要更好地理解適配統計數據,我們可以互動式地刪除部分人或試題的子集,並比較每個輸出的診斷結果。但我們絕對不建議使用這種方法來「整理」不適配的數據集。 

為了幫助我們決定哪些試題在我們的路徑中有意義地包含在內,我們可以在理論直線的兩側畫上一條虛線,並與理論直線平行,以檢查我們的步驟與路徑的適配程度是否足夠達到我們的預期目的(例如,像95%的置信度或品質控制線一樣)。的確,一些Rasch軟件輸出以這種方式以圖形形式報告試題適配數據。

在每種情況下,分析輸出表格將提供更多關於每個試題或個人表現如何滿足或未能滿足模型期望的詳細信息。顯然,估算結果與模型不夠「適配」的試題需要進一步調查。那麼,正如前一章中所說,應該始終有充分的理論依據,將每個試題包含在觀察計劃中,並使用該計劃或核對表對任何特定人進行觀察。考慮到測試建構、測試和數據收集通常是出於一些非常好的原因,對理論或其在實踐中的表現的重要見解可能是這種思考的結果。我們的理論指導我們決定應該使用哪些試題,以及應該與誰一起使用它們。因此,這種與理論相結合的Rasch資訊方法,可以與經常使用的生成大量可能試題的網絡,然後在非常大的、據稱呈正態分佈的樣本中搜索具有可接受統計特性的試題子集的過程進行對比,這些統計數據與構建測量通常沒有什麼關係。

一個好的理論可以通過這個過程迅速地受到損害或大大提高。此外,衡量替代方案的識別和選擇方式,以及衡量問題的預期和解決方式,影響了研究者在決定哪些策略和技術最適合這些框架時使用的框架的發展、選擇和使用。在影響研究結果有效性的過程中,衡量過程對理論的不斷修訂和改進產生了影響。(Blalock & Blalock, 1982, p. 37) 

Rasch模型包含了數據相互關係的理論理想化,這是一個無法實現的完美狀態,數學上表示為圖3.1中的理想直線。Rasch模型代表了完美的"一次測量一個屬性"的概念,因此我們希望看到現實(我們的數據)是否足夠符合這個直線測量概念(心理測量學家也將他們調查的基礎結構稱為潛在特質)。相反地,如果接受本卷的主要觀點,那麼Rasch建模的結果還可以顯示觀察計畫作為實質人類科學理論在實證實踐中的表達是否合適。也就是說,我們可以採用傳統方法來檢驗我們的數據是否與我們的實質理論相符。然而,如果我們將這種用法與構造是否符合我們的數據這一概念相結合,那將更有用。理想情況下,這只是認識論迭代研究計劃的一部分,其中理論指導實踐,實踐與理論相互影響。 


難度/能力估計和誤差

在開發直線的數學表示時,Rasch模型特別解決了秩序概念,這是對發展中的人類能力或狀態的任何描述的基本概念,也是衡量任何人類狀態多或少的基本概念。而衡量多或少的概念是檢測和衡量變化的核心概念。秩序在兒童發展的心理理論中顯然很重要,它也是Likert類型響應量表中細胞排列的核心,很容易在醫療康復設置中被檢測到,並且在考試問題難度不同的學術成就中直接相關。具體來說,在Rasch模型中,根據它們在測量連續體上所佔位置,對表現給予相對重要性。例如,正確完成的長除法問題在評估高級數學技能方面比正確完成的簡單加法問題更重要。因此,Rasch模型包含了一個算法,該算法表示了在僅僅一個構造被認為是觀察計劃所代表的序列的基礎時,項目和人員表現的概率期望(Wright & Stone, 1979)。當數據矩陣反映了對樣本進行理論引導的探究的成功嘗試時,則可以支持一些命題。以下兩個關鍵命題直接來自第1章引用的Rasch的基本原則:

這些命題對於表達數據的單維性是必要的,它們明確說明了建立單維性時序的概念。基於這種序的邏輯,作為初始近似,Rasch 分析軟體程序對試題和個體數據進行對數轉換,將這些序數數據轉換為實數(邏輯斯特)尺度(參見例如 Fischer 和 Molenaar,1995)。這些轉換表示數據集中檢測到的個體能力和試題難度的估計(即,試題和個體在單一研究線上的位置)。實際試題和個體表現概率決定了區間大小。它們不是作為調查者或分析算法的先驗假設引入的。在觀察結果充分符合Rasch的期望數學模型的範圍內,它被認為是單維的(即,單一的難度/能力連續體足以解釋實際的試題/個人表現模式)。一個常見的誤解是認為不適配使Rasch估計非線性。事實並非如此。Rasch分析中使用的大多數估算算法都是基於數據是單維的產生線性估計。Rasch模型要求估計本身必須是單維的和線性的。但是,軟件的估計過程產生的Rasch估計可能根本無法很好地匹配矩陣中的數據。不適配意味著矩陣中實際收集到的數據與計算出的Rasch估計不匹配,而不是估計非線性。它們是線性的,但不是數據的良好概括——數據不適合該模型。 

這些經過對數轉換(以及多次迭代估計過程)的個體能力和試題難度估計,顯示在電腦輸出中沿著邏輯斯特(對數勝率單位)尺度。邏輯斯特尺度是一個實數尺度,該尺度上的試題-個人圖之間的單位區間具有一致的值或含義。Rasch 模型通常將任何位於試題-個人邏輯斯特尺度上相同點的試題上的成功概率設定為 50%。因為 Bob 的邏輯斯特能力估計等於試題 Q 的難度估計,所以 Bob 有 50% 的機會通過這個試題,他在這個試題上能力與難度相當。對於難度較低 1 邏輯斯特的二分試題(可能是試題 O),Bob 的成功概率增加到近乎 75%,而對於難度較高 1 邏輯斯特的二分試題(可能是試題 T),成功概率降低到大約 25%。現在,研究者擁有了比僅依靠數據矩陣更詳細的訊息,以便就試題、受試者以及指導調查的實質性人類科學理論作出判斷。 

但是我們如何解釋這些估計的精確度呢?如果我們不知道試題和個人估計的準確性,它們有什麼用呢?通常,我們將理論想法實現為觀察表或試題的最佳意圖常常會出錯。是的,沿著道路的踏石可能位於道路上的確切點(在 Rasch 估計處),但圖 3.1 也給它們一個大小。任何測驗試題(踏石)的難度位置都位於一個點,但總是與其相關的不確定性或誤差區域。小踏石(小誤差)表示我們可以相當精確地定位它們的難度。對於較大的踏石(較大的誤差),試題位置不那麼精確。圖 3.1 顯示,部分試題重疊,尤其是在路徑的兩端,位置的誤差往往較大。收集更多數據通常是解決試題不確定性的簡單方法——找到更合適的受試者進行測試。減少個人估計中的誤差更具問題性,特別是當我們想將人們劃分為互不相交的組,如"還未準備好出院"和"準備好回家"。在這種情況下,我們必須開發更多這類適當的試題,以提高個人估計的精確度,從而更有信心地做出高風險決策,犯更少的錯誤。

圖 3.1 顯示,試題 O、P、Q、R 和 S 與它們的難度估計相關的誤差相對較小,因為我們的一些測試候選人(Jill、Jack、Jean、Bob 和 Bill)的能力估計接近或針對與這些試題相同的水平。因此,如果試題 Q、R 和 S 是乘法問題,這意味著 Bill 和 Bob 的能力包括解決乘法問題的能力或接近該能力。因此,他們的回答為我們提供了針對性的訊息,以更精確地估計這些試題的難度。另一方面,試題 L、M、N 和 U 的估計與相對較大的誤差相關。我們樣本中很少有人的能力水平等於這些試題的難度估計(即,我們樣本的大部分人對於簡單的加法問題過於稱職,但無法應對長除法試題 U 的要求),所以估計這類試題的難度涉及較少的統計訊息,因此我們的精確度較低。 

每個人在地圖上的能力位置也有一個誤差估計。注意 Bill 的方框比 Bob 的稍大(不太精確)。Bill 的能力估計包含更多不確定性,因為在我們的觀察計劃中,針對他的能力水平的試題並不多。另一方面,Bob 有更多接近他能力水平的試題,從而提供更詳細的訊息以精確地估計他的能力水平。Mike 只有一個或者兩個與他直接相關的試題,所以他的能力估計將受到較大誤差估計的影響。我們並不是說,用來衡量某種人類能力的踏腳石代表了調查中的所有或唯一的步驟。發展是獨立於我們通過測試或觀察計劃以某種有組織的方式觀察的,態度會改變,或者能力會發展。我們使用的試題是根據幾乎無窮的可能相關試題中的一個或多個實用或理論原因選擇的試題樣本。因此,我們可以以任何合理的方式想像孩子沿著道路的進展:小步、大步、跳躍,或者這些的混合。然而,通過測試或核對表對其進行觀察產生的發展記錄,將取決於孩子在測試當天成功使用了哪些踏腳石,以及哪些踏腳石沒有使用來沿著道路盡可能地進展。從這個意義上說,這是孩子實際做過的事情的記錄,而不是孩子可以做的事情。 

衡量任何人類表現和估計任何能力都取決於受測者的合作。我們傾向於假設被檢查的人會配合我們的意圖,如測試指示和試題所顯示的。然而,我們都知道一些考生做題時破壞性的行為。有時候回答者只是對某些或所有答案進行猜測。有時他們會抄襲鄰居的答案。有時他們甚至會帶筆記作弊。他們也可能注意力不集中,測試途中放棄,試圖記住解決問題測試的公式化回答等等。有些人甚至在完成我們巧妙的任務方面表現出不太積極的態度,或者對測試語言掌握得不夠好。

儘管存在所有這些眾所周知的問題,我們作為心理學家、教師、健康專業人士和考官,往往會忽略這些問題,只計算在道路上正確踩出的步數(即原始分數)作為能力的指標。這是一個歷史悠久的策略,但它需要一些嚴肅的重新考慮,比如加入一些質量控制過程。一條道路只有在絕大多數回答者以可以證明的相似方式使用它時才有用。貝蒂在我們的圖3.1中的測試上得到6/10分(答對L、O、R、S、T和U項),與得到5/10原始分數的鮑勃(通過使用L、M、N、O和Q步驟)並未表現出相同的發展。因此,如果我們想要將鮑勃和貝蒂繪製在道路上,我們必須給鮑勃5個正確答案,給貝蒂6個正確答案。我們可以將鮑勃放在虛線內的道路上,表明他的表現模式符合我們的發展期望。貝蒂位於路徑虛線之外(也就是說,她不規律的反應模式不符合該模型)。這對我們來說是一個警告:儘管貝蒂的得分是6/10,但她獲得這六分的方式並不規律,所以我們不能說她的表現符合我們的Rasch生成的期望。除了潛在的因素之外,還有其他因素影響了貝蒂的分數。我們不應該把6/10作為貝蒂發展的指標。

如果我們的路徑是根據Rasch的規格設置的,那麼我們會想檢查貝蒂的結果:她是在猜答案嗎(意外地回答正確的試題U)?她錯過的較容易的試題對她來說是否不公平?她在較容易的試題(比如試題V)上失去了專注力,因為這些試題無法吸引她嗎?當然,我們不能單從她的分數中得知這一點;我們可以從她成功和失敗的不規律模式中看出。她在路徑之外的不適合位置表明,6/10對她來說不是一個具有代表性的分數,我們需要了解更多情況。還記得我們在試題V上遇到的不適合問題嗎?移除貝蒂的回答行可能會讓試題V變得對測量其他樣本足夠有用;試題不適合是因為意想不到的個人行為。

信度

假設調查者沒有在路徑上提供足夠的階梯(測試中的試題)。首先,沿著路徑的人的位置將變得不夠精確。更多好的試題比較少的好試題能給出更精確的人的位置。因為我們在這個例子中沒有很多階梯來區分不同層次的發展,所以孩子們沿著階梯的分布會呈現出一簇簇的狀態。如果測試的設計僅旨在提供粗粒度的群體水平對能力或態度的描述,這將不成問題。然而,如果我們參與了高風險測試,以確認醫療環境中關鍵技能的足夠發展,或者僅允許某些學生在特定教育方向上繼續前進,作為某種測試或記錄過程的結果,那麼粗粒度的測量就不夠了。作為試題或任務的路徑表示需要更多的踏腳石(試題),每個踏腳石的位置都相當精確,這樣任何人在路徑上的位置都可以精確地確定。在路徑上需要作出「能力足夠/能力不足」決策的地方(即,高風險截止分數處),這將至關重要。Rasch測量模型為調查者提供了幫助,以確定沿著連續體上是否有足夠的試題,而不是它們的簇,以及在人之間的能力分布是否足夠廣泛來做出這些決策。人的信度指數表示,如果這個樣本的人給予另一組與原來相同構念的平行試題,我們可以預期的人排序的可重復性(Wright & Masters,1982)。 

也就是說,給定另一組相同數量和分佈的試題,它們聲稱測量相同的構念,比爾仍然比鮑勃更有能力,鮑勃比琴更有能力的可能性有多大?人的信度受到人能力估計中的小誤差的提高,這反過來受到目標試題數量的影響。然後,在圖3.1中所示的虛擬例子中,我們預期人的信度相對較低(試題太少)。對於人的信度,我們有利的是我們的試題針對樣本的能力水平。這有助於增強我們對能力估計的信心。然而,這個路徑例子的不足之處在於沿著能力連續體缺少很多其他試題和人。人的信度要求不僅需要能力估計由合適的試題池精確地定位,還需要樣本中的能力分布足够廣泛,以便這些測量在這個構念上展示出能力/發展的層次結構(人的分離)(Fox & Jones,1998)。因此,高人的信度意味著我們已經開發了一條線索,其中一些人分數較高,一些人分數較低,並且我們可以期望這些推斷的一致性。

試題信度指數表示,如果這些相同的試題給予另一個行為相同的同等規模的人樣本,試題在路徑上的位置的可重復性。例如,如果其他人給予這些相同的試題,試題估計是否會保持穩定?例如,試題P是否仍然比試題N更困難?在圖3.1中,我們預期試題信度指數非常低,因為在較低能力水平的範例中沒有足夠的人。因此,例如,試題L至P沒有足夠的訊息(因此誤差較大),無法更精確地確定它們的難度水平。

我們需要在樣本中有更多數學能力較低的孩子,以更好地估計這些較容易的試題的位置。因此,從高試題信度,我們可以推斷出我們已經開發了一條線索,其中一些試題較難,一些試題較容易,並且我們可以期望這些推斷的一致性。總之,低試題(人)信度要求我們收集更多數據,以減少估計的誤差或不精確。然而,達到高試題(人)信度並不意味著任務的結束。滿足這個標準後,我們可以在其他地方尋找額外證據,證明這些測量是有效的。 


基本的測量框架


Rasch 模型為測試開發者提供了一個可以與數據進行比較的數學框架。該模型基於這樣一個概念,即有用的測量涉及一次只檢查一種人類屬性(單維度),在一個層次性的"高於/低於"線索上。這條線索是一個理論理想化,我們可以將不符合這個理想的反應模式與之進行比較。人和試題表現與該線的偏差(不適合)可以進行評估,提醒調查者重新考慮試題措辭和從這些數據中得到的分數解釋。

每個試題難度和人的能力都在一個共同的羅吉特尺度上估計,每個估計都有一定程度的誤差。當關於難度和能力的信息增加時(即當試題和人被手頭的試題和人樣本合適地定位時),測量誤差會減少。這些誤差估計,以及試題和人的信度估計,表明試題和人估計的穩定性和可重複性(即不變性)。然後,這些信息指導研究者如何更好地解釋和修改人文科學中的測量。我們將在第五章中更全面地發展測量不變性的概念。

那麼,這些路徑特徵該如何在Rasch分析中表示呢?

大多數Rasch軟體的輸出都包含了一種試題-人員地圖,其中人員能力和試題難度(僅限)的關係易於查看。然而,如同我們在圖3.1中展示的,將所有Rasch概念都表示在一張變量地圖上可能會非常困難,因此適配度和誤差的估計通常會與能力和難度估計一起列在表格中,如表3.1所示。在Winsteps軟體中現在包含了將估計值、誤差和適配度呈現於一張路徑圖上的功能,這是Bond和Fox(2001)最早提出的。

試題難度估計以logits(對數比)的方式表達在實數尺度上,其中將logit值0任意設定為試題難度估計的平均值或平均數。因此,試題O在尺度上接近平均值;試題L和N比較簡單,具有負的logit分數;而試題R、S和T具有正的logit估計值,這意味著它們逐漸變得更難。對於稍微被負logit值嚇到的人,可以參考溫度的估計。攝氏尺度的0是任意設定在水的凍結點,並且根據你所在的氣候,低於0的值是很常見的。例如,攝氏零下七度,-7°C,很容易傳達出天氣的冷。我們在第10章中會討論尺度轉換的問題。 

人物能力估計是相對於試題難度估計而得出的(例如,值越負,表示該孩子在此測驗中的能力越低)。比爾的能力估計為+2.3 logit,使他在這個測驗中顯然是「班上第一」,即使他的估計相對不太精確。請花幾分鐘時間仔細檢查表3.1和3.2中的每個估計值如何在圖3.1中以圖形方式呈現。Rasch建模的試題-人員圖表示非常吸引新手和經驗豐富的用戶。關鍵屬性的值可以一目了然地解釋。一張圖能說服比千言萬語更有效。 

到目前為止...

圖 3.2 試圖說明我們將用來建立路徑變數圖的原則,並且需要讀者理解這些原則以在第三章到第八章中解讀這些圖。

估計(難度、能力和精度)

圖中,所有的試題(以圓圈表示)和被試者(以正方形表示)都被放在同一張地圖上。Logit 標度是一個實數測量標度,所有的 Logit 值都是相同大小的。最高的值位於地圖的頂部,最低的值位於底部。

每個試題和被測者根據其估計值而被定位在Logit刻度上:越正數(越高)的被測者越有能力,越正數(越高)的試題越困難。

符號的垂直大小表示試題和被測者估計值的測量誤差:較大的符號表示誤差更大(以Logit為單位,在垂直的Logit刻度上)。

估計值只能垂直(而不是水平)閱讀Logit刻度,錯誤值也是如此。

適配度(品質控制)

符合模型期望的試題和被測者被定位在白色區域。

未符合模型的試題和被測者被定位在陰影區域。適配度值以標準化的Zstd或t∞刻度水平(僅)閱讀。

可接受的值(白色)在約30到300的樣本量之間落在-2.0和+2.0之間。在右側(> +2.0)的位置太不穩定而不太有用。在左側(< -2.0)的位置太好以至於不太真實。


圖3.2 構建發展途徑變量圖的原則。

Rasch 模型

雖然 Rasch 模型為人類科學領域的研究人員提供了一個數學框架來比較他們的數據,但讀者可能不會感到意外,這個模型的公式和計算都比在 Pathway 比喻中描繪的更詳細和更精確。雖然 Rasch 模型引導我們進行我們在前兩章中討論的事情,但這不僅僅是建立 Scalogram 矩陣然後在計算機應用程序上按下“自然對數”按鈕(ln或loge)來增加項目和人的原始得分。與領域中的許多其他作者不同,我們故意將 Rasch 模型的數學/技術細節放在附錄 B 中,以便讀者面臨的是理解概念(科學測量和 Rasch 模型)而不是數學公式。這種方法對於我們數學熟練的同事來說似乎同樣令人困惑,對於新來者來說則是顯然易用。這種方法存在權衡。

因此,讓我們回到跳高的例子。看台上的觀眾已經決定,儘管在任何一個跳高比賽中都可能涉及許多許多變量,但在每次跳高嘗試中成功或失敗的最簡單和最有效的預測因子是特定跳高難度(以米為單位的橫杆高度)和面對該跳高的特定運動員的能力(以之前的最佳比賽跳高值,也以米為單位)之間的關係。然後,任何運動員在任何跳高中成功的最好指標是運動員能力減去跳高難度差;任何運動員成功的概率都是跳高方程中兩個關鍵因素之間差異的一個函數: 

運動員n面對跳躍i的成功概率(通常表示為P,即結果為x = 1而非x = 0)是運動員能力(B,因此我們使用Bn表示運動員n的能力)和跳躍難度(D,因此我們採用Di表示跳躍i的難度)之間差異的函數;或者說: 

換言之,當運動員 n 面對跳躍 i 時,成功跳過的機率(通常用 P 表示)是一個數學函數 f,其中運動員的能力 Bn 與跳躍的難度 Di 之間的差異是 f 的參數。然後,我們可以想象一些可能的心理計算結果:當運動員的能力-難度差異有利於運動員(Bn > Di)時,運動員更有可能跳過(即成功機率大於 50%);而當能力-難度差異有利於跳高欄時(Bn < Di),運動員會有失敗的可能性(即成功機率小於 50%)。能力-難度差異越大有利於運動員(Bn >> Di),運動員跳過的機率就越大(即成功機率遠高於 50%);能力-難度差異越大有利於跳高欄(Bn << Di),運動員跳過的機率就越小(即成功機率遠低於 50%);而當能力-難度差異對運動員或跳高欄沒有任何優勢時(Bn = Di),運動員跳過的機率為 50:50。到目前為止,我們還沒有明確指定數學函數 f 的精確性質。我們可以請一些統計學家提供一些指導,但我們已經限制了他們的選擇,因為我們已經將運動員能力和跳躍難度都估算在同一個米計量尺度上。 

在我們開始跳高比賽之前,一個觀察到的一些數值的小表格可能會有所幫助。然後,我們可以開發一個獨立於任何特定的高度或運動員記錄的小查閱表;對於杆高和運動員記錄之間的任何差異,該函數將產生相同的成功或失敗概率。在圖3.3中,我們有一個基於該表格的圖表,以幫助我們進行預測。

為了使圖3.3中的圖表有用於預測所有運動員在所有高跳嘗試中的可能成功率,我們在水平軸上繪製了θ,即以公分為單位的Bn - Di差異。當沿著水平軸向右移動時,優勢更多地在運動員方面(正差異:Bn > Di)。當向左移動時,運動員受到的劣勢更多(負差異:Bn < Di)。垂直軸顯示了π,即任何Bn - Di差異的成功概率。當運動員的能力完全與橫杠的高度匹配(Bn - Di = 0)時,該圖表預測運動員成功的概率為一半(0.5)。來自表3.3的運動員U在高度(f)時會有50%的預測:先前的最佳比賽跳躍和要面對的高度相同(都在1.85米)。表3.3的運動員R和S提供了一個有益的比較:每個都面臨著1.84米的跳躍(e)困難。運動員R的能力估計為1.87米(先前的最佳比賽),而運動員S的能力記錄為1.86米。運動員S能否在今天擊敗運動員R?這當然是可能的。但誰有更高的成功概率?我們的模型告訴我們,運動員S的預測超過75%:運動員S的最佳跳躍比要面對的高度高2厘米。 

對於運動員 R,BR - De 差距為 +3 厘米,從圖 3.3 的 y 軸可以讀出成功的概率為超過 90%。對於表 3.3 中的運動員 W,在最低的跳躍上成功的前景似乎有點渺茫;BW - Da 的差距為 -3 厘米,因此成功的概率遠低於 10%,比運動員 W 上一場比賽的最佳表現高 3 厘米。當然,這已經做過了,但不常見。這就是低概率(<10%)所傳達的內容:不是零機會-有些,但不多。需要注意的是,觀眾為三個不同的運動員預測三個不同的跳躍的成功概率並不重要:重要的不是原始能力或僅僅是跳高難度,而是兩者之間的差異。對於這個模型所要適用的主體(受訓高跳選手)和相關任務(重要的高跳比賽),這張圖表代表了成功概率與能力 - 難度差異之間的關係。 

圖 3.3 預測所有選手在所有跳高比賽中可能的成功率

表3.3 高跳運動員的一些虛擬觀測值 

這個剛剛提到的邏輯曲線被稱為Rasch模型在二元試題中的反應期望曲線(通常稱為試題特性曲線或ICC)。以logits(log odds單位)而非公分為x軸,為了總結Bn - Di差異的結果,我們可以從路徑比喻(圖3.1)中的任何人-試題配對中,讀取當任何人在符合任何二元試題時,在Rasch模型量表上預測的成功概率,只需知道能力和難度之間的Bn - Di差異。Rasch模型的測量定理要求來自測試等的數據矩陣符合Rasch模型的兩個正式語句中的概率期望:第一個是公式(1),第二個是ICC圖形形式(圖3.3)。

第三個概括試題和人之間概率關係的摘要在表3.4中提供。這些是通過在公式(1)中使用不同的Bn和Di值計算出來的Pni值。這組在能力(以logits為單位)和難度(以logits為單位)之間的成功概率關係是Rasch模型的一部分,獨立於任何測試內容。在表3.4中,Bn和Di值在-3和+3 logits之間變化。任何Bn - Di差異為零的地方都會得到0.50的Pni值。同樣,Bn - Di = 1 logit總是會得到0.73的成功概率;Bn - Di = 2 logits總是會得到0.88,依此類推。

對於Georg Rasch來說,在他追求開發可橫跨所有相關人員和適當試題的測量尺度的過程中,當試題和人員在測試情況下相遇時,這是他對它們應該如何表現的總結。這不是Rasch模型的假設,而是要求。 對於沿著一個單一向度進行測量,其中人的能力估計和試題難度保持不變,這是理想但在實踐中難以實現的黃金標準的優雅數學表述。正如畢達哥拉斯定理陳述了直角三角形的邊長之間的完美但不可能實現的關係一樣,Rasch的定理陳述了人和試題在完美的測量世界中應該如何協同運作。 

表3.4 標誌能力/難度範圍內正確反應的Rasch概率(從-3至+3 logits) 

摘要

當兩個人的表現層面(比如人的能力和試題的難度)的序列關係在第三個層面(比如反應機率)中得到保留時,可以在實數直線上建立一維測量尺度。

通過計算每個人的成功率:失敗率,方便地從總正確反應數估計任何人的能力。

通過計算每個試題的成功率:失敗率,方便地從總正確反應數估計任何試題的難度。

來自任何一維測試的有序試題/人數據矩陣應該揭示所有相鄰細胞對之間的反應概率強烈排序。

任何人n嘗試任何試題i的反應概率是一個f函數,該函數是人的能力(Bn)和試題的難度(Di)之間的差異。

擬合是一種質量控制原則,用於幫助決定實際試題和人員表現是否足夠接近Rasch模型對人員和試題之間不變比較的要求。

人員之間、試題之間和人員與試題之間的差異可以直接從刻度上讀取,以概率術語解釋為“有多大差異”。 

當你讀到「單一維度性是Rasch模型的假設,應該刪除不符合適配度的試題」這樣的說法時,你會被告知該作者可能沒有理解本章所包含的關鍵Rasch測量原則。