4. Building a Set of Items for Measurement

資料的性質

所有Rasch模型的基礎都是最早開發的模型:分析二分資料的模型,這些資料僅有兩個值,通常是0和1。很容易將這種資料層次誤認為是「名義」的,就像我們將頭髮顏色分為黑髮和金髮,或者將受試者的性別分為男性和女性一樣。然而,適合用Rasch模型分析的二分資料有一個重要的區別:這些是序數資料,其中1的值比0的值有意義地更大,而不僅僅是不同於0。這聽起來可能有些繁瑣,但這是一個非常重要的觀點。如果我們為樣本中的女性分配0代碼,為男性分配1代碼,我們打算在性別方面對它們進行名義區分,表明一組受訪者的性別與另一組受訪者的性別不同。然而,當我們使用1代碼表示數學問題的正確答案,並使用0作為不正確答案的代碼時,我們表達了非常不同的意思:正確答案不僅與不正確答案不同,而且在至關重要的方面比不正確答案更好。我們認為正確答案在序數上優於不正確答案,並且我們經常認為給出正確答案的孩子比那些沒有給出正確答案的孩子表現出更多的能力。因此,請注意,只有在我們可以將一些順序分配給分數的情況下,Rasch建模才適用,以便1比0更能代表該屬性(例如正確答案在序數上優於不正確答案)。 

在一個用於評估手術後康復的儀器中,分配1 = 無痛和0 = 有些痛有助於估計健康狀況的改善,然而,對於關節炎進展的估計,相同的指標將被賦予相反的值:0 = 無痛和1 = 有些痛。因此,在第一個例子中,1 = 更好的健康狀況,但在第二個例子中,1 = 更多的關節炎。順序並不適用於1(例如,男性)僅僅與0(例如,女性)不同,但肯定不是更好的情況。 

研究人員在未來可以避免一些苦惱,只需始終記住在任何試題上使用較低/最低代碼來記錄較低/最低的表現水平,以便增加的值代表潛在變量的增加。雖然在0 = 錯誤和1 = 正確的格式中這是顯而易見的,因此1 = 更多的語言能力,但在編碼評分量表(見第6章)時,這並不是那麼明顯。收集二分數據的一個常用格式是選擇題測驗。這樣的測驗應該只有一個"完全正確"或"最佳"答案,該答案將為該試題得分1,而所有其他干擾項或替代答案的得分為0,儘管如果有一個或多個部分正確的回應,也可以為選擇題數據安排部分積分評分和模型(見第7章)。 

分析二分數據:邦德邏輯運算測驗(BLOT)


本書的一個重要前提是,關鍵的實例將來自發展學家、教育家、心理學家和其他試圖解決實際測量問題的人的研究,本章討論的二分數據來自一個針對青少年認知發展的測驗:邦德邏輯運算測驗(BLOT;Bond, 1976/1995)。BLOT的開發是為了提供一個適合一次向整個班級群體進行測驗的測試,作為日內瓦的讓·皮亞傑及其同事開發並使用的個別面談技術的部分替代。該想法是開發一個可以用電腦評分的選擇題測驗和回答表,以便根據孩子正確回答的測驗試題總數將其認知發展分為更高或更低的發展類別。當然,這一普遍原則適用於大多數教育和心理測驗,以及健康狀態檢查表,因此以下討論中概述的原則遠不僅僅適用於對皮亞傑的形式運作思維構建感興趣的人。

本書反復強調的一個主題是,好的測試有一個非常清晰和明確的基礎,那就是測試試圖付諸實踐的調查線——曾經被稱為構建效度。當然,這種理解可以通過多種不同的方式顯示出來。它可以是某位著名大師在一本或多本教科書中解釋的一般心理學理論的一部分,也可以是關於生活某一時期發展的確切順序的論文的一部分。它可能源自小學或中學某個學科領域的一套課程陳述,或者它可能同樣容易地來自對被測試的知識領域(如數學或拼寫)的詳細理論或概念分析。在健康設置中,它可能是對中風後康復進展的理解,由反思實踐效果的醫療專業人員收集。然而,遠遠太多時候,它僅僅是將可能組成測試、問卷或數據收集工具的想法或試題進行務實整理。梅西克(Messick,1995)引入的更全面的效度概念,以及沃爾夫(Wolfe)和史密斯(Smith)在兩篇文章(2007a,2007b)中的發展,將在第13章中與Rasch測量進行評論。 

“當我們繼續聊到我們的「測試開發」程序時,班(Ben)只是搖搖頭,對我與學生採取的直接方法表示微笑:從合適的皮亞傑(Piaget)文本中選擇一個實證章節;根據皮亞傑自己的典範為兒童的表現開發一個編碼矩陣;訪問一群合適的兒童;對劇本進行編碼並應用部分信用Rasch模型。證明完畢。班(Wright)立即認識到我們的優勢:具有宏偉比例的實質理論基礎。皮亞傑的作品包括53本書和523篇已發表的論文。在人類科學的其他地方還有類似的理論建構實證研究嗎?”(Bond,2017,第109頁)在BLOT的情況下,試題的規格是逐個取自名為《邏輯思維從童年到青少年的發展》(GLT – Inhelder&Piaget,1958)的理論闡述的第17章。在那一章中,皮亞傑詳細闡述了他認為成熟思想的核心的每一個智力邏輯運算。因此,測試開發者的任務是將這些邏輯規格在日常語言中盡可能准確地表示為對早期青少年和青少年有意義的選擇題測試試題,而無需任何特定的背景知識。可以想像,由於對高中學生的試驗,有些試題被重寫了好幾次。 

在這裡,測試開發者在將實質理論付諸測量實踐中的關鍵作用是顯而易見的。在這種情況下,皮亞傑教授撰寫試題可能很方便,但他對這方面的團體評估完全不感興趣。在所有測試開發中,企業的成功在很大程度上取決於理論撰寫者、教室教師或健康專家的意圖如何被轉化為試題,而不僅僅是任何試題,而是目標受眾的表現將完全顯示出這些意圖,而不是其他類型的能力。顯然,測試開發者需要對實質調查領域有一些詳細的了解,以及將這種理論理解付諸測量實踐的大量承諾。

BLOT是一個35題的選擇題測試,它逐項操作化了Inhelder和Piaget特別確定的形式運作階段的每個方案(第17章;1958年)。每個試題包括一個由兩到四個短句子組成的試題主幹,然後是四個或五個替代答案的集合。學生的回答是在電腦掃描表上收集的,並由電腦進行評分。以下解釋向我們展示了Rasch建模如何理解BLOT,並使我們能夠確定我們對青少年認知發展可以用BLOT的總原始得分來表示這一想法有多大信心。

使用BLOT會生成一個看起來像以下樣本的數據文件:

等等。

每一行代表一個學生在35個BLOT試題上的表現。根據二分法評分原則,1代表正確答案,0代表錯誤答案:第1題的分數在第1列,第2題的分數在第2列,依此類推,直到第35列的第35題。在這個例子中,沒有學生ID。該文件按照學生結果的輸入順序設置。儘管BLOT可以由電腦評分,但這個特定的文件是由調查者以ASCII(.txt)文件格式輸入的。 

簡單的Rasch摘要:試題路徑

對於對這些二分法數據的Rasch分析的解釋的第一部分,我們僅將試題分析結果作為圖4.1。這個路徑與第3章中介紹的發展路徑類比的格式完全相同:容易的試題位於地圖底部,困難的試題位於頂部。試題估計的精確度由每個試題標記的垂直大小表示(較大的標記表示估計的標準誤差(SEs)較大)。符合Rasch模型的BLOT試題(使用infit t標準)位於平行虛線之間的白色路徑上。 

圖4.1 BLOT試題路徑 

從圖4.1中,我們可以立即了解到一些想法。首先,它旨在表示認知推理能力的發展獲得:有容易的試題,難度適中的試題和困難的試題。例如,試題6和12是BLOT中最容易的試題,與其他試題相比,試題21和28非常困難,而試題4則位於(垂直)試題難度尺度的中點(0羅吉特)附近。鑒於BLOT試題呈現不同難度的範圍,我們可以合理地期望一組適當的學生(例如年輕青少年)在這個測試中表現出一系列的發展能力。值得注意的是,非常容易的試題(6和12)具有最不精確的估計(最大的標準誤差),而其餘33個試題的誤差估計相對較小。

看一下兩條虛線之間的路徑,可以發現BLOT對Rasch模型的期望非常好。 35個試題中僅有兩個(即試題21和30)的位置似乎不像其餘試題那樣適合同一發展路徑。因此,在將來經常包含學生的BLOT分數之前,應該考慮試題21和30作為候選對象。這是BLOT試題遵循單一調查線的初步證據。考慮到在BLOT開發階段中明確使用了皮亞杰的認知發展理論,這條調查線的合理描述似乎是合理的。將試題表現與個人表現分開考慮是相當人為的,但本章的主要目的是展示二分法測試的開發。雖然試題難度在羅吉特(logit)尺度上橫跨五個完整單位,但圖4.1顯示在該發展的兩個羅吉特以上僅有四個試題:試題6和12位於垂直羅吉特尺度的底部,試題21和28位於頂部。然而,從低於-1羅吉特到高於+1羅吉特,我們有大約30個密集且重疊的試題。這樣的結果是,我們很難精確地定位位於由BLOT試題所代表的尺度極端端點的人,但如果我們必須對在-1至+1羅吉特區域表現的學生做重要決策,我們將具有很大的信心(由於標準誤差較小)。 

試題統計

表4.1 包含了使用Winsteps對二分BLOT資料進行Rasch分析的試題統計數據。對於每個試題編號,給出了試題難度的估計值及其伴隨的羅吉特誤差估計值。這些應該與圖4.1中(以及稍後的圖4.2)的圖像表示一一對應:難度估計值越高,路徑越往上;誤差估計值越大,與踏石的不精確性越大。表4.1中的輸出已按試題難度降序排列,因此估計值(和誤差)與試題地圖位置之間的直接對應更容易理解。點測量(點二分相關)相關統計數是我們檢查所有試題是否按照預期的方向運作的第一步。對於此檢查,正統計數值是可以接受的:負值或接近零的值表示與其他試題相互作用不佳的試題。BLOT試題的點測量相關數值從+0.2變化到+0.55。然而,包含擬合統計數據的列並不容易解釋。

表 4.1 每個試題的難度估計值及相關誤差估計值

試題適合度

適合度概念及其與單維度的關係是第12章的主題。適合度是Rasch測量的核心。只有數據符合Rasch模型,才存在Rasch測量的優美特性(例如不變的比較)。在圖4.1的試題路徑中,僅使用一個適合度統計量(來自表4.1的infit Z(t)列)作為(不)適合度的指標。請注意,每個試題的infit Z值位於地圖的水平軸上,垂直位置表示試題的難度(以logit為單位)。通常報告的適合度統計量聚焦於適合度的兩個方面(infitoutfit),每個方面都以非標準化形式(平均平方)和標準化形式(t或Z)定期報告。在表4.1中,報告的適合度的兩個方面是試題infit和outfit。平均平方是適合度統計量的非標準化形式,僅是任何試題的平方殘差的平均值。殘差表示Rasch模型對試題表現的理論期望值(即正確回答試題的預測概率)與在數據矩陣中實際遇到的試題表現之間的差異(即實際表現與Rasch模型期望值之間的差異)。較大的殘差表示該試題在Rasch模型期望值與實際表現之間存在較大的差異。按照通常的統計做法,殘差被平方,使所有“實際值減期望值”的差異均為正值,以便將它們相加以得到差異總和。平均平方適合度統計量表示實際數據中(多少)不符合Rasch模型的大小。標準化的適合度統計量是通過考慮樣本大小將平均平方值轉換成一個具有與t或Z相同分布的統計量,其中可接受的值是t(即-2至+2)通常接受的值。標準化適配統計指標表明了該偏差的可能性。因此,對於(不)適配而言,平均平方誤差表示“有多少偏差”,而Z或t則表示“這種偏差的可能性有多大”。 

Infitoutfit統計量採用了略微不同的技術來評估試題與Rasch模型的適合度。計算Infit時,相對較多的權重會給予那些位於試題難度值附近的人的表現。這樣做的論據是,能力接近試題難度的人的表現應該更能敏感地反映出該試題的表現。Infit是一種加權的錯誤適合度指標。Outfit統計量則沒有權重,因此相對更敏感於異常得分的影響:那些與試題位置遠離的人的表現。這就是為什麼許多Rasch模型的使用者傾向於更關注Infit值而不是Outfit值。異常的Infit統計數據通常比異常的Outfit統計數據引起更多關注。當然,Outfit統計數據也有意義(忽略它們是有風險的)。事實上,基於這四個指標做出“適合度”決策是一個相當平衡的行為;也許很容易將其中一個指標視為特定目的的更重要,但沒有一個指標是不重要的。用於描述人員表現的適合度統計量的工作方式與剛才提到的試題相同。在第12章中,我們將回到解釋Infit和Outfit統計量所涉及的問題。在本書和網絡上,以及任何Rasch分析人員聚集的地方,都會再次提出“適合度”問題(例如,參見Smith,2000)。附錄C將面對適合度問題,以供有興趣“走到底”的人參考。 


Wright 地圖

許多 Rasch 分析軟體的版本都會產生像圖 4.2 一樣的地圖,其中試題以編號表示,每個參與者的表現則以「X」表示。這種「試題-受試者」地圖或「變數」地圖通常稱為 Wright 地圖(例如 Wilson,2005),以紀念 Ben Wright 對其發展和應用的重要影響。同樣地,也有人對其使用感到猶豫不決。Rasch 分析中這種數據分析的美妙之處在於,許多受試者和試題之間的關係以有意義的圖形或「地圖」形式呈現。

在圖 4.2 中,雙重刻度以對數比例尺表示,該比例尺是受試者能力和試題難度的聯合比例尺。由於對數比例尺是實數比例尺,因此該垂直刻度上的任何點的等距離都是相等的,即它們代表相等的認知發展量。因此,試題 15 的難度比試題 4 多出一個 logits,就像試題 4 的難度比試題 5 多出一個 logits 一樣。每對試題之間的差異都是相等的(1 logit)。當然,相同的等值原則也適用於人的位置差異。參與者和試題根據其能力和難度估計值分別位於地圖上。

圖4.2 BLOT分析的試題-人員地圖(Winsteps)

在映射過程中,方便起見,預設採用試題難度的平均值作為 0 點。在此情況下,忽略測量誤差,第 4 題的估計值為 0.0 logit,並被定位在項目-人員圖的 0 點。其他試題則上下分佈以表示它們相對於第 4 題的難度。請記住,間隔等級測量尺度(例如°C)的原點通常是根據慣例進行任意指定的(例如,水的凝固點);對於 Rasch 測量尺度,通常採用試題難度的平均值作為零刻度原點。然後,以使任何人在同一點上的 logit 刻度上成功的可能性為 50% 為前提,將人員位置繪製在圖上。例如,能力估計值為 0 logit 的人在第 4 題上有 50% 的成功(或失敗)機會。該人員在比第 4 題更容易的試題上(例如第 10、29 和 5 題)有超過 50% 的成功機會,在比第 4 題更難的試題上(例如第 17、25 和 26 題)則有不到 50% 的成功機會。在 Rasch 分析中,通常採用 50% 的閾值,稱為 50% limenthreshold,儘管某些 Rasch 軟體允許指定與此值有所不同的變化。例如,致力於掌握學習概念的人可能希望使用該領域中例行使用的 80% 閾值來表示掌握。 

目標定向

有了這些基本原則,我們現在可以從圖4.2中的Wright地圖立即得知,對於這樣一個樣本來說,BLOT太容易了。只需比較人和試題的位置就可以看出來。首先,與試題分布相比,人員分布過於偏向高端。其次,前50名BLOT表現者(這個樣本的三分之一)只有兩個問題:21號和28號。Rasch輸出還告訴我們,另外三個候選人在BLOT上以35分(滿分)的成績拔得頭籌。Winsteps將他們的能力估計值定位在5.20 logits,但他們並未出現在變量圖中。從一般的測試開發角度來看,這可能被視為一個嚴重的不足。如果這是這個測試的通常目標群體,那麼測試就需要更多難度與21號和28號類似的問題,這樣就可以更精確地估計高分者的能力。此外,我們還需要一些更難的問題來提高測試的“天花板”。

然而,需要記住的一個關鍵點是,Wright地圖僅報告變量的兩個關鍵方面之間的關係:試題難度估計值和人員能力估計值。分析的其他關鍵部分——人員和試題估計值(SE)的精度、試題的適配度、人員的適配度、人員和試題估計值的可信度——在輸出表格中詳細報告。途徑變量圖(例如圖4.1),它顯示了估計值(能力或難度)及其誤差以及適配度指標,是作者(Bond&Fox,2001)最初提出的,現在已在Winsteps(Linacre,2019)中實現。

通常,Rasch輸出包括分析結果的摘要(參見表4.2),其中包括一些有關試題的有用信息。

表格4.2 BLOT分析結果摘要 - 試題 

我們已經知道試題估計值(測度)的平均數會位於 0 logits(預設值),並且可以看到試題估計值的標準差(即它們的散布)幾乎是 1 logits。我們可以通過參考地圖(圖 4.1 和圖 4.2)來確認後者:絕大多數試題位於 +1 和 -1 logits 之間的狹窄帶中。試題難度估計的信度在 0 到 1 的尺度上為 0.93。試題信度可以在這個 0 到 1 的尺度上進行解釋,低值表示試題估計值範圍較小或樣本較小(即樣本大小對於可靠的試題估計來說太小),而高的試題信度(接近 1)則表示有較廣泛的難度範圍。更有用的是,它可以轉換為試題分離指標(3.79),其中信度是試題間傳遞的標準誤數量(請參閱 Wright 和 Masters,1982,或本文附錄 B 以獲得解釋)。試題信度和試題分離指標指的是測驗定義一個沿著被測量變量的試題等級的能力。該統計數字越高,我們對試題排列在其他適合的樣本中的可重複性越有信心。因此,試題信度指數為 0.93 表示如果我們將 BLOT 分配給其他適合的樣本,我們可以相當可靠地依賴這些試題估計值的排序方式。但要注意不要過度解釋試題的 Rasch 信度指數。在大多數情況下,高試題信度僅是大樣本大小的副產品。試題分離指數和試題多餘度要更加有意義(附錄 B)。

此外,查看地圖上的對應情況可以幫助我們判斷分離在線性變量上是有效的還是無效的。摘要適合度統計數據也可以提供一些有用的線索,但同樣存在過度解讀的風險。Rasch算法建模的非標準適合度估計值(即均方)的平均值為1。BLOT的實際非標準適合度統計數據的平均值(infit平均平方 = 1.0;outfit平均平方 = 0.95)非常接近預期的1,其中infit平均平方顯示出與理想值的差異很小(SD = 0.11),而outfit平均平方則顯示出較大的變化(SD = 0.31)。 

在適配分數的標準化中,平均平方值被轉換成 Z 或 t 分佈,其平均值為 0,標準差為 1。因此,我們不應對前述試題平均平方值約為 1 轉換成接近 0 的值感到驚訝(事實上,為 .1 和 0)。但是要注意:Rasch 軟體會計算那些適配平均值,使它們盡可能接近理想值——是擴散(標準差)將顯示不適配。換句話說,雖然平均適配統計數字可能看起來非常接近我們的目標,但是試題與試題之間以及人與人之間的適配統計數字會告訴我們,我們的測量嘗試有多成功。對於多少BLOT試題,這個摘要表格的資訊是適用的?輸出中的一條註解提醒我們,對於這個樣本,所有的BLOT試題(35個輸入;35個測量)都是有用的。如果每個人都成功地完成某個試題(試題太容易)或每個人都失敗(試題太難),那麼該試題對於在這個群體中鑑別能力就沒有用處。 

比較受試者與試題


當我們將注意力集中在表4.3的受試者表現摘要時,我們發現Rasch建模具有明顯的優勢,即將相同的分析邏輯以及因此相同的解釋邏輯應用於受試者,就像應用於試題一樣。

受試者能力估計平均值為+1.57羅吉特,這是表中第一個結果,表明這個樣本發現BLOT測試相對容易。受試者估計的標準差為1.30羅吉特,這表明受試者測量的擴散程度或測量變異大於試題測量中明顯的變異。受試者能力估計的可靠性為0.81(人員分離= 2.04),雖然不如試題的可靠性高,但仍然是可以接受的。這意味著我們在受試者測量中觀察到的81%變異是系統性的(即,因為受試者在能力上有所不同),19%是由於隨機誤差。

表4.3 BLOT分析結果摘要 - 受試者 

這在某種程度上證實了我們從Wright地圖中識別出的定位問題。雖然當我們給這些人再進行一次類似BLOT的測試時,我們可以依賴這個順序的受試者估計值來複製,但在當前的分析中,我們對試題的了解要比對受試者的了解更多,因此試題估計值更可靠。在其他條件相同的情況下(它們永遠不會相同),可靠性主要取決於N:換句話說,150個受試者的表現給我們提供了更多關於35個BLOT試題的好訊息,而35個BLOT試題則給了150個受試者。

現在,圖4.3包含了試題難度分佈和受試者能力分佈之間的三種可能關係;其中兩個地圖(即b和c)僅為假設。假設試題難度的平均值被任意設定為0羅吉特,那麼針對定位良好的測試(圖4.3b),受試者估計的平均值(即組平均值)將更接近0。困難的測試將產生具有較大負值的平均受試者估計(圖4.3c中的-1.75左右)。從圖4.3中試題-受試者地圖的三個分佈考慮,當試題和受試者的N保持不變時,我們可以期望在4.3b案例中獲得最佳的受試者分離指數,因為試題和受試者的定位是最佳的。在4.3c案例中,困難的測試,試題和受試者的可靠性都會降低:能力最弱的受試者之間沒有試題來區分,而最困難的問題也沒有足夠能力的人能夠提供關於它們的好訊息。

回到表4.3,我們可以看到,與表4.2中的試題一樣,受試者擬合的摘要統計數據同樣良好。infit平均平方和的平均值為0.99,outfit平均平方和的平均值為0.95,非常接近Rasch建模預期的1。因此,它們產生了接近零的標準化擬合Z值(infit Z = 0.1;outfit Z = 0.1)。受試者建模擬合分數的擴散或變異(infit Z SD = 0.6,outfit Z SD = 0.7)表明,絕大多數受試者能力估計將具有變換擬合統計數據,遠低於常規可接受的-2到+2範圍內。通常,平均平方和Z擬合統計數據的值將非常相似,正如我們在受試者和試題總結表中看到的那樣;當這些值(逐個受試者和逐個試題)不對應時,需要進行「平衡」的擬合解釋。 

圖4.3 試題-受試者分布圖,展示了一個測驗相對於樣本來說:(a)較容易,(b)與樣本相互匹配,和(c)較困難 

摘要


BLOT是一個測試形式運作思維的多選題測驗,具有二分記分:1 = 正確回答;0 = 錯誤回答。BLOT路徑圖按難度(垂直方向)、擬合度(水平方向)分布試題,並以跳石的大小顯示標準誤(SE)。試題6最容易,擬合度好,但標準誤較大;試題21最困難,標準誤較小,但擬合度不佳。

試題-受試者Wright分布圖顯示了受試者和試題分布,但沒有顯示標準誤或擬合度。針對樣本的測試將產生更好的估計值。

可靠性主要受N驅動;因此,150名受試者將產生更好的試題可靠性,而35個試題將產生較低的受試者可靠性。

延伸理解

第三章中介紹的羅吉斯蒂克曲線用於總結跳高選手的前景,在圖4.4中進一步擴展,以代表Rasch對BLOT測驗表現的一些關鍵期望。圖4.4顯示了三個BLOT試題的理論(或Rasch模型)試題特徵曲線(或ICCs):最容易的BLOT試題6在左側;最困難的BLOT試題21在右側;試題4恰好位於BLOT試題和受試者校準的0.0原點。您可以將回應期望曲線的位置與表4.1中的試題估計值進行對照:每條曲線上的0.50預期得分點(臨界點)應位於表4.1中試題估計值正上方的水平羅吉特刻度(試題6約為-2.5羅吉特,試題21約為+2.4羅吉特,試題4為0.00羅吉特)。 

所以,Alain(A:能力-2.5羅吉特)在最容易的試題6(也是-2.5)上有50%的概率選擇正確答案。從那時起,當Alain面對更困難的BLOT問題時,看起來對他來說將越來越具挑戰性。Chrissie(C:能力= +2.4羅吉特)在最艱難的BLOT試題(試題21)上有50%的成功概率;對於其他BLOT試題,當她遇到越來越容易的試題時,選擇正確答案的概率將增加。Bob(B:能力= 0.00羅吉特)在試題4(同樣位於0.0羅吉特處)上有50%的成功期望,而在容易的試題6上概率更高,但在困難的試題21上概率更低。表4.4提供了有關Alain、Bob和Chrissie在二分法BLOT試題6、4和21上成功的理論期望的有用總結,基於Rasch模型之間的關係,僅限於人的能力和試題難度。表4.5以每位學生在每個試題上可能通過或不及格的方式報告這些期望。花一些時間檢查您對這些期望的理解是值得的。您可以在圖4.4中的ICCs繪圖、圖4.2中的Wright圖和圖4.1中的路徑圖中看到這些關係的圖形表示。(在第5章討論DIF時,以及在第12章討論適配時,我們將回到BLOT試題的實際表現圖。) 

圖4.4 三個BLOT試題的理論ICCs:6(最容易)、4(0.0羅吉特)和21(最困難) 

表4.4 三名受試者在三個BLOT試題上的Rasch建模表現期望 

表4.5 三個人在三個BLOT試題上的表現成功預期 

猜測問題

不難想像,一些在高中科學課上完成BLOT的孩子,可能會采用一些非基於皮亞杰認知發展潛在變量的策略來解決BLOT試題;例如,他們可能會嘗試猜測答案。

我們很天真地認為,特別是涉及到像BLOT這樣的選擇題的考試成績,是沒有這種考生行為的。更合理的假設是,只要學生需要從可選答案中選擇正確答案(而不是組織答案),猜測的可能性就始終存在。事實上,一些數據分析模型(包括一些IRT模型)被吹捧為比Rasch模型更優越,因為它們聲稱可以通過模型參數解釋猜測行為。即使在掃描表上意外的標記,稍後也可能被電腦判定為“正確”。作為學校評估的一部分,面對很多需要回答選擇題的要求,孩子們可能無法始終保持完全專注或充分激發解答每個問題的動力。另一方面,二分Rasch模型對測試情境的兩個方面進行建模——考生的能力和試題的難度。剩下的部分(殘差)被計入不適合度。與包含了試題(偽)猜測參數的模型相比,Rasch模型中沒有這樣的許可。

現在,隨機猜測的問題在於它無法告訴我們考生的能力,而且隨機答案可能被誤認為是被測試能力的指標。然而,研究顯示,隨機猜測並非無所不在,應該在具體情境下加以考察。有些考生通過排除他們眼中顯然錯誤的選項,然後從未被排除的可能正確的選項中進行猜測。至少這種有根據的猜測確實包含了一些關於考生能力和試題難度的訊息。有些考生根本不猜測,他們總是試圖找出正確答案。另一些人在覺得有能力時會試圖找出答案,但在覺得無法找出答案時則求助於隨機(或有規律的)猜測。從這個角度看,猜測不僅僅是某些(困難的)試題引發的考生反應的一個試題特性,也不僅僅是考試引發的個人特性。更有可能的是,猜測是一種可能的系統性測量干擾之一,不應被忽視。儘管我們擔心考生因幸運的猜測而獲得不應得的成功,但反思性測量實踐者也應關注其他可能的考生行為,如在容易或早期的試題中“打瞌睡”(因此答錯題目)或在測驗中緩慢地“蠕行”(未能完成或僅對測驗末尾的試題進行猜測)。因此,Rasch 模型為檢測這類考生(或非變量)行為提供了一套診斷工具,並告知研究人員干擾的類型以及其嚴重性和影響。事實上,利用 Rasch 診斷工具可以常規地檢測到其他系統性測量干擾,例如在高風險測驗中作弊。 

難度、能力與適配

Rasch 模型的一個獨特優勢是它要求任何人與試題之間的互動結果僅由兩個參數確定,即人的能力和試題的難度。這一要求為檢測數據中是否存在可能影響試題和人參數估計的異常行為提供了一個堅實的框架。對異常的識別不僅限於猜測,還涉及任何可能的測量干擾。(Smith,1992) 

我們可以假設,正如Waller(1973)所做的那樣,“當一個猜測者進行隨機猜測時,只有對他來說太難的試題才會進行猜測”(參見Gershon,1992)。現在,這意味著Rasch模型中已經處於核心地位的關係的重要性-人的能力(Bn)和試題難度(Di)之間的關係,也就是說,當Bn - Di值較大且為負數時,猜測的可能性更大。這也暗示了另一個關鍵的Rasch概念:適配。當任何人×試題組合的Bn - Di值較大且為負數時,成功的預期概率非常低;意外的成功(通過隨機猜測獲得的未掌握的成功)將導致該試題-人組合的適配度大幅度偏差(尤其是外部適配度)。我們將在關於適配度的章節中回顧猜測/能力/難度問題,但有兩點澄清值得重申:在Rasch模型下,能力和難度的估計是基於正確回答的總數(僅此而已),而這些回答的模式則體現在適配度指標中。當猜測發生時,基於單獨的能力和難度的成功模式很可能不符合預期-我們將檢測到一個重要的測量干擾指標。

我們對ICC和適配統計的檢查將揭示在實踐中如何檢測到測量干擾,例如猜測。以下是表4.1中試題21的輸出片段: 

初步看來,試題的內部適配平均平方值看起來還不錯(<1.33);內部適配Z值略高(> 2.0);但外部適配指標確實很不穩定(外部適配平均平方值 >> 1.33 和外部適配Z值 >> 2.0)。那麼,我們應該從測試中去掉試題21嗎?不,還不是現在!讓我們嘗試診斷出問題所在。我們應該嘗試找出不適配的回應出現在哪裡,並進一步研究這些情況的原因。例如,這些指標(即內部適配指標)意味著試題21所針對的人的回應在模型中的適配度或多或少是可以的(內部適配MnSq 1.27;內部適配Z 2.65)。但是,與試題21相距甚遠的人的適配度很差(外部適配MnSq 1.76;外部適配Z 3.73)。現在,我們回憶一下,試題21是最困難的BLOT試題;因此,試題21所針對的人(在圖4.2的Wright地圖的頂部)是150個人中最有能力的(他們的適配度相對較好)。與試題21相距甚遠的人在BLOT上的能力最低(圖4.2底部的人)。問:在任何最困難的試題上,能力最低的人的不可能回答是什麼?答:在困難的試題上出乎意料的成功,而他們預測的回應應該是在試題21上失敗。那麼,他們不穩定(不可能的/意想不到的)的表現可能是由於青少年在課堂測試中使用的一些共同策略(也許是作弊、抄襲或猜測)。BLOT測試風險較低且監督嚴格,所以我們不太可能懷疑作弊/抄襲。那麼,猜測呢?也許……還有更多證據嗎? 

我們將在第12章中回到猜測和適配的問題,因此該章節中的圖12.2會有所幫助。該圖顯示了在試題21上的實際個人表現(按能力劃分為15個有序分層,每個繪製點有n = 10名青少年),與同一試題的Rasch預期ICC。對於右側的七個繪製點(7 × 10 = 70名學生)(學生的能力定位得很好:接近或高於試題位置),學生的表現或多或少符合模型的預測(實際經驗繪圖遵循理論預期曲線)。對於接下來的六個繪製的組(60名學生的BLOT能力在試題21的難度以下1.5至3.5個對數),他們在試題21上的實際表現比Rasch模型預測的要好,考慮到他們整體的BLOT測量。粗略觀察那六個繪製點,實際平均成功率大約是0.25或25%,而不是十幾或更低的成功率。順便提一下,試題21有四個可供選擇的多項選擇答案,所以在它們之間完全隨機猜測將產生1/4或25%的成功率。

有三點值得重申:不適配並不意味著「丟掉它」;而是意味著「找出原因」。猜測是一種測量干擾,Rasch分析為此提供了實證證據。猜測不是試題參數或人員參數,而是出現在特定試題×人員交互中,尤其是當學生不覺得他們有能力使用他們所擁有的能力來解決問題時。

理論與實踐對話

當然,每個測試開發者和使用者都應該嘗試了解實踐中試題和人員表現的結果對所研究的實質理論有何啟示,並嘗試確定理論對所研究的人員和試題的了解。這應該始終被視為一個持續的辯證過程。由於作者無意用皮亞傑理論的細節對讀者進行微型講座,而是引導反思性測量實踐者,因此我們在此僅簡單考慮了一下皮亞傑理論,以說明可能歸因於先前顯示的BLOT分析結果的各種含義。(有關皮亞傑方法和心理測量研究的討論,請參閱Bond&Tryphon,2009。)

到目前為止,分析結果提供了相當好的證據,表明試題之間的配合很好,共同代表了一個單一的潛在探究或能力途徑。考慮到BLOT中每個試題的邏輯結構規範都直接來自Inhelder和Piaget(1958)的文本,這可以被認為是確認皮亞傑對青少年智力的模型本身是一致的。至少心理測量證據指向了「單一事物」而不是「眾多事物」作為探究對象。此外,無論這種能力是什麼,它在一群適當受試者的BLOT回答行為中也是顯而易見的:150名青少年學生。

因為試題和受試者都表現出足夠合法和可預測的方式,因此可以合理推斷,皮亞傑理論的這一部分以及其在BLOT中的具體化確實值得繼續精緻化和研究。此外,第5章進行的測量不變性測試表明,BLOT的受試者和試題測量在目標人群中足夠不變,以支持BLOT Rasch估計泛化的主張。從有效性的角度來看,BLOT和PRTIII產生的受試者測量在測量誤差的限制內是不變的。

實際上,BLOT的天花板效應在某些研究情境中仍然是一個持續存在的問題:最具認知發展的孩子在測試中達到了頂峰。儘管摘要表顯示,在本章進行的150次測試中,只有3名15歲學生達到了頂峰,但我們可以合理地預期,隨著我們跟踪他們隨時間發展(例如,Endler&Bond,2001,2006,2008),越來越多的學生會“撞到天花板”。顯然,如果我們打算使用BLOT來準確估計我們更具智力的青少年的認知發展,那麼基於皮亞傑的規範,BLOT需要更困難的試題。但是,如果它的目的僅僅是將認知發展較低的高中生與認知發展較高的高中生區分開,以便在科學和數學方面提供符合發展的學習經歷,那麼增加更困難的試題將無法達到這一目的。

試題與受試者之間的分布,或分布不足,顯示某些 BLOT 試題在心理測量上具有冗餘性:從 0 到 -1 logits 的區域充滿了試題。看起來,BLOT 試題中包含的一些特定智力技能與其他技能(試題)非常相似,並且在一個簡約的測驗中並非所有技能都需要包含。實際上,刪除一些心理測量上冗餘的試題,以換取更困難的試題,將彌補 BLOT 測試的兩個明顯測量缺陷。

當然,心理測量冗餘與理論冗餘是理論與實踐關聯的兩個不同但相關的觀點。首先,BLOT 是作為一種皮亞杰理論(或者至少是作者對其理解)的測試而構建的,而不是為了測試孩子。在第一輪中,實踐告訴我們,理論的概念化具有很大的價值,但通過回到理論,找到進一步試題開發和合理化的規範,可以開發出更有用的測試。

摘要

實質(內容)理論和Rasch(測量)理論應該手牽手為試題的建構和監測進行測量。

適配度統計是應該一起使用的質量控制裝置。

猜測是一種在特定情況下可能普遍存在的偏離特質行為,尤其是在多選題測試中。

猜測不是一種試題屬性,而更可能是特定試題難度 - 被試能力組合的一種屬性。

適配度統計和試題特徵曲線可以用於診斷研究猜測的存在和潛在影響。