5. Invariance

A Crucial Property of Scientific Measurement

「他們不了解發現一種不完全涵蓋任何情況的不變性所帶來的興奮。只有當社會現象的學習者學會欣賞科學的這一本質方面時,社會研究才能成為科學。」 — L.L.Thurstone(1952) 

本章將聚焦於科學測量的屬性:在所有適當的情境下,試題和人員參數必須保持不變。至少,在心理測量學家中,我們對這一原則進行了口頭表達,聲稱“你不能用一個會變的測量來測量變化”,這是一個經常被引用的真理。但在Rasch測量的背景下,這意味著什麼?這與測量不變性的追求有什麼關係?而不變性又為何重要?

我們都知道,純淨水在海平面上的凝固點和沸點在溫度測量中有特殊的意義:它們分別代表攝氏0度和100度,或華氏32度和212度。每次我們使用優質溫度計測量這兩個條件下(凝固/沸騰)的水溫時,我們會期望結果非常接近這些值。但這並不總是這樣的。早期的溫度儀器,如伽利略的,是開放的,不是密封的,如現代的玻璃液體溫度計。這些儀器所表示的相對溫度可能極其不准確,具體取決於它們被用在哪裡(例如,在何高度)。研究人員得出結論,實際上,開放的儀器同時對兩個變量敏感:管子中液體的膨脹不僅對應水的溫度,正如預期的那樣,而且意外地對大氣壓力也非常敏感。此外,操作員無法判斷膨脹中有多少是由於溫度,多少是由於壓力。封閉儀器並使用汞液體管消除了壓力效應,這意味著讀數變得更加一致。 

在這個比喻中,我們有兩個相互支持的測量不變性的例子:所有適當的溫度計插入任何一個沸水缸應該顯示(多或少)100°C(或212°F);而任何一個溫度計都應該始終顯示100°C,無論測量哪個沸水缸。儀器的測量功能在所有適當的使用中是不變的(常數);而任何一個使用都將顯示所有適當儀器之間的一個不變的(常數)測量。在人文科學中,我們可能研究不同的興趣變量(例如同理心、數學成就、與健康相關的生活質量),但測量不變性的原則應當適用。 

因此,不變性要求是任何測量系統所歸屬的變數值(度量)應獨立於使用的特定測量儀器(只要儀器適用於該目的),即值應保持不變。此外,測量儀器的校準在其任何預定目的中也應保持不變。通過反思早期的溫度計類比,我們會認為任何一個溫度計都應在任何適當的情況下提供有用的溫度指示-就其構造和所校準的溫度範圍而言。一個例子可能是,在地球上任何人類可以在室外生活的地方,它都會給出足夠準確的大氣溫度讀數。我們還期望,在同樣的室外環境下,任何適當的溫度計都能提供相當的溫度讀數。因此,對於任何一個設備來說,讀數將在所有合適的情況下保持不變,對於任何一個情境,所有合適校準的設備都將產生不變的讀數。

需要注意的是,我們對科學測量的不變性概念中包含了期望溫度計的讀數大致上是準確的,即測量值與實際溫度大致匹配,任何溫度計的讀數都具有其目的適當的精度。因此,測量儀器的兩個特性將影響我們對科學測量的期望不變性。提供的估計是否與實際情況大致匹配,即是否準確?您可能更喜歡使用“是否有效”的語言,或者“它是否實際檢測到它聲稱檢測的東西?”以及估計值是否具有足夠小的誤差邊際以適用於預期目的?即是否足夠精確?

不變性與我們聲稱是衡量概念的核心的第一個想法 - 單維度性直接相關。加利略的檢測變量溫度的儀器更準確地稱為巴羅熱雙晶管(Sherry,2011),因為它同時對兩個變量敏感:溫度和大氣壓力。他的儀器實際上沒有測量溫度(它不具備有效性),所以他的估計值變化很大是很自然的。但他的儀器為其他最終成功的溫度計鋪平了道路。由於加利略無疑是有史以來最偉大的科學家之一,而測量物理變量相對較容易,因此他在持續失敗地構建一種工具來單獨操作這些不可觀測的變量時,是很值得關注的。對於在人文科學領域中的研究人員,他們經常將兩個或多個構建合併成一個數據收集儀器,這有一個重要的教訓:即使有時很難實現,專注於一個變量是至關重要的。

在本書中,我們已經確立了一次只測量一個構造來產生基礎潛在變量的區間級測量的重要性。在第4章中,我們演示了如何實現這一點,使用BLOT。詳細的理論描述是該試題開發的起點,我們使用Rasch方法作為技術,以檢查我們成功將該構造實施到測量實踐中的嘗試,並產生單維度測量刻度。現在,在我們聲稱不變性是科學測量的第二個要求時,從我們到目前為止的工作中立即出現了兩個問題:BLOT測量是否不變?更重要的是:我們怎麼知道這一點呢?

測量是透過建構理論將觀察值(例如計數)轉換為量測值(量度),而 Rasch 模型則陳述了觀察值和建構理論在概率模型中結合以生成這些量測值的方式需符合的要求。沒有其他觀察和理論的組合能夠在生成結果的量測值中產生充分性、不變性和客觀性。 (Stenner, 2001, p. 804)

在人類科學領域中,試題和人員量測的不變性仍然是例外而非常態。許多測試的結果解釋必須完全根據用於規範測試的樣本,而候選人的結果取決於實際使用的測試。在人類科學研究中,這種估計的上下文依賴性,無論是誰被測試還是使用哪種測試,似乎完全與我們期望的溫度計和溫度之間的不變性相反。

在任何人類科學領域的早期研究中,重要測試設備的試題難度值的建立是一個重要目標,使得這些值對其預期目的來說是足夠不變的。(沒有合理的用戶期望每個溫度計都能給出完全準確和無限精確的讀數。)然後,進一步的研究將涉及將新結果鏈接到從早期研究中獲得的試題值。

我們構建測量,但也必須監控測量過程。為了進行準確的測量,我們需要一個其自身誤差受到控制的單位。從這個意義上說,科學的歷史可以被認為是測量精度的歷史。(Stone,2001,第793頁) 

然而,期望我們的初步嘗試在所有適當的場合中滿足相對不變性原則是天真的。就像計量員需要監測當地蔬果商使用的計量器具或汽油加油機一樣,我們應該不斷監測試題值的表現,考慮到測量誤差。如果在實踐中未能實現相對不變性原則,我們應該詳細檢查這種不足的行為原因,避免在當前形式的測量中使用此類試題。"這就是為什麼效度是一種不斷發展的性質,而驗證是一個持續的過程"(Messick,1995,第741頁)。

一個具有持續有用性的測驗必須具有一個隨著時間不變的刻度,這將允許對單位系統的了解和熟悉,並允許積累歷史比較數據。(Angoff,1960,第815頁)

在實踐中,這種監測是通過定期收集數據並比較不同子樣本的試題估計值和誤差來完成的。例如,在醫療保健中,患者滿意度回應推動政府對患者護理的補貼。構建高風險決策測量的Rasch從業人員經常監測他們的患者滿意度“尺度”的穩定性(即相對不變性)。同樣,對不同飛機特徵的乘客偏好的測量可以在很大程度上確定下一輪飛機設計將添加哪些功能。因此,醫院和飛機設計師密切關注監測測量相對不變性——每半年收集數據以檢測試題“漂移”。如果試題位置漂移或不可預測地變化,我們怎麼能有建構效度的證據?因此,我們對測量的效度的關注應該來自於Rasch測量的不變原則,並且在實踐中通過試題難度的估計和被試者能力的估計進行檢查。 

人和試題的不變性

我們很容易看到參加測試的人群是所有可能的受測者群體的樣本,但我們往往不容易意識到試題群體本身只是所有可能的試題群體的樣本。這很大程度上是因為相對容易捕捉到一個合適的受測者樣本,相對於構建一個合適的試題樣本而言更加困難。此外,我們可能會費盡心思地開發出一套合適的試題,但在這個過程中卻因投入的時間和思考而對這些試題產生了依賴。然而,在Rasch測量中,正如我們已經看到的,人的分析和解釋原則與試題的分析原則完全相同。

Ben Wright對那些聲稱擁有好測試的人提出了一個直截了當的挑戰,這基於對估計的不變性的簡單要求——這是任何測試情況下的重要測量原則,並且非常容易實現:只需根據能力將你的受試者樣本分成兩部分,然後估計每半個測試的試題難度。不變性原則要求,相對於每個試題,該試題的困難度應在兩個大不相同的子樣本中保持穩定(在試題和人的目標要求的限制下)。反之亦然:只需將你的測試分成兩部分,然後估計每半個測試的人的能力。人的能力估計值應該相對於使用該測試一半試題進行的人的估計值保持不變(下面將提供一個示例)。 

如果Rasch模型是資料生成的模型(即在產生觀察資料的整體母群體中使用的模型),則Rasch測量具有區間水準的測量特性,因此必須保持差異比例(即估計值之間的差異比)保持不變(恆定),而不是估計值本身。細心的讀者可能會回想起第1章提供的三座建築物高度差異比例的例子,這說明了區間尺度的這種特性。在第10章中,我們將介紹參數分離(參見Smith,2001)。這是Rasch模型支持人能力和試題難度估計直接比較的特性,即獨立於受試者和試題樣本中那些能力和難度的分布。 “可接受的標度方法必須產生一個獨立於原始標度和原始被測群體的衍生標度”(Loevinger,1947,第46頁)。 

試題連結

圖5.1最終呈現的是對Wright的挑戰的最終結果,而不是僅口頭表示,透過BLOT的連結,我們將這些建議傳遞給其他人。在第四章的bond87.txt數據集中,150名參加BLOT測試的學生的數據被平均分成兩個子樣本。第一個樣本(n = 75)包含得分27至35的高分組,第二個樣本(n = 75)包含原始得分為5至26的低分組。對每個子樣本的數據進行分析,並將每組的35個試題估計值(和SE)匯入Excel電子表格中(Bond&Fox,2001,第62-65頁)。圖5.1中的試題值繪圖顯示,除了試題21之外,BLOT試題的試題估計值是不變的(在誤差範圍內);虛線不是迴歸線,而是不變性所需的Rasch建模關係(斜率= 1)(95%的控制線基於每個試題對的SE)。

簡單的第一步是將每個試題的一對校正值繪製成一個簡單的散點圖,使用每個試題的一對Rasch建模能力估計值(以logits表示)。

雖然Rasch試題反應理論的試題量尺是根據高分和低分樣本的原始分數總和進行建模,但這些建模的能力估計量包含更多有關間隔量尺和每個量尺測量誤差的信息。如果我們畫一條對角線(45度或斜率=1)通過代表Dx和Dy校準均值(0.0 logits)的點,我們將構建一條代表兩組試題估計值之間精確建模的身份關係的線,如果在完全精確(即無誤差)的測量條件下,這些估計值保持完全不變。在這種情況下(在實踐中無法實現),所有繪製的點(即35個BLOT項目對的Dx / Dy位置)都應準確位於此對角線上。有用且現實的是,Rasch建模為我們提供了每個試題難度估計的誤差估計,我們可以使用這些估計值構建質量控制線(在圖5.1中顯示),以查看繪製的能力點的分佈是否足夠接近建模關係對角線,使得這些量測被視為足夠不變(即在測量誤差的限制內保持恆定)。 

圖 5.1 試題難度不變性 – Bond 的邏輯操作測驗 

對於建構 95%信心帶狀控制線的公式,最初是由 Wright 和 Stone(1979年,第94-95頁)提出的,該公式已在本書網站上提供 Excel 電子表格。一些 Rasch 分析軟件(例如 Winsteps; Linacre,2019)會按要求產生這種比較的圖形,但任何熟悉電子表格圖形化程序的人都可以開發一個工作表,該工作表可以導入 Rasch 分析輸出並使用一對試題難度估計值來繪製位置和相關對錯誤估計值來繪製控制線。簡單的視覺檢查將顯示足夠的點(即95%或以上)是否落在控制帶內。因為只有 1/35 BLOT 試題的位置在控制線之外(即 2.9%),所以似乎合理地聲稱在學生能力子樣本如此不同的情況下,可以將試題估計值視為保持不變。

但是,試題 21 呢?如果估計值不具不變性,我們需要了解原因。試題 21 是遠最困難的 BLOT 試題(請參見圖 4.1 和圖 4.2)。高能力子樣本使我們能夠很好地測量試題 21 和試題 28 之間的難度差異間隔;最困難的 BLOT 試題很好地被高能力子樣本的學生所選擇。但是,21 到 28 的間隔在低能力半樣本的 BLOT 能力範圍之外(即目標問題)。這導致在低能力組中低估了 21 到 28 的間隔(目標問題)。考慮到 26/35 正確被估計為 BLOT 上具體操作和形式操作績效之間的邊界,試題估計值的不變性(在誤差內)有助於肯定 BLOT 在 Rasch 分析程序下的完整性,並證明 BLOT 的 Rasch 區間刻度在相當不同的子樣本之間保持其測量不變性特性(取自 Bond,2004)。

請記住


當使用Rasch原則檢查人或試題估計的不變性時,我們會謹慎使用較謙虛的詞語「聯繫(linking)」而非「等同(equating) 」。使用「試題等同」的詞語是普遍的,最常用於簡化「測驗分數等同」的意思:如果將Form A的測驗給予Bill,他在Form B上的結果會是多少?如果Form A和B確實被建構成相等的測驗,例如試題數和分配相同、平均值和標準差相同,那麼事後的「測驗分數等同」就只是一種品質控制程序。因此,儘管我們的基於Rasch的程序著重於不變性的重要測量原則,我們稱這個技術為「聯繫」,以避免被誤解為「等同」的可能混淆使用。可以將不同的人群樣本通過共同的試題聯繫在一起,從而檢查試題不變性;也可以將不同的試題樣本通過共同的人員聯繫在一起,從而檢查人員不變性。

當相同的測驗(例如BLOT)在兩個不相關的測試情境(例如,在澳大利亞和美國的認知加速研究項目中,BLOT被用作認知發展的測量工具,也在英國使用)時,也應適用不變性原則。然後,測量要求是,在不同國家的適當樣本中進行的分析應使BLOT的試題估計保持不變。在圖5.2中,Dx值是從第4章中收集自英國中學生的BLOT值,而Dy值來自澳大利亞進行的研究(Stanbridge,2001),每個試題估計都與其相對應的誤差項聯繫在一起。在這 35 項 BLOT 試題中,只有一項試題沒有通過不變性要求,而這項試題是所有試題中最容易的之一。這應該被視為一種特別嚴格的內部驗證技術,特別是與計算測試再測試相比。在確定測試項目值的不變性後,研究人員可以將試題難度估計值視為已知的校準值:這是一種在實驗室內做出的決策,以將測量尺度錨定(anchor),以便可以促進在不同研究情境下進行的個人和群體能力估計的比較。早期溫度計的開發和完善也經歷了這些程序。 

(中間內容暫無翻譯)

測驗中人物估計值的不變性:同時效度 

當某個潛在特質或基礎建構是不同的測驗主題時,我們應該期望測試人員的測量值在這些不同的測試條件下保持不變(在誤差範圍內)。這個想法(大致上)構成了當樣本被給予兩個測試時,進行同時效度的幾乎例行的演示,並且相關結果會被相關聯(儘管之前注意到過相關的問題)。人文科學真正的測量系統的長期目標應該是可以使用一系列校準測試情境,從而可以在全球使用的單一刻度上表示原始分數或局部計算出的人員測量值。這可能會讓我們想起從溫度計繪製的類比。溫度計用於間接估計溫度,通過觀察溫度對某些測試變量的影響:有色酒精的封閉柱的長度,金屬電線的電阻,雙金屬片的伸直,等等。溫度的單位在基本測量意義上不是物理可加的,幾乎每種溫度計都與要估計的溫度一樣多。沒有單一的溫度計類型對於超過一些選擇性應用是有用的,也沒有一個溫度計可以測量整個溫度變量範圍。當然,沒有任何一個測量是沒有誤差的。溫度在國際上被測量,從華氏溫度到攝氏溫度的轉換是例行公事,並且在“測試管理”的最基本形式的培訓後,可以了解和比較溫度估計。 

因此,在確立試題和人員表現的不變性之後(如前所述),實現這一目標的下一步是回答在心理學和其他人文科學研究中不斷被問到的問題之一:“這個測驗是否和另一個測驗測量了同樣的結構?”這是幫助確立測驗有效性的重要技術之一。在此僅需說明,研究人員必須事先通過詳細解釋他們聲稱測量同一結構的一對測驗中的理論構造,才能事先滿意。當然,“兩個測驗是否測量相同的結構?”的答案涉及另一個問題:“我們怎樣才能知道測驗A是否和測驗B測量了相同的結構?” 

進行 A 測驗和 B 測驗的比較,其中一個目的是為了開發兩種相同測驗的形式,以便我們可以將它們作為測試-再測試格式中同樣有用的替代方案進行有效使用。除此之外,我們還有什麼其他原因要開發測量與已有測試相同的測試呢?當然,有一些非常務實的原因。新的測試可能更短,提供新的格式,或允許更容易的管理、評分或解釋。它可能更適合於特定的目標人群或特定的測試環境;它可能是用另一種語言撰寫的。它可能會在重要的高風險決策點周圍提供更高的精度,或者它可能有助於防止作弊或在多次使用測試時避免學習效應。另一方面,當高成本的測試所有潛在受測者不合適時,它可能僅提供有用的、低成本的、快速使用的篩選設備。例如,家庭壓力問卷(FSQ; Rossi Ferrario、Baiardi 和 Zotti,2004)是一種結構化訪談,由合格心理學家在轉介後向長期患病患者的照顧者進行。而家庭壓力問卷的短版(FSQ-SF; Bond、Rossi Ferrario 和 Zotti,2005;Vidotto、Ferrario、Bond 和 Zotti,2010)則是使用 Rasch 分析原則開發的,以便可以作為一個10分鐘的篩選設備,由家庭護理人員或醫療從業人員進行照顧者壓力的跡象常規檢測(請參見第10章)。 

雖然測試開發中核心的效度問題圍繞著構念效度的重要問題(參見Messick,1995),但測試開發人員合理地利用新測試與已經建立和認可的測試之間的心理測量重疊,聲稱新測試具有同時效度。實際上,令人遺憾的是,同時效度和表面效度或內容效度的結合通常被認為是測試開發的唯一足夠前提。在解決有效性問題方面幾乎完全依賴於實證數據分析技術的結果,使得構念效度在人文科學中的中心作用被掩蓋了。作者在結尾章節重新回到了這個重要問題。

所有這些可能性都內含著理論與實踐對話,這是所有良好測量的重要焦點。格式完全不同但測量相同構念的測試將告訴我們有關我們正在研究的理論構念的信息,而看似相似但不能被接受為測量相同基礎特質的測試也是如此。為了說明採用Rasch測量方法來檢查同時效度,我們調查了另一個在英國開發的正式運算思維課堂測試的特性。然後,我們使用已經介紹過的Rasch建模的鏈接程序,看看這個測試是否能夠被判定為測量與上一章中Bond的邏輯操作測試(BLOT)分析結果相同的構念。

(中間內容暫無翻譯)

測量不變性:它真正重要的地方


基於35個試題的150名學生的事後證明幾乎不可能超出不變性原則的證明。批評者告訴我們,當進行大規模實證評估時,我們對於測量不變性的高期望並未得到證明。Fan(1998)撰寫了一份被引用頻繁的大規模實證調查報告,該報告得出結論,Rasch測量結果並不值得投入額外的努力來獲得。

在前面的論點和實證證據的基礎上,Kingsbury(2003)對成就測試中項目參數估計的長期穩定性(即不變性)進行了一項重要的研究。首先,它不是使用在單個測試中使用的一組試題的參數估計值,而是調查了在七個美國州的2至10年級學生中用於測量數學(> 2,300個試題)和閱讀(約1,400個試題)成就的兩個大型項目庫中項目參數估計值的穩定性。(1999-2000學年試題校準的樣本量從300到10,000名學生不等。)其次,自初始項目校準以來經過的時間從7到22年不等。最後,並且對於這些目的來說最重要的是,使用“一參數邏輯(1-PL)IRT模型”(Wright,1977)來創建和維護這些庫使用的基礎測量尺度。雖然隨著時間的推移,數千個試題已被添加到這些項目庫中,但通過使用IRT程序和系統Rasch測量實踐(Ingebo,1997),每個試題都與原始測量尺度相連接。

原始試題和新試題難度之間觀察到的相關性非常高(數學方面為0.967,閱讀方面為0.976),更像是如果試題被同時分配給兩個樣本而不是分配給相隔7至20年的全國樣本,這是預期的結果。在這段時間裡,項目難度參數的平均漂移為0.01個標準差。從Rasch測量的角度來看(即關注這些變化對測量尺度的影響),從原始校準到新校準,學生得分的最大觀察變化是最小可檢測差異的水平,預計99%以上的變化小於最小可檢測差異(Kingsbury,2003)。

這些結果當然不僅僅是偶然的。Ingebo(1997)報告了波特蘭公立學校區和西北評估協會如何有意實施Rasch模型,以建立受到1967年教育測試服務研討會上的一個演講刺激的原始校準題庫。 "儘管他的測量思想似乎遙不可及,但萊特博士的實驗測試數據非常有前途,以至於波特蘭公立學校啟動了Rasch測量的檢查"(Ingebo,1997,第8頁)。現在,大約五十年後,我們也有機會決定是否值得花費長期的努力為例如SAT之類的測試建立基於Rasch的不變測量系統,以獲取這些“遙不可及”的測量聲明所承諾的好處。Rasch模型如何能夠在多次測試中為成千上萬個項目維持如此穩定的試題參數,然而,Rasch的批評者仍然聲稱它對於他們當地開發的內部測試不起作用呢?

不變性的失敗:DIF 

在測試情境之間檢測人員和試題不變性圖的原則正是檢測差異試題功能(DIF)的基礎。當試題的難度估計位置在子樣本之間變化超過模型誤差時,則存在表面證據表明存在DIF。事實上,Scheuneman和Subhiyah(1998)來自國家醫學考試委員會的報告僅使用項目估計差異大於0.5 logit的標準作為檢測超過400名考生參加的250項醫學認證測試中的DIF的準則。考慮到SE估計值與樣本大小成反比,我們可以合理地期望0.5 logit的差異在這種高風險測試中可能具有統計和實質意義(即真正的測量差異)。他們的基本方法,基於違反Rasch模型對估計不變性的期望,檢測到了更複雜的Mantel-Haenszel程序所發現的約80%的項目。此外,他們還指出,當考試人員了解所考試的實質構造,因此能夠對考生子樣本的表現提出合理的假設時,基於Rasch的DIF指示更容易直接理解為這些組別之間的差異。

當 Tesio 及其同事在 2002 年跨越國界(義大利與美國)並將 FIM™ 的 Rasch 復健評量連結起來時,他們發現試題難度值在兩個環境中的預期不變性。他們繼續透露,少數難度估計值的變化(即 DIF)反映了美國激勵驅動的醫療體系和義大利更為家庭支持的體系之間的差異(Tesio, Granger, Perucca, Franchignoni, Battaglia, & Russell,2002)。監測試題校準是提供電腦適性測驗的重要方面:難度估計值有差異的試題通常會從使用中的試題池中淘汰,以診斷問題可能的原因。即使使用具有可證明優越性的 PRTIII,Shayer 每次在新樣本上使用該測驗時都會仔細檢查試題校準:這是一個例行而沒有事件的程序,多年來產生了可預測的不變結果。PRTIII 的試題值就像是刻在石頭上一樣穩定。當關於科學實驗中經典的“ceteris paribus”原則的一個關鍵 PRTIII 試題相對於其他試題變得慢慢但明顯容易時,DIF 可輕易歸因於英國國家科學課程的變化,該課程明確要求教授“讓所有事物保持相等”的原則以進行“公平測試”。當聲音測量所要求的不變性未被維持時,理論基礎的測試需要解釋。 

DIF的研究大多發生在“測驗題目存在性別偏差”的時代,特別是在智商或成就測驗中。在更政治正確的時代,我們現在稱之為性別相關的DIF;而DIF是一個比偏差更沒有情感色彩和價值判斷的術語。下面的兩個小例子來自BLOT第3和第35題的表現,可以幫助理解從Rasch測量角度描述DIF的方式,以及暗示解決測驗中的性別相關DIF可能是多麼困難。

在前一章中,我們注意到理論上的ICC對於理解失敗的不變性(如DIF)和適配度(fit)很有用。更多關於實際表現與預期表現圖的構建原則在第12章中有詳細介紹。簡而言之,在每個圖中,彎曲的ICC顯示與第3章中高跳運動員示例和第4章中BLOT第6、4和21題的圖形相同。這是Rasch模型對試題-受試者表現的期望的圖形表示。線圖(男孩的為實線,女孩的為虛線,見圖5.7)顯示了兩組學生的實際表現。在BLOT第3題的上圖中,男孩和女孩的實際表現線追蹤了(或多或少)模型的預期曲線(ICC)。顯然,男孩和女孩的線圖沒有明顯的區別。

圖5.7 BLOT第3題(無DIF)和第35題(性別-DIF)上男生和女生表現的比較

對於接下來的圖表中的繪圖情況來說,情況並非如此,這是男孩和女孩在BLOT試題35上的實際表現與預期表現之比較。現在,對於在BLOT量表上表現較好的男孩和女孩(在右側),男孩和女孩的表現幾乎相同。但是,看看在較低的BLOT能力水平(在左側)下會發生什麼:男孩的圖表(連續的線)顯示他們的實際表現真正超過了模型的預期表現(連續的線幾乎全部在ICC上方);但女孩的圖表(虛線幾乎全部在ICC下方)顯示,當考慮到她們整體的BLOT能力水平時,她們在試題35上表現不佳。此外,這正是與性別相關的DIF的本質所在,即男孩在試題35上的表現優於相同能力水平的女孩。

對於BLOT試題中的性別相關DIF的檢查是在本章的2007版中第一次進行的(我的錯)。在BLOT試題中,有一些可能存在DIF的候選試題:一些試題特別提到男性或女性角色或性別相關活動。當然,關於在汽車上匹配寬輪胎和輪毂的問題會偏向男性“熱愛汽車的人”,但實際情況並非如此。那麼,試題35怎麼樣會使能力相同的女性比男性表現不佳呢?在BLOT的第34個試題中:“一隻老鼠被困在傳送帶上,當它開始朝著方向(A)移動時……”。在接下來的第35個試題中:“傳送帶的運動方向隨後被反轉。以下哪個選項現在會使老鼠保持在中點附近?……”。那麼,為什麼BLOT試題35偏向能力較低的男性而不是相同能力水平的女性呢?在反轉傳送帶的背景下,是否存在一些涉及機械理解的參考,這使得能力較低的男孩具有優勢?男孩是否在解釋試題圖表方面具有空間幾何優勢?或者(玩笑話)能力較低的女孩是否因為老鼠逃脫的前景而受到某種不利影響?這些替代假設旨在引發思考,而非冒犯;僅僅是建議,即使從Rasch測量的角度清楚地展示了失敗不變性的模式,DIF的原因和潛在療法可能並不明顯。 

當我們回想起試題和人物估計的程序是相互映射的時候,我們必須考慮到差異人物運作的補充情況:考生在不同上下文中進行的隱性特徵的兩個測試有所不同。Bunting的研究中未報告的部分涉及將從單獨進行的Piagetian擺錘任務面試(參見第七章)得出的學生結果與PRTIII(本章早期介紹的同一問題的已證明的班級任務)的結果進行匹配。雖然通用人物鏈接程序沒有否認存在單一的潛在構造,但兩位學生的結果值得注意,尤其是在反映潛在發展理論方面。兩個類似DIF的結果突出了測量和理解人類條件複雜性的複雜性。一名男學生,被他的老師描述為來自男性主導的軍事家庭,他在(年長的男性)邦德進行的班級設置下的PRTIII-摆锤任務表現要比他在(年輕的女性)邦汀進行的單獨的Piagetian摆锤面試中表現要好得多。一位女學生在與邦汀進行的個人Piagetian面試中表現得比在班級集體PRTIII測試中要好得多,其中她似乎更關注坐在她旁邊(非常接近)的年輕男性同儕。而且,在所有四種情況下,人適應統計數據都相當普通(Bunting,1993;Stafford,2005)。現在,試著從這段對話中反思這個小理論/實踐背景。 

差異評分者功能

當然,儘管許多面向的Rasch模型(參見第8章)可用於測量評委(評分者)的系統嚴格程度或寬容程度,差異評分者運作將提醒我們評分者的偏見存在 - 評分者根據某些群體特徵(不)自覺地改變嚴格程度。在2002年Salt Lake City冬季奧運會上,Winsteps/Facets Rasch軟件作者Mike Linacre在加拿大媒體(Strauss,2002;www.rasch.org/rmt/rmt154a.htm)引用,標題為:“新的得分系統將讓加拿大人摘金。” Linacre的分析揭示了花式滑冰決賽中法國裁判評分的嚴格程度發生了改變,這與其他裁判的模式不一致。實際上,法國裁判的評分與其先前的評分模式不一致。法國裁判的DRF把金牌交給了俄羅斯雙人滑,引起了轟動。對於人文科學中的人而言,一個不斷存在的實質性問題是,構造/上下文/評分者的理論如何處理這種類型的證據?

DIF:不僅是一個問題,也是一個機會

從這個觀點來看,很明顯,儘管Rasch專家(大多數情況下)在事後調查和解釋不變性失敗時使用DIF結果,但Wang採取了一種截然不同的方法。他關注DIF可能在不同測試情況下發生的非常好的原因,然後繼續在一系列擴展的基於Rasch模型的模型中建模試驗表現的說明。十年來,王和他的學生們開發了他的DIF-free-then-DIF(DFTD)策略來檢測DIF(Wang,2008; Wang,Shih和Sun,2012)。使用該DFTD策略,研究人員首先從正在調查的測試中識別一小部分試題(例如,10%到20%),這些試題最有可能沒有DIF。然後,在後續分析中,他們使用指定的試題作為錨點來調查其他試題是否存在DIF。該策略已被證明對不同類型的DIF評估方法都有效,包括概率比檢驗方法(Wang,Shih和Sun,2012)和邏輯回歸方法(Shih,Liu和Wang,2014)。它還可用於評估潛在類別中的差異評分者運作(Jin和Wang,2017)。 

 

摘要