maoosu - Item Response Theory

Item Response Theory

原文出處：Shultz, K. S., Whitney, D. J., & Zickar, M. J. (2020). Measurement theory in action: Case studies and exercises. Routledge.

翻譯君：ChatGpt

檢查員：maoosu

在第13模組中，我們討論了經典測驗理論試題分析（CTT-IA），其重點在於在特定樣本內對於一個給定測驗的每個試題的難度和鑑別度的分析。在CTT-IA框架下，對於給定測驗中的試題，我們會根據它們的難度程度進行保留或丟棄，這是根據被試者正確回答該試題的百分比（即p值）進行估計，以及它們在被試者中的鑑別度，這是根據項目總分相關（即點二列相關係數）進行估計。此外，我們對於一個人的潛在真實得分（或能力水平）的估計值僅是答對的試題數的總和，而不管個體回答的是哪些試題。CTT-IA多年來一直是測驗開發者和使用者想要提高他們測驗質量的工具。在沒有其他信息的情況下，CTT-IA對於本地的、小規模的測驗開發和修訂是有用的。然而，有新的、更具心理測量學精密度的試題反應模型，它們提供了更有用和詳細的信息，供測驗開發者和使用者使用，以提高測驗質量，即試題反應理論。

試題反應理論（Item Response Theory, IRT）與經典測驗理論（Classical Test Theory, CTT）的模型提供比Module 13中所述的CTT-IA程序更詳細的試題、被試者和測驗資訊。Zickar和Broadfoot（2008）把CTT-IA比喻為光學顯微鏡，而IRT則更像電子顯微鏡。雖然IRT是一種更強大的試題分析方法，Embretson和Reise（2000）認為它們是相關的，CTT-IA原則是IRT模型的特例。雖然這兩種方法之間存在一些相似之處，但IRT方法在心理測驗分析方面提供了更強大和詳細的分析，並允許比CTT-IA更複雜的應用。因此，我們所熟知和喜愛的許多CTT-IA原則（例如，測驗越長，可靠性越高，如Spearman-Brown預測公式所示）在IRT下根本不成立。因此，IRT不僅是CTT-IA原則的一種改進，而是一種全新且不同的觀察整個心理測量過程的方法，儘管它更加數學和概念上復雜，因此需要更深層次的思考才能欣賞。

Ellis和Mead（2002）指出，為了控制測試開發中的錯誤，“CTT的方法類似於實驗設計中使用的標準化（或匹配）和隨機化。另一方面，IRT依靠數學模型對試題的‘噪聲’屬性（例如難度、鑑別度和猜測）進行統計調整”（第333頁）。 IRT使用統計模型來代表反應過程，這與CTT不同，CTT使用的模型（X = T + E）非常模糊和基本，提供很少有關考試參與者使用的反應過程的洞察力。事實上，最近發展了一些模型，包括展開模型，該模型假設潛在特徵和項目認可之間存在非線性關係，因此項目距離一個人的“理想點”越遠（上或下），該人越不可能認可該試題（請參見Roberts、Donoghue和Laughlin，2000）。例如，考慮外向性試題“我有時喜歡參加聚會”。非常外向的人可能會拒絕該試題，因為它太中等了（即，他們幾乎想參加所有聚會），而非常內向的人可能會拒絕該試題，因為他們很少想參加聚會。因此，使用IRT可以測試非常不同的模型，以獲得有關受試者使用的基礎過程的了解（參見Zickar，2012年）。

Ellis和Mead指出CTT和IRT之間的另一個區別是IRT更關注試題而不是整體測驗分數，它使用的是非線性而不是線性模型，並且估計試題參數（例如難度、鑑別度和猜測）的方法也不同。此外，Zickar和Broadfoot（2008）指出，IRT模型是可驗證的，而CTT則不是。就像在CFA模型中一樣，擬合統計量可以用來評估特定IRT模型是否適合數據集；對於CTT，沒有方法可以評估擬合度。總的來說，Ellis和Mead對CTT-IA和IRT進行了平衡的比較。最終，Ellis和Mead“主張在進行試題分析時結合CTT和IRT方法”（第324頁），並且他們在章節中通過應用這兩種技術來分析西班牙版推理測驗的翻譯版本。

由於其複雜性，我們不會在此深入探討IRT模型的主要基礎和細節。為了獲得更多的信息，我們建議閱讀優秀的概述章節和文章（例如Ellis＆Mead，2002; Zickar，1998; Zickar＆Broadfoot，2008），以及全面的書籍討論（例如de Ayala，2009; Hambleton，Swaminathan和Rogers，1991）。我們最喜歡的之一是Embretson和Reise（2000），他們提供了一本非常易讀，非技術性的IRT書籍介紹。因此，我們只提供了該主題的概述，因此將讀者引用前述參考文獻（以及Module 21中稍後引用的其他參考文獻）以獲得更詳細的討論IRT的主要問題以及其主要基礎的詳細說明。

試題反應理論概述

IRT 利用個人（考生）和試題的資訊，來決定一個具有特定潛在特質水準的人對於特定試題回答正確的可能性。換句話說，IRT 表示了一組概率模型，讓我們能夠描述測驗者潛在特質水準與對任何個別試題回答正確的可能性之間的關係。早期的 IRT 模型（在 1960 年代至 1970 年代）是為了檢測二元數據（以 0=不正確和 1=正確計分）而開發的，主要關注於心智能力。然而，研究人員最終意識到，此類模型可以輕易地應用於其他二元數據，例如許多人格和態度量表中使用的數據（例如同意/不同意或是/否）。到了 1980 年代，開始開發用於檢測多項數據（超過兩個選項）的 IRT 模型，例如 1-5 的利克特型回答量表（1=非常同意到 5=非常不同意）。然而，在本模組中，我們僅討論使用二元反應的 IRT 模型（Zickar，2002 提供了一篇章節概述關於如何估算多項試題格式）。此外，我們假設 θ 是單一維度的，如傳統所示。然而，新的多維度 IRT 模型正變得越來越普及，雖然它們的資料需求（例如大樣本量）往往會阻礙許多研究人員和測驗使用者。

IRT 模型相較於 CTT-IA 具有的一大優勢在於提供的測驗與試題統計數據是人口不變的。也就是說，IRT 模型所提供的試題參數（例如試題難度與鑑別度）資訊，通常不受用來生成試題和測驗資訊的人口的影響。因此，使用 IRT 模型在一個樣本中獲得的資訊，即使該樣本不足以代表目標人群，只要樣本足夠大，所獲得的資訊將與另一個樣本中獲得的資訊相等，不論參與兩個測驗的受試者的平均能力水平為何。CTT-IA 則沒有這樣的優勢。

以CTT-IA架構為例，一個來自高級發展心理學課程的心理學理論量表問題，在初階心理學課程中可能被視為非常困難，對於高級發展心理學班的學生來說則是中等難度，而對研究生發展心理學班的學生來說則非常容易。然而，在IRT中，難度和區分度的估計是單一的（不論使用哪些受試者來校正項目），且不會因為受試者的平均能力水平而產生差異。此外，在CTT-IA中，這樣的測驗項目可以很好地區分高級發展心理學班的學生，但對初階心理學或研究生發展心理學班的學生卻無法很好地區分。對於前者的群體來說，這樣的問題可能太難了，而對於後者的群體來說，則可能太簡單了。參數不變性是一個重要的特性，它使得像是電腦化適應性測驗等應用成為模組21中可能的方案。

IRT被認為是強大的測驗理論，而CTT-IA則被認為是弱理論。這意味著IRT提供了更強大的應用和詳細的分析水平，但也意味著該理論需要更重要的假設。在IRT中，假設回答是局部獨立的。你可能會問這是什麼意思？基本上，這意味著對於任何給定的θ水平，測驗參與者的回答僅取決於他或她的θ水平。對於測量多個潛在特徵的項目，這可能會有問題。幸運的是，IRT模型可以測試局部獨立性假設在特定樣本中是否符合。如果它沒有嚴格遵守，則可以確定違反的影響。執行IRT分析，就像在第19單元中討論的確認性因素分析（CFA）程序一樣，需要特殊軟件，通常不包括SPSS、SAS和STATA等大型統計軟件包。在歷史上，進行IRT分析的挑戰之一是，軟件需要專門的知識（通常是DOS的知識），並且具有較差的用戶界面（參見Foster、Min和Zickar，2017）。幸運的是，軟件包已變得更加用戶友好，我們的範例中使用的IRTPro 4.2軟件比早期的IRT程序更容易操作。因此，IRT分析應該更容易生成，即使不一定容易理解。

試題反應函數（Item Response Functions，IRFs）通常以圖形形式呈現在IRT模型中，也稱為試題特性曲線（Item Characteristic Curves，ICCs）（再次強調，不同的測量學家使用不同的術語來表示同一件事情；我們使用IRF）。根據Wiesen（1999）的資料繪製了三個此類IRFs，稍後在逐步示例中進行討論。然而，這裡提供的試題編號與WTMA上的試題不對應。這些試題反應函數是對於給定個體的θ水平，回答肯定的概率的非線性回歸（Zickar，1998）。雖然IRFs可以採取多種形式，但三參數邏輯模型（3-PL）是最常見的。在這種模型下，估計鑑別度（ai，IRF的斜率，通常為0.5到1.5）、難度（bi，IRF的拐點，曲線從加速到減速的點，通常為-2.0至+2.0）和偽猜測（ci，下限與Y軸的交叉點，通常為0至0.25）這三個參數。這些參數可以用不同的方法估計。最常見的做法是使用邊際最大概似（MML）程序估計試題參數。在二參數邏輯模型（2-PL）中，假定ci參數為零，而估計ai和bi；這個模型適用於沒有猜測的試題（例如沒有社交渴望的自我報告試題）。在一參數邏輯模型（1-PL）中，也稱為Rasch模型，將ci設為零，同時假定ai參數在所有試題中是恆定的；因此，僅估計bi（難度）參數；當樣本大小較小時，通常使用這種高度限制性的模型。

Figure 20.1 Item Response Functions for Three Items From a Mechanical Comprehension Test. (a) Item Response Function for Item 12, (b) Item Response Function for Item 9, (c) Item Response Function for Item 16.

在圖20.1中，你可以看到第一個試題（試題12）是一個相對容易的試題。如何判斷呢？bi（難度）參數非常低，為-7.90。這意味著，只需要非常低（大約低於平均值7.90個標準差）的能力水平（θ值），就可以有大約相等的機會正確或錯誤地回答這個試題。

此外，小的ai（鑑別度）值（.18）表明，它往往不能很好地區分測試者。這可以從曲線的非常平坦的性質中看出。最後，這個圖表中的ci（猜測）參數有些具有欺騙性。通常，線橫穿Y軸的值約為ci參數的值。然而，由於這個試題很容易，即使θ值低於-3.00，某人也有超過50%的機會正確回答此試題。總體而言，這不是一個好的試題。

圖20.1顯示第二個試題（試題9）是一個相對較難的試題。bi（難度）參數為0.35，屬於中等難度。此外，ai（鑑別度）值表明，此試題比試題12更能夠區分測試者，特別是在分數範圍的中間（大約在-1.0和+1.0之間）。也就是說，在曲線的拐點處，斜率比試題12陡峭得多。最後，這個試題的ci（猜測）參數更符合直覺，因為曲線在Y軸上的交點約為ci參數的值（.26）。總的來說，這是一個非常好的試題，可以區分θ值的中間範圍的個體（即保留此試題）。

第三個試題（試題16）是這三個試題中最難的。它的難度參數bi相當高，為1.92。與試題9相似，試題16的鑑別度ai值表明，它在較高分數範圍（例如1.0到3.0之間）更擅長區分測試者。在這種情況下，偽猜測參數ci似乎非常準確，因為曲線在ci參數的值（0.11）處穿越Y軸。總體而言，這將是一個有用的試題，用於區分θ的較高範圍的個體。

試題資訊函數

在CTT-IA中，信度的概念適用於整個測驗，然而，在IRT中，每個試題都會評估其所提供的資訊。如在第6單元中所述，信度估計用於CTT-IA，以計算測量的標準誤差(SEM)，進而用於建立個人分數的置信區間。然而，在CTT-IA中，SEM被假定在所有能力水平上都相同。這非常不可能，因為極高或極低的分數可能比中等分數具有更多的測量誤差。在IRT中，SEM可以估計不同能力水平，從而為我們提供更準確的估計，尤其是在分數分布的極端位置。

圖20.2提供了前面三個試題的試題資訊函數(IIF)的示例。IIF代表了一個給定試題對於測驗的測量精確度提供的心理計量資訊的數量。一般而言，ai的值越高，該試題提供的在困難度參數(bi)附近估計θ的資訊就越多。因此，第一個試題(Item 12)對於得分較低範圍(θ在小於-3.0和大約0.0之間)的個體提供了最多的資訊，因為它是一個非常容易的試題。儘管其鑑別度極低，但跨越所有範圍的資訊量都極低。第二個試題(Item 9)為θ的中間範圍的個體(在-1.0和+1.0之間)提供最多的資訊。最後，第三個試題(Item 16)為θ的上限範圍的個體(從1.0到+3.0)提供最多的資訊。在建立測驗時，我們通常希望有各種不同難度級別的試題。我們還希望有高鑑別度值的試題。因此，我們最有可能保留第9和第16項；然而，我們只會保留試題12，如果找不到其他鑑別度更好的易於試題。因為我們研究的大多數特質都遵循大約正態分佈，我們希望擁有中等難度的試題（例如試題9）比高或低難度的試題更多，儘管我們仍需要各種難度水平的試題。此外，如果我們與特殊人群一起工作，例如天才或智力障礙的學生，我們顯然需要更多適當分佈的試題。同樣地，如果我們的測驗有一個明確的目標（例如識別認知能力前5％的人群），我們可以針對該目的最大化試題的信息量。

Figure 20.2 Item Information Functions for Three Items From a Mechanical Comprehension Test. (a) Item Information Function for Item 12, (b) Item Information Function for Item 9, (c) Item Information Function for Item 16.

進行試題反應理論分析的步驟舉例

Wiesen（1999）討論了機械才能測驗（WTMA）- PAR版本的行政、評分、開發和驗證（等等）等方面。此測驗與Bennett機械理解測驗（BMCT）、差異能力測驗-機械推理（DAT-MR）、科學研究聯合會機械概念測驗、職業能力放置調查-機械推理（CAPS-1MR）和應用技術系列-機械理解（ATS-MTS3）等測驗相似（參見Wiesen，1999，附錄F，第45頁）。這些測驗（在不同程度上）測量個人學習機械和物理原理的能力。考慮到許多這些測驗已經建立了已知的信度、效度和實用性，為什麼還需要另一個機械才能/理解測驗呢？Wiesen（1999）指出，WTMA“被開發以實現四個目標：（a）使用基於日常常見物體和事件的問題來測量機械才能，而不是主要在學術物理或化學課程中遇到的問題；（b）呈現現代測驗內容；（c）最小化測驗內容中的性別和種族/族裔偏見，以及（d）提供一種進一步進行機械才能學術研究的工具”（第1頁）。

WTMA包含60個試題，分為三大類物品（廚房用品、非廚房家庭用品和其他日常物品），每類物品各有20個試題。每個試題有三個選項（A、B和C）。 WTMA的示例問題與大多數試題相似。它顯示兩個裝有不同冰量的水瓶（標為A和B），問題是：“哪個水瓶會保持更長時間的冷？(A) A、(B) B，還是(C) 沒有區別。”除了三大類物品外，還有八個機械/物理原則，每個原則有七到八個試題（基本機器、物體運動、重力、基本電力/電子學、熱傳遞、基本物理性質、其他和學術）。該研究使用IRTPro分析了20個日常物品的試題。練習19.2提供了該軟件發行商的URL，您可以在該網站下載學生版軟件。表20.1顯示了使用IRTPro進行Rasch分析的結果；我們將簡化輸出，以便關注主要興趣。輸出的第一部分顯示了比例和難度參數的估計值，其中每個試題都有一個比例參數，但它們的值都相同（0.62）。此頁面還報告了每個試題難度的標準誤差。這些標準誤差提供了每個參數的不確定度指標。相對較高的值表示不確定度大。檢查難度列，我們可以看到試題8是最簡單的試題，因為具有θ值為–4.26（低於平均值4個標準差以上）的人仍然有一半的機會正確回答此試題。以CTT-IA術語來看，試題8的p值為0.96（即96％的受訪者正確回答了該試題）。另一方面，試題16是最難的試題。對於此試題，需要θ值為1.85才有50/50的機會正確回答。試題16的p值僅有0.30。一般而言，p值越高，bi值就越低。

在顯示試題參數估計值及其相關標準誤之後，表格20.1還提供了每個試題的卡方值，作為評估Rasch模型是否適合於每個單獨試題資料的指標。在此輸出中，有12個試題超過了卡方臨界值（p < .05），表示Rasch模型可能不適用於這些試題的資料。由於Rasch模型比較嚴謹，因此這並不意外。此外，卡方值非常依賴樣本大小，在這種情況下，樣本非常大（N = 1000），因此卡方可能不是適當的適合性指標。我們稍後將對試題進行2-PL和3-PL IRT模型的測試，以查看試題是否適合。

表20.2顯示了使用IRTPro進行二參數邊際最大概似IRT分析的摘要輸出。與之前的輸出不同，您可以在此輸出中看到a和b參數估計值在各個試題間變化，符合2PL模型。試題1是最具區分度的（a = 1.34），而試題11則是最不具區分度的（a = 0.02）。事實上，有兩個試題的區分度參數極低，同時難度參數也極高（試題11和15）。這可能表明該模型不適用於這些試題，或者這些試題應該屬於不同的量表。最後，我們可以比較2PL的適合性統計數據，並將其與Rasch模型的適合性進行比較。由於2PL模型更具靈活性（例如，區分度參數可以變化），其他條件相等的情況下，我們預期它會更好地適合數據。事實上，它確實適合得更好；現在只有四個試題具有顯著的卡方統計數據。

表20.3顯示了使用IRTPro進行三參數邊際最大概似IRT分析的摘要輸出。

通過讓c參數變化（請記住，IRTPro稱其為g參數），可以看到一些試題具有估計的下限為0的較低漸近線，這表明這些試題很少或沒有猜測。其他試題的下限要大得多，表明這些項目可能存在重要的猜測情況。例如，試題19的g參數為0.49，這表明即使是能力極低的人也有將近50％的可能猜對答案。也許對於這個試題來說，錯誤答案不是特別吸引人。另一個觀察結果是，有幾個參數估計值非常極端（例如，項目4的a參數為45.43），並且具有較大的標準誤。這些極端值應該謹慎處理。它們可能出現在複雜模型中（請記住，3PL比先前估計的模型更複雜）。這些具有極端值的試題應進一步研究，以找出它們成為離群值的原因。最後，需要注意的是，3PL模型僅有四個試題的卡方值顯著，與2PL模型相同。還有其他測試競爭模型的方法，但方法超出了本書的範圍。請參閱專書以深入研究模型適合度的調查。

結語

古典測驗理論試題分析（CTT-IA）在小樣本（例如，教室）情況下可能很有用。這些程序可以大大促進新測試的構建以及對現有測試的評估和修訂。然而，CTT-IA的一個主要問題是難度和鑑別度的參數估計依賴於樣本。在局部情況下，這可能不是那麼大的問題，因為測試者在不同測試中的能力水平可能差別不大。然而，對於那些打算在廣泛能力範圍內使用的測試和工具，使用CTT-IA的效果可能不完整，甚至可能會產生誤導。此外，IRT模型的精確性使得研究人員可以提出很難使用CTT-IA回答的具體問題。因此，在構建、評估、管理和評分測試時，參數估計與樣本無關的試題反應理論（IRT）模型更為合適和有益。

此外，IRT模型允許使用電腦適性測驗（CAT）技術進行測試管理，從而使每個“測試”都能根據個人的能力水平進行量身定制，以及試題偏誤的估計。這兩個問題將在下一個模塊中討論。

最佳實踐

當您擁有大約250個或更多樣本大小的單維度測試時，考慮估計IRT試題統計數據。
在進行IRT估計之前，執行探索性因子分析以顯示您的測試大致是單維度的。
估計幾個IRT模型，以確定哪個模型更適合您的數據。如果您的模型對許多項目不合適，請考慮使用限制較小的模型。
消除在θ範圍內提供低訊息的項目，以便區分。
選擇覆蓋θ範圍的試題，以便在廣泛的範圍內進行區分。
如果您的樣本量很小，請考慮使用更具限制性的模型。如果您擁有大樣本量，則選擇限制較小的模型。

實用問題

IRT相對於CTT-IA的主要優勢是什麼？
如何在IRT中確定難度，鑑別度和伪猜測參數？它們與CTT-IA有何不同？
什麼時候可能更適合使用CTT-IA而不是IRT？
1-PL、2-PL和3-PL IRT模型的優點和缺點是什麼？
與僅查看表格形式的試題參數相比，IRFs（即圖形）有哪些優勢？
說IRT模型中的試題和人參數是不變的（即在地方上獨立），而在CTT-IA中不是，這是什麼意思？
IRFs和IIFs在測試開發和修訂方面提供了哪些獨特的信息？

案例研究 20.1 使用試題反應理論分析高中英語水平考試

Elena是一位一年級的教育測量研究生，她對本科測試與測量課程中闡述的試題反應理論（IRT）有模糊的記憶，但從未想過有一天自己會真正進行這樣的研究。整個IRT的概念似乎非常複雜，需要超出她所能理解的數學水平。此外，她記得試題反應函數（IRF）圖像看起來像是她童年時在父親的示波器上看到的隨機線條。她如何可能完全理解所有這些，更不用說幫助教授使用IRT進行研究了？

然而，她最近同意擔任教育學院Koshino教授的有薪研究助理。Koshino教授受聘協助一個大型地方學區評估它最近為區內四所高中的畢業生開發並實施的英語能力畢業考試。該學區每年從四所高中畢業超過2,500名學生。不足為奇的是，學生的英語能力在學校內部和各個學校之間差異很大。考慮到大型樣本和廣泛的能力範圍，Koshino教授認為IRT將是一種很好的方法來檢查測試中的試題，以確定應該保留哪些試題，以及哪些試題應該被修訂或丟棄。然而，Koshino教授並非IRT專家。他希望他可以將該項目的分析部分交給Elena和其他教育測量博士項目的研究生。然而，Elena和其他研究生在將他們目前所學到的有關IRT的知識應用到這個非常真實的生活情境時感到相當不安。似乎是時候坐下來與Koshino教授進行坦率的討論了。

思考問題

在這種情況下，使用CTT-IA（經典測試理論項目分析）而不是IRT有哪些優點和缺點？
使用1-PL IRT模型有哪些優點和缺點？2-PL IRT模型呢？3-PL IRT模型呢？
Elena應該從哪裡開始學習IRT程序以提升自己的能力？
四所高中應該單獨分析還是一起分析？
在他們的IRT電腦列印資料中，Elena和Koshino教授應該關注哪些內容？
在這種情況下，檢查試題反應函數（IRFs）有哪些優點？

案例研究20.2 矯正代理人認證考試的創建

Dr. Agars最近被加州監獄系統聘用為高級研究分析師。他的學位是工業與組織（I/O）心理學，輔修為法醫心理學，而他的本科學位是刑事司法。因此，他的老板知道Dr. Agars在心理測試方面以及假釋代理人的工作職責方面具有一定的專業知識。州立法機構最近要求監獄系統為假釋代理人開發一個認證考試。加州的矯正工作是一項52億美元的產業，是美國最大的產業。這一成本之所以高昂，很大程度上是因為該州33所監獄每年125,000名假釋犯中有66%在他們的三年假釋期結束之前再次被監禁，這一比例是全國平均水平的兩倍多。然而，這並不令人意外，因為75%的假釋犯有藥物或酒精問題，50%的人是文盲，80%的人在出獄時沒有工作。因此，州立法機構通過認證要求的目的是聘請更多的假釋代理人（他們通常同時負責80至100名前囚犯）與現有的重罪犯更密切地合作，為他們最終出獄做好準備。立法機構希望這樣做可以大大減少再次被監禁的重犯數量，從而彌補新假釋代理人的成本。然而，目前尚無法知道現有的假釋代理人是否具備執行這些附加職能的資格，因此需要新的認證要求。

監獄系統每年有近1000名申請者報名參加假釋代理人職位。因此，監獄系統通常每年提供四次假釋代理人的公務員考試。然而，由於認證先決條件的存在，申請人不僅需要通過假釋代理人的公務員考試，還必須通過一個新的認證考試。此外，現任假釋代理人需要參加並通過尚未實施的認證考試。

州人事委員會在過去20年間（當時開始使用電子評分程序）為假釋代理人的職位提供了數以百計的選擇題考試題目，這些題目已經被數以萬計的求職者所使用。監獄系統希望建立一個可以根據需要提供的電腦化認證考試。Agars博士對基於電腦的測試有一定了解，但並非專家。然而，考慮到監獄系統對於持續測試的興趣以及有大量的題目和數據可供開始使用，他認為使用試題反應理論（IRT）創建一個電腦適性測驗（CAT）是一個合理的選擇。使用IRT可以使考試根據每個考生的情況進行調整（或適應）。此外，因為每個人在某種程度上都有自己的考試，並且題目組合不同，因此與州公務員考試相比，作弊和記憶題目的問題將被降到最低。因此，已經通過假釋代理人國家公務員考試的申請人可以在指定的時間進入測試中心參加認證考試。最後，使用IRT創建CAT版本的認證考試還可以讓現任職位的人在短時間內多次參加認證考試，直到他們通過為止。因此，使用IRT創建CAT版本的認證考試似乎是一個合理的選擇。當Dr. Agars向他的老板提出這個想法時，他的老板不僅對這個想法感到興奮，還想知道他是否也可以為假釋代理人的公務員考試做同樣的事情（即，使用IRT創建一個CAT）。突然間，Dr. Agars開始擔心自己陷入了什麼困境。

思考問題

在這種情況下，使用IRT創建書面考試（CAT或紙筆考試）是否可行？
考慮到假釋代理人工作性質的變化，Agars博士是否應該使用先前公務員考試中的問題來選擇新的假釋代理人？
在使用IRT進行認證和/或許可考試方面是否存在任何獨特的問題？如果有，它們是什麼？
使用IRT程序開發和使用測試對於公務員考試（通常對求職者進行排名）和認證考試（通常設置通過點，高於通過點的被“認證”，低於通過點的未被“認證”）有什麼不同？
根據案例研究中提供的信息，新的認證考試是否能解決該州的再監禁問題？您認為它將提供哪些獨特信息？
在這種情況下，使用IRT方法而不是CTT-IA程序來開發認證測試有什麼優勢？
在這種情況下，應該對申請者和現任職員進行任何不同的對待嗎？

練習20.1 1-PL（RASCH）、2-PL和3-PL電腦運行

目標：通過下載演示版本並運行示例數據的1-PL（Rasch）、2-PL和3-PL模型，簡要介紹常用IRT程序。

網站http://www.sscicentral.com提供了有關幾個IRT程序的信息，包括BILOG-MG、PARSCALE和IRTPro。該網站有一個可供下載的IRTPro學生版本。
下載並安裝好IRTPro後，啟動該程序。您應該看到如圖20.3a所示的屏幕。從菜單中選擇“打開”，然後從文件類型中選擇“IRTPro數據文件”。選擇“第20章數據.ssig”。在學生版本中可以打開常規ASCII數據文件，但此時最好打開已經為您準備好的文件。打開此文件後，您應該看到數據集在屏幕上打開（見圖20.3b）。此數據集包括第16章中使用的GMA測試的十個試題。接下來，單擊屏幕頂部的命令菜單上的“分析”標籤，然後選擇“單維分析”。接著，選擇屏幕中間的“試題”標籤。此時，您應該看到圖20.3c中顯示的內容。

將左列變量列表中的所有試題添加到右邊的“試題”列中（使用shift鍵一次性輕鬆移動它們）。單擊“模型”標籤，您可以看到將對所有十個試題運行2PL模型。

單擊“運行”，程序將開始參數估計。如果您的電腦運行速度很快，則在輸出完成之前應該不到一秒的時間（見圖20.3d）。

檢查輸出文件。那裡有很多有趣的信息。您可以看到每個試題的a和b參數。請注意，此時應忽略具有c參數的列。該程序使用c表示與我們通常認為的猜測參數不同的值。當您估計3PL模型時，該值將用IRTPro的字母g表示。注意哪些試題最具區分度（a值較大）以及哪些試題相對容易，哪些相對困難。從此輸出文件中，如果您這次單擊“分析”標籤，您將看到“圖形”命令。單擊它，您將看到每個試題的IRF（見圖20.3e）。
現在您已經為這十個試題估計了2PL模型，您可以使用3PL模型和1PL Rasch模型重新運行該程序。要重新運行3PL模型，返回到模型部分，然後在每個試題的2PL處單擊右鍵，您將有選項更改為3PL模型。重新運行分析，看看參數估計如何改變（注意輸出中的g參數是我們在文本中通常稱為c參數的）。如果要運行Rasch模型，請確保選擇的模型是2PL模型，然後單擊“約束”按鈕。從那裡，突顯a參數列中的所有值（即選擇所有十個試題的a參數）。在這些突顯的a參數上單擊右鍵，您將被給予一個“設置參數相等”的選擇。單擊該選項，然後您將運行Rasch模型。您可以驗證已運行Rasch模型，因為在輸出中，所有試題的a參數估計應該相等。

問題

a. 數據的基本描述統計是什麼？（N，平均正確數量，試題數量等）

b. 哪些試題最具區分度，哪些最不具區分度，以及它們在不同模型之間是如何變化的？

c. 如果您必須為一個在低能力範圍內提供最多信息的測試選擇僅三個試題，您會選擇哪三個？對於高能力呢？

d. 哪個模型似乎最適合數據？您基於什麼來回答這個問題？

Figure 20.3 (a) Initial IRTPro Computer Program Window, (b) IRTPro Data File for Chapter 20 data.ssig File, (c) IRTPro Computer Program Window for Running the Analyses, (d) IRTPro Output for 2PL Model, (e) IRTPro Graphic Output for 2PL Model.

練習20.2 試題反應理論文獻搜尋

目標：熟悉文獻中IRT的應用。

可以單獨或者分組進行文獻搜尋，找到一篇最近的實證文章，該文章為應用測試場景中的IRT應用提供了一個示例。IRT文獻可能非常複雜，因此確保選擇一篇主要關注實質性問題的文章。然後撰寫一篇簡短的摘要和/或向班級做一個簡短的介紹，總結IRT的應用，重點批評該特定應用場景中IRT的使用。關注作者為什麼選擇使用IRT，以及IRT如何幫助回答實質性研究問題。

Google Sites

Report abuse