Ch12. Current Issues in Computer‑Based Testing
原文出處:Wells, C. S., & Faulkner-Bond, M. (Eds.). (2016). Educational measurement: From foundations to future. Guilford Publications.
電腦化測驗(CBT)的當前時代始於1990年代初期,當時將諾韋爾公司的認證網路工程師(CNE)考試、1992年的研究生入學考試(GRE)普通測驗、同年的教育學科能力測驗(Praxis 1)和全國護理註冊委員會護理執照考試(NCLEX)中的兩個護理考試計劃電腦化(Luecht&Sireci,2011;Mills&Stocking,1996;Parkerson&Parkerson,2008;Zara,1994)。這些發展之後,又陸續推出了三個額外的計劃:1997年的武裝服務職業能力評估電腦測驗(ASVAB)、研究生管理入學考試(GMAT)和建築師註冊考試(ARE)。1999年,美國醫學許可考試首次提供電腦化考試(Luecht&Sireci,2011)。自那時以來,CBT已成為主要的測試行業。在已建立的考試中心中提供CBT的兩個最大的提供商Prometric和Pearson VUE在全球15000多個考試中心進行測試(Prometric,2014)。Prometric報告每年進行超過1000萬次的測試。
本章的目的是提供CBT的當前狀態的簡要概述。首先討論了一些測試計劃從紙張測試轉向電腦測試的原因。然後簡要回顧了一些較受歡迎的測試管理模型以及與開發和管理CBT相關的一些常見考慮因素。第三部分討論了正在取得進展的領域。
為何選擇電腦測試
許多測試計畫採用電腦測試的原因有很多,包括提高測量的準確性和效率、方便性、報告結果的速度、增加訪問資源訊息和工具的能力、評估複雜技能和提升受測者體驗等。
準確性
許多測試計畫使用某種形式的電腦適性測試(CAT)。大多數傳統測試旨在提供跨越相當廣泛的能力範圍的信息。因此,許多受試者會遇到對他們來說太難或太容易的問題。CAT嘗試通過使用有關受試者的反應和先前管理的試題的IRT統計信息來選擇後續試題,從而限制管理太難或太容易的試題(Yen&Fitzpatrick,2006)。這種方法使測試更適合個人的能力水平,因此,相對於相同長度的傳統測試,可以提供更精確的受試者能力估計。同樣,適應過程也可以用於縮短測試和測試時間。由於測試更貼近受試者的能力水平,可以使用比固定形式紙筆測試更少的試題獲得相同水平的精度(Parshall,Spray,Kalohn和Davey,2002)。
方便性
大多數電腦測試比其紙筆對應更頻繁地提供,使受試者可以在符合其時間表的時間和地點進行測試。例如,統一的註冊會計師考試(CPA考試)在紙筆形式下僅在一年中的2天進行。電腦版可在一周的6天和一年的8個月提供(Mills,2011)。此外,CBT可在各種設置中提供,例如“實體”專用測試中心、培訓站點,甚至是遠程監考的個人站點,如家庭或辦公室。
報告結果速度
許多CBT計畫在測試結束後立即在測試中心報告結果(Davey,2011),從而為受試者提供有關其表現的即時反饋。在認證和許可考試的情況下,更快的得分報告可以減少授予證書或許可證所需的時間。
資源資訊和工具的取得
許多測試計畫可能會想要為考生提供資源材料(例如法規、標準、補充資訊、試算表),而在紙筆環境中提供這些材料可能不切實際。電腦化測驗可以相對容易地包含這些類型的資源。電腦化還允許整合常用工具,例如試算表、電腦輔助設計軟體等(Breithaupt、Mills和Melican,2006)。
技能的評估
許多測試計畫希望測試在紙筆測試中難以或不可能評估的技能。例如,美國註冊會計師協會(AICPA)希望評估註冊會計師考生識別相關會計標準的能力。隨著會計標準變得越來越複雜,不同公司在不同的標準(例如普遍接受的會計原則、國際財務報告準則)下報告,渴望成為註冊會計師的人需要能夠快速定位和解釋標準,而不是記憶它們。美國醫學註冊考試(USMLE)的第三階段測試展示了複雜的案例模擬,包括採集病史、進行身體檢查、訂購醫療程序、完成病人紀錄,以及隨時間管理病人(Clauser、Margolis和Case,2006)。
受測者體驗
適性測試向受試者呈現更符合其能力水平的測試,相較於傳統測試更能滿足受試者的需求。對於低能力考生而言,這種適應性特點可能會讓他們的測試體驗更愉悅,因為他們不需要回答大量困難的題目。對於高能力考生來說,測試可能會顯得更難,因為這些考生習慣於回答大量對他們來說很容易的題目。但無論能力如何,受測者通常更喜歡電腦測試而不是紙筆測試(Pope、Breithaupt和Zumbo,2010)。可能會影響考生偏好CBT的特徵包括無需在大型場館(如禮堂和會議中心)參加考試、輕鬆標記檢討試題、可以獲得屏幕測試輔助資源,以及每次只呈現單一試題等。由於電腦、平板電腦和智慧型手機已經普及到學生中,因此偏好CBT的情況很可能會增加。事實上,最近強調的教育標準旨在確保學生具備大學和職業生涯的準備能力,這觸發了全國各地採用基於電腦的評估的快速普及。
使用中的測試管理模式
CBT有許多測試管理模式可供選擇。本節簡要概述幾種較常見的模式:線性固定形式、動態組卷、多階段適應性測試和CAT。
線性固定形式
或許最簡單的CBT形式是以固定長度的傳統測試為基礎進行電腦測試。選擇此模式的大多數程序仍需要對其程序進行相對重大的更改。例如,往往是因為希望為考生提供更多的測試日期或場地(或兩者都有),才會轉換到CBT。在任何情況下,程序都需要生產比以前更多的測試項目,以解決隨著測試形式曝光增加而出現的安全問題(Way、Steffan和Anderson,2002年)。對於較小的程序或在競爭激烈的市場上的程序來說,額外的費用可能會具有挑戰性,特別是如果該測試或通過該測試所獲得的認證是可選的。在CBT的最初幾年,由於候選人量在轉換到CBT後通常會減少(無論採用哪種管理模式),因此額外的費用可能尤其困難。
動態組卷
一種可提供額外好處的替代固定試卷形式的測驗管理模式是在測驗時為每個考生組合一份獨特的試卷。假設擁有足夠大的試題庫,即可透過LOFT方法在測驗規格的每個限制內採樣試題來為每個考生生成獨特的試卷。根據試題庫的大小,減少兩個考生看到非常相似的試卷的可能性是很大的。典型的LOFT測驗與固定線性形式的測驗相同長度。已發展了相當大量的研究來定義測驗管理軟體用於試題選擇的規則(例如Stocking和Lewis,1998年)。仍然存在有關某些試題的過度使用或可用試題庫內容的不平等曝光的問題(Breithaupt和Hare,2016年)。一些採用此管理模式的例子包括微軟公司提供的認證考試(Microsoft,2014年)。
可將自適應測驗的某些元素納入LOFT設計中。如果已知有關考生的先前信息(例如先前的測驗成績、課程成績),可以使用該信息來建立一份測驗,使測量精度在先前信息所建議的適當能力水平附近最大化。 Van der Linden(2005年)討論了幾種適合組裝LOFT設計的組裝方法,其中一些方法考慮到典型考生人群的能力概況,例如TOEFL測試。
多階段適性測驗
多階段適性測驗(MST)通常向受試者分別給予多組稱為試題組的試題,每組試題都是線性形式的。然而,在完成每組試題後,考生在該試題組上的表現被用來適應性地選擇下一組試題。一個常見的多階段適性設計是1-3-3模型,其中在第一階段給予一組中等難度的試題。根據第一組試題的表現,會進一步給予一組容易、中等或難的試題。完成第二組試題後,再次考慮考生的表現,決定最後一組試題是容易、中等還是難的試題。在希望在分數標度上有類似精度的情況下,1-3-3設計非常有用。 Yan、von Davier和Lewis(2014)提供了MST設計的全面概述。
美國註冊會計師考試(CPA Exam)使用1-2-2多階段設計(Breithaupt等,2006)。由於美國註冊會計師考試是一項授權考試,主要目標是在分數及格分數附近實現準確的測量。雖然未通過的考生會獲得一些關於他們的表現與及格考生相對的信息,但低分考生的分數不需要像及格分數附近那樣精確。因此,沒有容易的試題組。因此,美國註冊會計師考試對考生只有四種可能的路線:中等、難、難;中等、中等、中等;中等、難、中等;和中等、中等、難。在實際應用中,大多數考生會走前兩條路線。
電腦適性測驗
儘管一些LOFT測驗和大多數MST具有適性功能,但CAT一詞通常僅用於測試根據受試者對每個問題的回答進行調整的測試(Luecht&Sireci,2011)。在提供初始試題後,自適應算法從被認為是下一個“最佳”試題的試題庫中選擇下一個問題。根據算法,選擇後續試題,直到達到停止規則。停止規則可以基於測試長度(所有受試者接受相同數量的問題),測量精度(與受試者能力估計相關的誤差低於某個目標)或二者的結合。
試題選擇
存在不同的模型來決定將選擇哪個試題進行管理。早期對CAT的研究集中在基於當前能力估計值選擇最具信息量的試題(例如Lord,1971)。這種方法可以得到最精確的能力估計,但忽略了要涵蓋的內容範圍和測試的其他特點。因此,今天大多數CAT都試圖滿足大量約束條件。
一種試題選擇技術是按順序滿足內容約束條件。在這種情況下,藍圖中的每個內容領域都可以被視為一個測試集。只有在從試卷藍圖的第一個內容領域中選擇所需數量的試題之前,才從該內容領域中進行試題選擇。試題是基於可用試題中哪一個試題具有最多信息而進行選擇的。因此,自適應僅限於第一個內容領域中可能出現的情況。一旦第一個區域的內容限制條件得到滿足,就只從第二個內容區域中選擇試題,直到滿足該限制條件。試題選擇一直持續到滿足所有內容約束條件為止。此技術的優點是確保所有受試者接受均衡的內容測試,但如果每個內容區域中可用的試題難度在能力量表上沒有涵蓋範圍,則可能會降低測量精度。當測試進行時,如果例如受試者表現不佳,且其餘區域中的內容相對困難,則這個問題可能會加劇。
第二種技術是使用測試規範和所代表的約束條件作為目標,但不是要求。這些啟發式模型(例如權重偏差模型)承認它們不會滿足所有約束條件,但會儘可能減少約束違規情況,特別是對於較重要的約束條件(Stocking&Lewis,1998)。與第一種技術相同,下一個選擇的試題是在約束條件下最具信息量的試題;但是,在試題選擇期間,將考慮所有可用的試題庫。
電腦適性測驗的另一種試題選擇方法是使用 van der Linden(2005)開發的"影子測驗",旨在產生最符合所有限制條件的測驗。實際上,基於影子測驗的試題選擇是一個分為兩步的過程。在每道問題被回答後,演算法會識別最適合滿足所有限制條件的題目,並從這個虛擬或影子測驗中選擇最佳的題目進行回答。在回答了這個題目後,會定義一個新的虛擬測驗(比前一個測驗短一題),並從其中選擇最佳的題目進行回答。此過程會繼續進行,從中選擇越來越短的影子測驗,直到測驗完成並滿足所有限制條件為止。
儘管影子測驗是一種非常強大的設計,但其構建和隨後的試題交付規則可能需要大量計算。一些從業人員認為,基於優化的試題選擇方法是優雅但不切實際的(例如,Luecht,1998)。然而,隨著電腦運算能力的增強和更強大的優化求解器的可用性,我們相信影子測試是可行的,並且將開始在大量測試計劃中獲得重視,其中試題曝光、建立大量可比較的測試形式和定制測試都是具有挑戰性的問題。
停止規則
電腦適性測驗可以是固定長度或可變長度的。對於固定長度的電腦適性測驗,停止規則很簡單。測試會一直進行直到完成所需的試題數量、所允許的時間用盡,或考生退出測試為止。對於可變長度的電腦適性測驗,停止規則主要基於所需的能力估計精度。當試題被呈現時,與能力估計相關的誤差會減少。如果考生在大部分試題上表現一致,誤差可能會快速減少,同時也會產生相對較短的測試時間。然而,如果考生表現不一致,需要更多的試題才能達到所需的精度水平。與固定長度測試一樣,可變長度測試也有最大測試長度。如果達到最大測試長度,即使尚未達到所需的精度,測試也會終止。可變長度測試也會在時間用盡或考生退出測試時終止。
可變長度測驗的停止規則可能非常複雜,尤其是在決策情境下。例如,NCLEX是一種可變長度的CAT,其規格要求至少進行最低數量的題目 (Kingsbury & Zara, 1991)。 NCLEX進行的總題數不能超過設定的最大題數。當完成所需的最低數量的題目後,如果與考生能力估計值相關的誤差範圍未包括及格分數,則測驗結束。如果已經進行了最大題數,則通過或不通過的決定是基於已完成的題目。但如果時間到期,則會回顧已完成的題目的答案,並進行通過或不通過的決定。
測驗編制通常是根據測驗藍圖或一系列的測驗規格進行建立。測驗藍圖中通常有許多要求,包括內容涵蓋範圍、測量心理學規格、題目格式、字數、行政要求等。當需要多種測驗形式(例如出於安全性考慮)時,使用傳統的專家小組進行測驗形式的手動構建變得非常困難,甚至是不可能的。因此,已開發出運用數學優化程序的自動測驗編制 (ATA) 機制 (Breithaupt、Zhang、& Hare,2014; van der Linden,2005)。先前在CAT中描述的題目選擇啟發式和算法就是在測驗進行期間發生的ATA的例子。ATA也經常用於非CAT測量,例如MST、固定形式和LOFT (例如Breithaupt & Hare,2007; Breithaupt等,2014)。
安全性
雖然CBT提供多次考試的便利性是一個吸引人的特點,但它確實創造了一些問題,尤其是考生之間會相互溝通考試內容的風險。如果考試內容廣為人知,考試的效度就會降低(例如,Gao、Tay和Drasgow,2009年)。測試計畫使用各種技術來預防和檢測作弊。關於共享信息(預先知道),計畫通常同時使用多個版本的測試,並且可以隨機排列試題的呈現順序。短暫的行政管理窗口也是另一個防範措施。計畫還控制試題曝光(在一定時間內試題可以被使用的次數)。此外,許多計畫經常在時間上輪換可用的試題集(題庫)(Veldkamp和van der Linden,2010年)。所有這些安全程序都可以用於使用ATA算法的計畫中。
預先知道不僅僅是考生之間共享測試內容。許多教練和測試準備服務在互聯網上出售練習材料,聲稱其中的試題是實際的現場測試問題。這些“腦袋垃圾”網站既徵求又分發這些試題。打擊任何形式的勾結或在互聯網上運作的測試準備服務都很困難,因為即使測試計畫採取法律行動關閉他們的互聯網服務提供商(ISP),他們也可以輕易地以不同的名字重新開放。因此,一些測試公司雇用安全監控服務,不斷搜尋與其計畫的測試項目銷售有關的可疑活動。
另一種常見的作弊形式是代理測試,即代替他人參加測試。許多人認為,使用生物識別符號,如指紋圖像、手掌圖案或視網膜掃描,可以有效防止代理測試。一旦一個人提供了生物識別數據,每次他或她參加測試甚至每次進出考試房間時都可以對數據進行存儲和檢查。生物識別數據不一定能夠消除代理測試,但使用它可以防止單一職業測試代表為不同人參加同一測試。一旦生物識別數據與一個人相關聯,系統就會標記這些數據與另一個人的關聯。儘管生物識別信息是一個非常有用的工具,但許多國家的數據隱私法律可能會使生物識別程序的實施變得複雜,並限制數據的使用方式。
儘管測試機構會盡力防止作弊,但一些作弊情況總是會發生,尤其是對於高風險測試(例如Gao等人,2009)。在K-12年級的高風險測試中,作弊是一個主要的問題。最近的教育賬戶計劃通常包括學生的表現,用以評估教師的效益。這是一個非常有爭議的測試結果使用,因此曾出現過教師和其他人修改學生的測試答案以改善結果的情況。因此,鑑識分析變得越來越重要。許多鑑識工作已經在紙質測試方面進行,包括大量分數增長分析、不同個人或群體的測試者之間不尋常的答案相似性、筆跡分析以及擦除和有多個人標記答案文件的證據分析。Cohen和Wallack(2006)提供了有關紙質和計算機化測試管理中安全問題的詳細概述。計算機交付測試的日誌文件包含大量資訊,而這些資訊在紙質測試中是不可用的。可用數據包括花在題目上的時間、答案的更改、訪問題目的次數、是否將題目標記為需要檢查等。快速反應可能是事先了解題目或證據表明考生正專注於小集合的題目上,以便記憶它們,而忽略測試中的大多數題目(可能是因為其他考生已被要求記住它們)。也可以監控題目表現的變化。如果題目變得更容易或考生花在上面的時間變短,這可能表明該題目已經受到破壞,應該從試題庫中移除。
目前的發展和挑戰
目前,電腦化測試(CBT)領域有一些令人興奮的新發展。其中包括測試地點的靈活性增加、對考生生成的回答進行人工智能/自動評分、高效且集成化的試題庫管理、試題開發、校準以及互操作性和開源平台。
增加測試地點的靈活性
在高風險考試的專用測試中心進行安全測試交付的模式存在一些實際的挑戰。對考生體驗的靈活性和更多測試參與者的全球可及性的需求迫使測試計畫擴大其服務範圍,並考慮在傳統測試中心之外提供安全評估。對遠程或線上監考的興趣正在增加,許多公司現在正在提供此類服務。有關幾家主要線上監考服務提供商的摘要,可以參閱Foster和Layman(2013)的文章。對已驗證的能力的重視和越來越多的使用"徽章"(例如,通過Mozilla的Open Badges倡議發行的徽章)以及對更大便利性的需求,包括大規模開放式在線課程(MOOC)的提供,很可能推動對遠程監考服務的持續需求。
另一個可能會影響測試地點的發展是越來越多的要求測試具有設備獨立性。雖然這對於許可和認證計畫來說不是一個重要的問題,但在K-12教育中使用的設備種類已經創造了要求州和區域測試不僅在計算機上,還在其他數字設備上可用的要求(Dean&Martineau,2012)。
人工智慧/自動評分
對於需要考生提供答案而非從給定的選項中選擇答案的複雜評估任務的需求增加,例如文章、圖表和其他技術增強的項目 (TEI; Scalise & Wilson, 2006)。普及的CBT在與共同核心標準有關的評估中的使用,需要解決裝置獨立性、可及性、翻譯、非客觀評估的自動評分和TEI等問題。Zenisky和Sireci (2013) 討論了這些項目類型如何有助於測量高階思考。這些項目可能很難保持一致、高效和準確的評分。人工評分廣泛使用,但對人工評分的質量知之甚少 (Williamson, Mislevy, & Behar, 2006)。Bennett和Zhang (2016) 描述了自動評分相對於一致性、客觀性、效率、成本和其他因素的一些優點,同時承認自動評分的某些方面仍無法達到人類的表現。Williamson還回顧了不同類型的自動評分並提供了可用的軟體系統的範例。
有效且整合的試題庫管理、試題開發和校準
文獻中的幾個案例研究展示了離散優化在不同的電腦測驗高風險模型中的實際應用。然而,我們認為,未來的真正進展可能通過大型試題庫規劃、庫存管理和有意識的長期供應鏈分析方面的研究來實現,其中試題庫、組裝和庫存管理得到完全整合(Luecht,2016)。這意味著我們需要更短的試題開發時間,以及改進和自動化試驗開發、交付和評分流程的機制。值得注意的是,最大測試計畫的需求通常推動商業供應商的系統支持電腦化測試交付的發展和創新。當越來越多的州級評估計畫和具有影響力的大量測試計畫納入創新試題並要求對庫存輪換和內容更新進行更大程度的控制時,測試交付供應商將需要開發能夠滿足這些要求的系統。當一系列供應商競爭實現系統之間更高的互操作性,以及當試題庫和測試發布和交付系統的設計和工作流程無縫支持測驗組裝自動化時,我們將開始看到有效的解決方案。
似乎不可避免地,我們需要利用更高效的試題編寫、自動評分以及先前校準或實時校準的試題。使用證據中心設計來指定評估任務以及使用自動試題生成(AIG)來開發試題已取得重要進展。Gierl和Haladyna(2013)對AIG的發展進行了評估。這些發展將導致需要使用實時或同步暴露數據的技術和方法進行題庫管理,並/或立即校準試題以驅動未來評估中更細微的測試和試題庫設計。同時,也需要簡單快速地更新測試規範,並獲取和更新基於統計的校準試題數據。
互操作性和開源平台
智慧平衡評估聯盟(SBAC)和準備就緒的大學和職業生涯伙伴關係(PARCC)已為其會員州開發了大型的試題庫。當不同州份(及其供應商)在不同的管理和傳送系統中部署這些試題庫時,互操作性成為一個要求。現有多個互操作性標準,包括可共享內容對象參考模型(SCORM)、學校互操作框架(SIF)和問題和測試互操作性(QTI)規範(Way、Davis、Keng 和 Srain-Seymour,2016)。在州級評估中,互操作性尤其重要,以便在州與多個傳送供應商合作或決定更換供應商時,能夠保持其測試計劃的連續性。在認證和許可計劃中也需要靈活性,但到目前為止,測試贊助商尚未對互操作性提出要求。測試計劃中的試題庫軟件、組裝和評分系統的互操作性看來是不可避免的。Drasgow、Luecht 和 Bennett(2006)描述了測試計劃中互操作性的愿景,即建立一個全面的庫存規劃、測試開發、發佈、傳送和評分系統。
同樣地,大多數的電腦化測驗都是通過專有的測試傳送引擎進行的。因此,測試贊助商很難通過多個供應商部署其測試,更改供應商或確保不同的引擎在特定情況下產生相同的結果。一個開源引擎是開放評估技術(TAO)平台。TAO已在2012年國際學生評估計劃(PISA)中得到使用,也是2015年PISA所選擇的平台。TAO還用於提供國家中心和州聯盟(NCSC)開發的通用核心替代評估的現場測試。SBAC在2015年發布了一個開源平台供其會員州使用。
討論
本章討論了CBT(電腦測驗)目前的一些問題。我們首先簡要說明了CBT的發展,總結了一些方案實施它的原因,解釋了常用的測試管理模型,並討論了一些目前正在解決的問題。這些發展的影響是很有趣的。
評估風景正在迅速變化。在K-12教育環境中,組織正回應對全國等效的Common Core評估的需求,而測試內容開發的重點可能已經達到了頂峰。預測試題的大量預先測試數據庫的可用性使得州可以從中獲取大量高質量的試題來構建其評估。儘管仍需要進行試題的開發和預測,但其量級可能低於過去。自動試題生成將使試題開發過程更加高效和經濟。測試開發和交付供應商之間的互操作性將意味著州教育委員會和其他測試贊助商將有更大的靈活性,可以從多個來源獲取試題,並使用這些試題來構建定制化的測試以滿足其特定需求。開源平台在測試開發和管理中的可接受性增加將降低專有測試交付引擎和平台的價值。對更靈活的測試管理和設備獨立性的需求將威脅傳統測試中心管理模型的主導地位。
這些變化可能會導致對測量過程的其他方面進行更多的強調。這些將包括:開發更強、更易於理解的得分解釋和分析模型;進一步發展以證據為中心的設計概念,用於測試設計和設置績效標準或切割分數;更有策略地選擇測試管理模型;以及為個人和群體適用的學習活動開發更清晰的目標。