Ch11. The History of Computer‑Based Testing
原文出處:Wells, C. S., & Faulkner-Bond, M. (Eds.). (2016). Educational measurement: From foundations to future. Guilford Publications.
如今,科技幾乎滲透到我們生活的各個方面。從通訊到交通再到娛樂,電腦和電子設備無所不在,並在各種情況下被利用。雖然趨勢表明我們對數位媒體的依賴程度越來越高,但有些變化並不像人們預期的那樣迅速和普遍。例如,電子書的銷量在2009年至2012年之間激增,但在2013年趨於穩定,約占美國所有書籍銷量的30%。對這種增長放緩的一個解釋(Carr, 2013)是,電子書可能更適合某些類型的書籍(例如,類型小說)而不是其他類型(例如,非小說和文學小說),以及某些閱讀情境(旅行)而不是其他情境(例如,在家裡的沙發上躺著閱讀)。因此,電子書是否會完全取代傳統紙質書並不明顯,這個問題的答案可能很大程度上取決於它們是否被消費者認為在各種閱讀情境中都優於紙質書。
雖然並非如此戲劇性或近期的創新,但可以將電腦化測試(Computer-Based Testing,簡稱 CBT)與電子書相提並論,因為它們尚未取代傳統的紙質測試方法。也許在測試和測量領域,沒有哪個趨勢像CBT一樣被吹捧得那麼長時間或如此響亮。CBT及其衍生方法(例如適性測試)的根源可以追溯到100多年前著名心理學家阿爾貝特·賓內(Albert Binet)的研究(參見 www.iacat.org/content/first-adaptive-test)。在撰寫本章的25年前,Bunderson、Inouye和Olsen(1989)描述了四代電腦化教育測量,指出:“新技術交付系統替代品的廣泛可用性和低成本帶來的變革正在使測試從紙筆和印刷手冊的交付方式轉向在線電腦工作站的交付方式”(第402頁)。為什麼這一趨勢沒有按照許多人在1989年預期的軌跡發展,是CBT歷史上一個有趣的部分。
什麼是CBT?
從最廣泛的意義上講,CBT不僅包括在電腦或工作站上進行的測試,還包括由其他設備(包括智能手機、平板電腦和其他電子設備)交付的測試(Davey,2005)。在英格蘭,CBT被稱為電子評估或“電子評估”,定義為“端到端的電子評估過程,其中使用ICT[資訊和通信技術]進行評估活動的呈現和響應的記錄”(Busuttil-Reynaud&Winkley,2006,第4頁)。這兩個定義都預示著數位技術在測試交付方面可能繼續演變,並暗示CBT中的電腦最終可能成為一個錯誤的名稱。
將CBT與傳統紙質測試中涉及的測試準備、管理和評分過程進行比較時,CBT的優勢相對明顯。CBT消除了印刷、運送、收集和追踪實體測試冊子和答案文件的需求。這使得管理過程更高效、更安全。此外,CBT在管理方面提供了更大的靈活性,特別是在招生、認證/執照和分班計劃中,個人可以安排在對他們方便的時間進行測試。由於管理方面的效率,CBT可以更快地獲得分數和分數報告,特別是當測試包括機器評分的試題時。當試題可以預先校準時,可以實現如電腦適性測驗(Computer Adaptive Testing,簡稱CAT)等動態管理模型,這可以提高測量的效率和準確性(Weiss,1982)。有多種動態模型可支持CBT(參見Folk&Smith,2002;Luecht&Sireci,2011);我們將在本章後面討論其中的一些模型。
也許CBT最引人注目的優勢是可以管理技術增強的試題和任務,以更好地衡量考生的知識和能力。在這方面相對早期的創新包括為醫學(Melnick&Clauser,2006)和建築學(Bejar&Braun,1994)執照測試開發的模擬。近年來,開發技術增強試題的努力主要集中在使用模板來描述考生與呈現的試題或任務之間的互動,產生的響應數據以及評分響應的方法(Haertel等,2012;Parshall&Harmes,2007)。這些模板旨在促進技術增強試題開發的效率和一致性。
在本章中,我們追踪了CBT的歷史,重點關注三個方面:(1)CBT如何發展到今天的地步;(2)轉向CBT的主要方法論含義;以及(3)轉向CBT的主要政策含義,這將持續到未來。在回顧這段歷史時,我們確定了一些顯著的參與者和應用,以及與這些努力相關的一些成功和挑戰。我們很高興有機會為向Hambleton博士致敬的本卷做出貢獻。在他的職業生涯中,他一直對CBT非常感興趣,他對測試理論和實踐的許多貢獻直接和間接地促使CBT的發展。
CBT的演變
CBT的起源
顯而易見,指出CBT的演變是隨著教育和社會整體電腦使用的演變而來的,這有點陳腔濫調。儘管如此,CBT歷史上還有其他值得一提的方面。如前所述,賓尼特(Binet)在智力測試方面的工作被認為是適性測試的前驅(賓尼特和西蒙,1912年)。在20世紀20年代,俄亥俄州立大學的教育心理學教授Sidney Pressey為他的入門課程的學生開發了一台機器,以管理試題(Pressey,1926年,1927年)。 Pressey是“程式教學”運動的早期支持者,該運動後來在20世紀50年代末和20世紀60年代初由B.F. Skinner大力推廣(Skinner,1958年,1961年)。本傑明(1988)追踪了教學機器的歷史,並將該文章的大部分內容獻給了Pressey和Skinner的工作。
Pressey和Skinner的教學機器本身並不是電腦;然而,程式教學運動很快就接受了電腦輔助教學(computer-assisted instruction, CAI)的概念。早期引用的CAI示例是IBM教學機器項目(Benjamin,1988)。該項目包括一台與打字機相連的高速電腦,使電腦能夠通過打字機向學生提供問題。學生反過來輸入答案,然後將答案傳送到電腦進行檢查。
更著名的CAI系統是始於20世紀60年代初的PLATO(自動教學操作程式邏輯;Pagliaro,1983)。PLATO起初在伊利諾伊大學香檳分校創立,後來由Control Data Cooperation(CDC)開發。在整個20世紀60年代的漫長發展時期,PLATO一直是一個小型系統,僅支持一個教室的終端。大約在1972年,PLATO開始過渡到新一代的大型機,最終可以同時支持多達1000名用戶。1976年,該系統被CDC收購,開始實現商業化。CDC的一個早期成功案例是與全國證券經銷商協會(NASD)合作,從大約1978年開始開發第一個“按需”監考的CBT系統(Zara,2006)。直到1990年,CDC的在線測試業務才緩慢增長,當時它被剝離為幾家建立測試中心的公司之一,以支持自20世紀80年代末開始的執照、認證和學術入學計劃的CBT。
適性測試研究的黃金時代
通過與適性測試有關的理論和實證研究,CBT的演進也開始加速。當時,這種測試有多種替代術語,如順序測試(sequential testing)、分支測試(branched testing)、個性化測量(individualized measurement)、定制測試(tailored testing)、程式測試(programmed testing)和反應依賴測試(response-contingent testing)(Weiss和Betz,1973)。20世紀60年代末和20世紀70年代初,出現了一些重要的論文,開始為適性測試提供理論基礎,包括Birnbaum(1968)對潛在特徵模型的介紹、Owen(1969)引入了一種貝氏適性測試(CAT)程序,Lord(1970;1971a,1971b,1971c,1971d)對靈活級別測試的幾篇開創性論文,以及Weiss和他的明尼蘇達大學同事們對適性測試中分支策略的研究(Weiss,1976)。
CAI和PLATO等平台的可用性引起了軍方的興趣,軍方正在尋找有效的方法來培訓和評估新兵的才能,以便將他們分配到專業領域。實現這一目標的一個非常有前景的領域是適性測試(CAT),軍方資助推動了可以認為是CAT研究的黃金時代。這項工作的早期例子是Hansen、Johnson、Fagan、Tan和Dick(1974)研究在空軍技術培訓環境中應用計算機化適性測量系統的效用。為了完成這項研究,測試程序被編程在用於支持伊利諾伊大學PLATO系統的TUTOR語言中。這項研究的結論非常樂觀:“適性測試提供了最多50%的時間節省潛力。此外,發現可以相對容易地開發一個非常靈活的計算機系統來驅動適性測試策略。”(Hansen等人,1974,第2頁)。
軍方通過自1975年開始贊助一系列會議進一步鼓勵CAT研究(Clark,1976;Weiss,1978,1980,1985)。這些會議將軍事和學術界的領先研究人員聚集在一起,會議記錄反映了適性測試研究和理論工作的卓越廣度和深度。對於那些對CBT歷史感興趣的人來說,值得特別注意的是——截至本文撰寫時——所有四個會議的會議記錄都可以在網路上找到。
軍方對CAT的投資最終促成了武裝部隊職業適性檢測電腦適應性測試版本(CAT-ASVAB)的開發,該版本於1976年首次提出,同年確定將對軍隊、空軍、海軍和海軍陸戰隊的申請人進行單一分類檢測(國防人力數據中心,2006)。1979年資助了一個可行性項目,並在1979年至1983年之間對實驗性CAT-ASVAB版本的開發和驗證進行心理測量評估。1983年至1985年間進行了一項大規模驗證研究,以解決ASVAB的CAT和紙筆版本的可比性問題(Segall,Moreno,Kieckhaefer,Vicino和McBride,1997)。這項研究的結果是積極的,導致CAT-ASVAB在1985年至1990年間的實際開發和實施,並且自那時起順利運行。
在20世紀80年代,另外兩個趨勢也影響了CBT的演變。第一個趨勢是試題反應理論(IRT)在各種測試場景中的應用和接受程度的爆炸式增長。這一趨勢得到了學術界幾本專門研究IRT的教科書的推動(Hambleton和Swaminathan,1985;Hulin,Drasgow和Parsons,1983;Lord,1980)。此外,主要的測試出版商開始使用IRT來縮放和等化測試(Hicks,1983;Lenke和Rentz,1982;Yen,1983)。隨著IRT原理變得越來越知名,人們普遍認識到它作為支持CBT應用的一種手段具有很大的潛力。
在1980年代,微型電腦變得普及,它們在支持 CBT 方面的應用得到了實現。例如,CAT-ASVAB項目受益於微型電腦行業的發展,現在可以使用現成的設備,而不是定制的大型機硬件和軟件。Haney(1985)描述了波特蘭公立學校系統使用微型電腦和基於Rasch的適性測驗系統的試點。教育測驗服務(ETS)使用微型電腦為大學理事會實施一個電腦化適性測驗,用於大學級別的安置(Ward,1988; Ward,Kline,& Flaugher,1986)。ETS還與建築師全國委員會合作,使用微型電腦和電腦化精通測試模型管理他們的建築師註冊考試(Lewis&Sheehan,1990)。Carlson和von Davier(2013)提供了ETS對試題反應理論(IRT)的貢獻的歷史回顧,其中一些貢獻涉及到CBT的應用。
到了1990年代初,一些大型測試計劃已經準備好實施電腦適性測驗(CAT)和其他CBT應用。有很多理由樂觀地認為CBT很快就會取代傳統的紙筆測試。支持CAT的試題反應理論(IRT)和統計方法已經成熟,而且實現CBT的技術似乎已經觸手可及。在一系列方法論的完善支持下,CBT在1990年代明顯擴展。然而,預期的CBT和CAT應用的爆炸式增長並未完全實現。
電腦適性測驗的實施和挑戰
在1980年代末,ETS提議將研究生入學考試(GRE)轉換為電腦適性測驗(CAT)格式。開發和支持研究分為兩個階段進行:首先,確定CBT版本與紙筆GRE的可比性;其次,確定適性測試模型與原始線性模型的可比性(Mills,1999)。此外,ETS研究人員還投入了大量工作,開發了一種能夠在心理測量目標和與內容、試題格式、在集合或段落中提供的試題以及試題曝光率等其他相關限制之間取得平衡的CAT試題選擇算法(Stocking&Swanson,1993)。
GRE電腦適性測驗於1993年推出,並持續提供。測試過程中幾乎立即遇到了問題。在1994年下半年,考試培訓公司Stanley H. Kaplan的22名員工參加了GRE電腦適性測驗,證明CAT的問題可以被考生記住,並傳遞給還沒有參加考試的其他人。Kaplan將其發現告知了ETS。ETS通過向Kaplan提起訴訟進行回應,但也減少了電腦適性測驗的提供,並顯著增加了試題開發(Educational Testing Service,et al. v. Stanley H. Kaplan, Educational Center, LTD.,1997)。
GRE電腦適性測驗中出現的第二個問題涉及ETS為未完成測驗的考生打分的政策。最初,ETS要求學生至少完成80%的電腦適性測驗才能得到分數。如果達到這個最低門檻,則最終分數將基於考生回答的那些試題的能力的最大概似估計(Slater&Schaeffer,1996)。實質上,80%的規定並未因未完成測驗而懲罰考生。一旦這條規定為人所知,未完成的電腦適性測驗的比例增加,分數也增加,特別是對於已知加速的GRE分析部分(Bridgeman&Cline,2000)。為了對抗這一趨勢,ETS實施了一種稱為比例計分(proportional scoring)的新方法來對未完成的電腦適性測驗進行評分(Schaeffer等,1998)。比例計分對未回答試題的考生施加了懲罰,平均來看,這種懲罰似乎比假設他們在試題上隨機猜測要嚴重,但又比假設他們回答錯誤要輕微(Mills&Steffen,2000)。
雖然比例計分似乎解決了電腦適性測驗與紙筆GRE的可比性問題,但它並未解決與加速GRE分析電腦適性測驗相關的問題。當一名考生在電腦適性測驗上獲得極低分數,然後在用紙筆測試重新測試時,GRE分析部分的百分位數從第3位提高到第84位時,這個問題變得尖銳。作為對投訴的回應,ETS將電腦適性測驗分數從學生的記錄中刪除,並退還CBT測試費用(Mayfield,1999)。隨後,電腦適性測驗結果中的速度問題和其他不規律問題導致ETS採取政策,取消部分GRE電腦適性測驗考生的分數,並為結果異常的考生提供免費重測(Carlson,2000)。
在1990年代,ETS為其許多最著名的大型測試項目實施了電腦適性測驗,包括GRE、外語英語考試(TOEFL)、初級教師職業評估Praxis和研究生管理專業考試(GMAT)。對這些計劃採用電腦適性測驗的決定是大膽的,但與GRE遇到的操作挑戰類似。Wainer和Eignor(2000)以及Wainer(2000)總結了一些持續存在的問題,包括在面對持續測試的情況下保持安全性、為限制試題曝光所需的大量測試開發工作,以及與紙筆測試相比增加的管理成本。基於這些結果,這可能並非巧合,其他大型入學測試項目,如SAT和ACT評估以及法學院入學考試(LSAT),儘管最初的研究和開發工作集中在電腦化測試上,但它們在1990年代和2000年代都選擇將其計劃保持在紙筆格式。
電腦化測試的擴展、改進及更多挑戰
儘管ETS對電腦適性測驗的嘗試取得了好壞參半的成果,但在1990年代和2000年初期,有許多成功的電腦化測試(CBT)計劃亮相。CBT實施最成功的領域之一是認證和執照。與入學測試相比,基於電腦的認證和執照測試具有控制和追踪考生的優勢,而這在入學測試中是無法實現的。這種控制和追踪有助於減少在持續測試條件下與考試安全性相關的擔憂。一個早期的針對執照的適性測試例子是國家護士執照委員會的註冊護士和實習護士考試(NCLEX-RN和NCLEX-PN)。1994年,這些考試采用了基於Rasch模型的可變長度電腦適性測試程序進行電腦化。這種方法將護理候選人的測試時間從每年兩次在大城市的有限測試中心進行的2天,縮短到幾乎任何期望的日期和時間,在距離半小時車程的電腦中心進行的短短90分鐘(Zara,1999)。正如Breithaupt, Mills和Melican(2006)所描述的,建築師註冊委員會國家委員會(NCARB)、美國醫學執照考試(USMLE)和美國註冊會計師學會(AICPA)推出了CBT創新的著名例子。此外,許多信息技術行業的公司建立了CBT認證計劃,包括微軟、Novell、思科、惠普等。這些計劃的成功促使維護全球CBT中心的供應商擴展,尤其是Prometric和Pearson VUE。這些CBT供應商很快就在全球範圍內為數百個客戶提供CBT服務。
在美國的教育測試中,隨著各州測試計劃擴大以滿足2001年《不讓任何孩子掉队法案》(No Child Left Behind,NCLB)的要求,CBT的應用也開始如雨後春筍般出現。在1990年代已經建立了教育環境中電腦適性測試(CAT)的成功應用(參見Kingsbury和Houser,1999年),並且NCLB的增加測試要求似乎非常適合CAT應用。然而,關於在NCLB背景下使用CAT的爭議很快引起了人們的關注。具體來說,美國教育部的最終規定規定,用於NCLB問責目的的CAT中的所有題目都必須根據各年級的標準進行測量。這一規定使得一些州在其評估計劃中引入CAT的努力受阻,因為CAT項目開發工作未針對各年級的特定年級標準進行(Trotter,2003年)。許多人的解釋,總結在《教育周刊》的一篇文章中,認為CAT不符合NCLB:
但目前的結果是,電腦適性測試在聯邦法律中被排除在外,而與之相伴的是公眾關注和聯邦資金的測試開發。適性測試的開發者們覺得他們錯過了可能是歷史上最大的大學前測試繁榮。(Trotter,2003年,第18頁)
由於這一爭議,大多數州避免在其NCLB測試計劃中尋求CAT。最終,美國教育部修改了對適性測試的立場,並在2007年獲得部門批准的俄勒岡州帶頭,到21世紀後期,幾個州已經為其NCLB測試計劃開發並實施了CAT。
在美國州測試計劃中,CBT大規模應用的另一個障礙是學校缺乏支持每年對學生進行全面測試的基礎設施。與為許可和錄取測試部署的CBT模型不同,這些模型中供應商維護了完全配備的測試中心,按預約安排應試者,而K-12學校則需要完全負責CBT管理。Way和McClarty(2012)總結了K-12 CBT計劃中面臨的一些挑戰,指出支持一個州(弗吉尼亞州)實施CBT所需的大量州級資金,並得出結論認為,在大多數州級CBT應用中,由於電腦基礎設施不足,幾乎可以保證需要支持雙模測試(例如,CBT和紙筆測試)一段時間。
儘管面臨這些挑戰,美國近年來的教育改革幾乎可以保證CBT在學校測試中的持續擴展。2009年的《美國經濟復甦和再投資法案》包括了3.5億美元的競爭性資助,這些資助在2010年被授予了兩個州聯盟,用於設計全新的綜合評估系統(美國教育部,2010)。兩個聯盟都利用這些資金開發了主要為CBT管理而設計的評估(儘管仍將支持雙模式管理)。截至撰寫本文時,兩個聯盟都已實施了可以稱為“下一代”評估的運營管理。
轉向CBT的方法論意涵
CBT對評估新舊構念帶來了巨大的可能性。然而,正如前面部分所明顯表現出的,過去30年中CBT實施的進展受到了諸如測試安全和可持續性等關鍵領域的實際問題的阻礙。回顧過去,我們可以看到創新CAT計劃所面臨的新的和非凡的需求,以及在面對這些需求時缺乏方法論含義方面的經驗,是遇到困難的主要原因。然而,研究和經驗的積累為最近發生的新實施(Yan, von Davier, & Lewis, 2014)以及即將到來的新發展(Bartram & Hambleton, 2006; Way et al., 2010)奠定了堅實的基礎。
早期的大規模CAT計劃
如前所述,對於衡量廣泛特徵或能力的測試,人們早就知道,如果測試可以適應考生,就可以提高測量效率。為了實現減少一半測試時間並在更多地點按需提供測試的重大進步,人們在測試的幾乎所有方面都開發了新的設計和方法,包括:(1)測試組裝和評分,(2)題庫和試題以及試題池(註釋1)開發,以及(3)安全測試交付。
試題組裝和計分
傳統的試題組裝通常依賴於試題規格和專業人員的經驗,每年可生產和驗證少量的試卷(Schmeiser和Welch,2006)。然而,當需要實時和/或大量創建新的試卷時,這種方法是不可行的。相反,必須通過全自動化的試題組裝系統充分捕捉和行使專業知識(Swanson和Stocking,1993; Theunissen,1985; van der Linden和Boekkooi-Timminga,1989)。這樣的系統通常包括以下組件:
以內容和測量限制或目標及相關的損失函數的形式的全面的組裝規格(assembly specifications)。
優化功能(optimization function)來評估每個可能的替代選擇的相對價值。(註釋2)
試題曝光控制(exposure control)算法,以確保試卷的安全性。(註釋3)
計分算法(scoring algorithm)(註釋4)來估計受試者的臨時和最終分數。
試題選擇算法(item selection algorithm),以決定下一個要發送的試題。
例如,Stocking和Swanson(1993)描述了開發支持CAT GRE計畫的測驗組裝系統的最初開發情況。他們與該計畫的內容和測量專家合作,發現為了完全滿足所需的測驗規格,需要最多97個內容限制和目標、大量的敵對限制(註釋5)以及涵蓋報告分數範圍的多個點上的最大訊息目標。然後,他們確定了優化函數權重,以產生在可能出現的內容和測量目標損失之間的理想權衡。為了降低最大試題曝光量,從而提高測驗安全性,他們實施了Hetter和Sympson(1997)的隨機化方案,限制那些本來會被選擇最頻繁的試題的選擇概率。對於評分,他們選擇實施最大概然估計(MLE)的IRT算法(Hambleton,Swaminathan和Rogers,1991;Lord,1980)。最後,他們實施了一種高效的自適應選擇算法,不僅考慮已經做出的選擇和下一個要做的選擇,還考慮了未來選擇的可能貢獻,直到達到指定的固定測驗長度。(註釋6)
題庫和題目池開發
當然,一個測驗組裝系統能否成功地滿足所有組裝規範,很大程度上取決於可用試題庫的大小和質量。不幸的是,當測驗計畫的目標和組裝規格像這裡描述的CAT那樣苛刻和複雜時,試題開發能力可能無法滿足實際需求。在上述高度受限的CAT GRE示例中,Stocking和Swanson(1993)發現需要包含多達518個試題的試題庫才能生成適當的27個試題(註釋7)。他們邏輯地預期高度信息化的試題或內容屬性相對匱乏的試題會被更高比率地使用。然而,測試模擬結果顯示非常失衡,一些試題在盡可能使用曝光控制機制的測驗中被使用,而一些試題則完全未被使用。稍後,由於早先描述的Kaplan事件,更頻繁地旋轉試題庫和比最初預期更嚴格的曝光控制是必需的,以確保測試安全性。因此,需要比預期更多的試題資源。因此,為了使高風險CAT計畫在時間上持續發展,需要開發更高級的能力來支持試題開發並更好地使用每個試題,包括題庫、試題預測和IRT校準、自動池組裝以及質量保證和驗證。
雖然使用題庫系統管理試題開發和試題可用性不是什麼新事物,但其能力得到了極大的擴展,以便於創建現有和新的試題類型,並處理自動池組裝所需的大量試題元數據(註釋8)。一旦試題已經創建,下一步是收集預測數據以確定其IRT參數,這些參數將在稍後用於得分操作測試中它們將被選擇。為了獲得精確的IRT參數,預試題目被嵌入在操作性試題內,或者與操作性試題一起提供在未公告的額外部分中(Wainer&Mislevy,1990)。一旦成功校準,預試題目就可以被包含在題庫中。
一個可用的試題庫包含題庫中所有的操作性試題。然而,由於技術限制和試題選擇演算法過度使用某些試題的趨勢,這種選擇在題庫增長時變得無效,甚至不可能實現。相反,需要實施題庫組裝策略,提供足夠的題目集合以滿足適應性測驗的需要(Flaugher,1990; Way,Steffen和Anderson,2002)。然後,一旦組裝了新的題庫,就需要進行廣泛的測試組裝模擬,以確保它提供了適合所有考生的測驗資源,滿足適應性組裝演算法的需求。如Stocking和Swanson(1993)所示,這一步特別重要,因為CAT是測試者反應和測試組裝之間的實時互動結果,當考生以意想不到的方式作出反應或題庫缺乏特定特徵的題目時,可能會導致產生不合格的測驗。
安全的測試交付
傳統的測試計畫通常每年幾次對大量考生進行一次測試。為了保護測試安全,每個測試形式可能只使用一次或幾次,然後就會被丟棄。然而,當需要隨需交付測試時,讓題目在丟棄之前跨多個測試形式進行重複使用是一種經濟上的必要性。不幸的是,儘管項目級別的適應性測驗可以防止考生在測試過程中相互抄襲,並通常包括控制題庫中最受歡迎的題目曝光的方法,但早期的CAT計畫易受到簡單的記憶和分享策略的攻擊,例如Kaplan教育公司在1994年採用的策略,隨著互聯網的普及,這些攻擊越來越多。為了因應安全威脅,CAT GRE計畫採取了多項措施,包括縮短題庫的使用時間、制定新的規則限制題目在題庫間的使用次數,逐漸增加題庫大小,以及實施更全面的題目曝光控制(Stocking & Lewis, 1998; Way & Steffen, 1998; Way et al., 2002)。
電腦化測驗的不斷發展
早期CAT程序所面臨的重大挑戰並未減少CBT對測驗使用者和研究人員的吸引力。因此,CAT的各個方面都提出了方法論上的改進,包括試題曝光控制、評分、題庫和測驗組合規範以及選擇算法。這些進展已在許多研究論文和演示中得到記錄,並在包括理論和應用書籍以及評論文章中進一步討論(例如Drasgow、Luecht和Bennett,2005;Mills、Potenza、Fremer和Ward,2002;van der Linden和Glas,2000)。但儘管有這些進展,大規模按需CAT測試計劃在測量效率和測試安全性之間的有效權衡仍然難以實現(Davey和Nering,2002;Robin、Steffen和Liang,2014)。
因此,在2000年代初,開始對其他CBT設計進行更多關注,例如線性即時測試(LOFTs)、電腦化序列測試(CST)和多階段測試(MST)(Davey,2011;Hendrickson,2007;Luecht和Sireci,2011)。特別是在MST方面,發現與鉛筆和紙張測試相比,測量效率的增益仍然可以很大。MST還可以保留理想的鉛筆和紙張測試特點,例如在任何新測試形式被實施之前實施全面的質量控制的能力,以及讓測試參與者查看和更改其在測試部分中的任何項目回答的選項(Luecht和Clauser,2002)。因此,測試計劃(例如統一註冊會計師考試(Breithaupt,Zhang和Hare,2014)、GRE修訂版普通測試(Robin等,2014)和全國教育進展評估(NAEP;Oranje,Mazzeo,Xu和Kulick,2014)已實施或正在實施新的MST設計,而不是追求CAT。(註釋9)
電腦和網際網路技術的改進持續在電腦化測驗的演進中扮演著關鍵角色,推動實際可行性的極限(Bennett,2006)。大規模測驗計畫現在使用基於網際網路的測驗交付平台。這樣的系統不僅開放了使用平板電腦和智慧型手機的可能性,它們也通過更快地旋轉更多的試題庫、MST或線性測試,實現了更好的試題資源利用和更安全的按需測試(Ariel,Veldkamp和van der Linden,2004; Robin等人,2014; Way,1998)。改進的技術還(1)支持進一步發展能擴展可測量內容領域的試題格式和任務;(2)促進更豐富的反應數據的收集和使用;(3)實現使用自然語言處理系統對構建反應進行機器評分,否則需要人工評分(Bennett,2011);以及(4)提供工具,以增加殘障考生對標準化測試的可及性。
題目和任務的發展
很早以前,就已經認識到電腦(現在,更廣泛地說,是人-系統界面)潛在的能力,可以大幅擴展可測量的內容領域和可記錄的反應行為。然而,這種潛力的開發進展非常緩慢,改進的空間仍然很大。除了技術知識的可用性外,Bennett和Ward(1993)確認的挑戰仍然存在。其中一個挑戰是在仍然需要紙筆測試(PBT)版本的情況下,維持測試模式之間的可比性。另一個挑戰是能夠評分更複雜的任務,例如作文或涉及一系列更或更少開放性的反應的任務。還有一個挑戰是避免構造物無關的差異性在亞群體之間的差異,因為測試受試人口變得越來越多樣化。
有關更多信息,Mislevy和Haertel(2006); Sireci和Zenisky(2006); Parshall,Harmes,Davey和Pashley(2010); Bennett(2011); 和Haertel和同事(2012)提供了全面的方法論框架和對創新題目格式的研究、開發和實施的廣泛評論。
複雜試題型自動評分
CBT的好處之一是它允許收集數據以支持傳統上需要人工評估的試題類型的自動評分應用。自動評分寫作的應用始於1960年代中期(Page,2003)。從那時起,人工智能和計算技術的進步,加上數十年的研究,產生了許多系統,可以讓計算機對構建反應試題進行評分。自動評分已經被應用於數學反應、簡短內容反應、口語反應和基於模擬的任務等領域。自動評分系統的可用性和接受度在近年來大幅增長,高低風險評估的操作使用逐年擴大(Shermis&Burstein,2003; Williamson,Mislevy&Bejar,2006)。
CBT和試題反應時間
CBT還提供了一種機制,可以常規地記錄回答測試中的每個試題所需的時間,這在傳統的筆試中不實用。許多研究人員探索了各種方式來建模試題反應時間並利用它們來支持CBT應用(Schnipke&Scrams,2002; van der Linden,2009b; Wang&Hanson,2005)。試題反應時間的一個明顯的研究應用是作為測試表現的一個因素。然而,大多數傳統測試都測量沒有明確納入反應速度的構造,這限制了這個研究方向的有用性。儘管如此,研究人員已經探索了利用試題反應時間來幫助傳統和適應性測試選擇(van der Linden,2011),監測測試參與者的動機(Wise,Bhola&Yang,2006)以及檢測可能表明安全漏洞的異常反應(van der Linden,2009a; van der Linden&Guo,2008)的應用前景。
CBT轉變帶來的政策影響
儘管從傳統的紙筆測試轉向CBT帶來了許多政策影響,但在本節中,我們特別關注其中的四個。轉向CBT對政策制定者的一個明顯影響是要將計算機和技術在教學或實踐中的使用與其在評估中的使用相一致。這個問題在教育測試中最為突出,但在其他領域中也可能是一個考慮因素。相關的影響之一是需要支持CBT的基礎設施,特別是在測試不是通過由供應商管理的測試中心進行集中支持的情況下。第三個重要影響涉及患有殘疾的考生,以及如何提供符合這些人如何獲取教學或工作相關材料的標準CBT過程的輔助措施。CBT測試的轉變最終影響了學校和工作場所中可用技術的快速變化,以及這些變化如何影響評估過程,這是其最後一個重要影響。
將評估與教學和實踐相匹配是一個挑戰。早期的例子是ETS在1990年代初開發的建築設計模擬。這些模擬提供了一個界面供測試候選人使用,以解決建築設計問題。然而,這個界面是專門為評估而設計的,與建築師在實踐中使用的主要工具AutoCAD®不同。因此,研究人員必須特別注意,開發他們的設計工具,使其功能盡可能接近AutoCAD的功能。他們還必須提供易於使用的教程,以便候選人在參加建築師註冊考試的設計評估之前熟悉界面。
在寫作方面,近年來的一個例子是將評估與教學匹配的重要性。合理的假設是,在學校日常工作中使用文字處理的學生,在進行在線寫作測試時會表現得更好。另一方面,從未接觸過文字處理的學生,在計算機管理的延伸寫作任務中表現不佳的可能性較大。在這種情況下,以與他們接受教學方式相一致的方式評估學生,可能比確定評估的紙質和在線版本之間的可比性更為重要。最近的NAEP網上寫作研究支持了這種常識觀點。
儘管寫作是一個明顯的例子,其中將教學實踐與評估相一致很重要,但隨著利用科技增強型題目類型的評估機會增加,學生在課堂上學習相關基礎知識是否以及如何被教授也同樣重要。例如,解決一個使用方程式編輯器的複雜代數 II 問題,可能不僅取決於學生對 CBT 測試界面中提供的工具的理解,還取決於學生在線上環境中解決類似問題的課堂體驗。
發展足夠的 CBT 基礎設施
正如之前提到的,21 世紀前十年由於支持 CBT 的不平衡基礎設施,美國 K-12 教育中的大規模 CBT 倡議受到了阻礙。Dean 和 Martineau (2012) 最近總結了一項調查,評估了各州技術實施的情況。雖然他們報告說,在 50 個州中,有 44 個州至少有一些在線測試的倡議或計劃,但他們還得出結論,很少有州進行了大規模的評估,或者全面實施了技術增強型評估項目。隨著 Common Core 國家標準評估的實施,這種情況可能會有所改變,但各州仍需進一步投資於技術,以支持教學和評估。這樣的投資已經開始了;例如,在 2013 年和 2014 年,密歇根州的立法機關提供了 9500 萬美元,以支持地區技術改進、專業發展和其他策略,以幫助實施在線測試。可以合理地預測,類似的州級投資將有助於推動 K-12 環境中的全面轉向 CBT。
測試具有殘疾的學生
從2000年到2010年,美國測試殘疾學生(SWD)的政策和實踐出現了顯著的演變,其中一部分涉及到SWD相關的電腦化測驗(Thompson,Thurlow和Moore,2003; Thompson,Thurlow,Quenemoen和Lehr,2002; Thurlow,Lazarus,Albus和Hodgson,2010)。在2010年代初開發的共同核心州標準評估中,也特別關注了SWD的測試適應和可及性工具(參見Laitusis,Buzick,Stone,Hansen和Hakkinen,2012)。
儘管政策已成熟,並且已解決測試適應和可及性工具的問題,但CBT面臨的一個新興技術挑戰是需要支持學生在測試中使用其喜愛的輔助技術。例如,視覺障礙學生可能在教室中使用各種設備,例如屏幕閱讀器,屏幕放大器,聽覺和觸覺設備以及盲文打印機。為這些學生提供支持,要求CBT系統能夠支持這些輔助設備。此外,今天的CBT系統需要整合許多已確立和新興的技術,以在各種瀏覽器和設備上創建無縫的用戶體驗,並支持聯邦法定的內容可及性指南。解決這些使CBT普遍可及的技術挑戰需要持續進行來自供應商的研究和開發,並可能對有關測試允許的適應方式的政策產生影響。
評量在快速變化中的挑戰
在電腦化測驗的歷史中,現今科技的快速進步讓評量和教學領域需要不斷地變革。相較於傳統的筆試,電腦化評量一直以來提供更多彈性,例如能夠即時更改試題內容。然而,如今的環境需要電腦化評量更進一步的靈活性,例如運用響應式設計的原則,以最佳化測試參與者在不同電腦和裝置上的體驗,並支援日益進化的專為學生障礙者而設的輔助科技。總的來說,電腦化評量已經演變為個性化而非標準化的大規模測驗體驗(Way, Davis, Keng, & Strain-Seymour, 2016)。如此快速的變化帶來了許多刺激,但同時也可能讓人感到不安。確實,建構能夠以可靠且公平的方式產生分數,並且隨著時間保持可比性的電腦化評量,將比以往任何時候都更具挑戰性。
結論
CBT的歷史豐富多彩,其根源可以追溯到20世紀初。儘管CBT成熟的速度比許多人預測的要慢,但有許多跡象表明已經達到了一個轉折點。在本章中,我們從CBT的起源到現在的時代演進進行了考察。我們還指出了轉向CBT對測試方法和測試政策的一些主要影響。
隨著電腦和相關個人技術在測試管理和評分方面的使用變得越來越普遍,一個尚未得到回答的問題是它對美國長期主導的標準化測試方法的影響。有跡象表明,還有更多的東西將要出現。考慮到教育評估未來委員會最近委託的一組專家的最近聲明:
當前可用的技術和即將到來的創新技術可以用來獲取信息、創建模擬和情境,讓學生參與學習遊戲和其他活動,並促進學生之間的協作。這樣的活動可以觀察、記錄和評估學生在自然活動中的工作情況,從而減少了在學習過程中為了負責而單獨進行正式評估的需求。技術肯定會使形成評估的使用更加廣泛,進而顯著影響學生的學習成就。數字活動還可以提供有關非認知能力(如毅力、創造力和團隊合作)的信息,這是當前測試方法所不能做到的(Gordon委員會,2013,第11頁)。
可以說,目前來說CBT已經足夠成熟,可以成為首選的評估方法,至少在美國是如此。當然,還有各種不同的測試應用,包括心理測試和評估、職場測試和認證,以及教育測試和評估。技術對這些不同測試應用的影響無疑會有很大的差異。然而,只需要一點點的推測,可以輕易地說,雖然未來的測試可能是我們現在所謂的CBT,但對於某些評估應用來說,我們所謂的CBT可能會變成完全不同的東西。
註釋1:Item bank 指的是該計劃已經準備好用於管理或正在開發的所有試題,並使用題庫系統進行存儲和管理。Item pool 是指從題庫中提取的用於組裝測試的一部分試題。
註釋2:我們使用「限制」一詞來表示不允許違反的規格(例如,在固定長度測驗中,要提供的試題數量等於測驗長度);我們使用「目標」一詞來表示允許某些偏差的規格,並且會有一定的損失。損失可以被指定為與目標偏差成比例,或者是一個固定值。
註釋3:通常,綜合損失函數被指定為內容和測量損失的加權總和。
註釋4:這些算法使用實時隨機過程來決定試題是否可用於組裝(Hetter和Sympson,1997;Stocking和Lewis,1998)。
註釋5:敵對限制用於防止選擇超過一個試題實例或不應該出現在同一測驗中的試題集合。例如,試題可能提供相互關聯的提示,是從同一源頭衍生而來,共享過於相關的刺激等等。
註釋6:大多數測驗程序會決定固定的測驗長度。NCLEX是可變測驗長度的一個例子,只有在達到所需的測量目標時才會停止測試。
註釋7:測試需要滿足所有限制條件,如果無法滿足,則需盡可能接近指定的內容、測量和曝光目標。
註釋8:試題元數據(metadata)通常包括試題開發狀態(例如,正在開發或準備進行操作使用)、試題內容屬性、測量特性等。
註釋9:本文論述MST在某些方面可以視為CAT的一種形式,只是適應性不同。可以將傳統CAT稱為"試題適應",而MST則稱為"多階段" (T. Davey,個人溝通,2014年2月24日)。