Ch13. The Future of Computer‑Based Testing

原文出處:Wells, C. S., & Faulkner-Bond, M. (Eds.). (2016). Educational measurement: From foundations to future. Guilford Publications. 

過去幾十年對於測量專業人士來說非常令人興奮,尤其是對於參與電腦化測試(CBT)研究、開發或實施的人。自20世紀90年代初以來,我們已經看到電腦適性測驗(CAT)在諸如大學理事會的ACCUPLACER、武裝部隊職業適性測驗(ASVAB)、研究生管理錄取測試(GMAT)和全國護理委員會執照考試(NCLEX)等項目的實際運用。近年來,適性多階段測驗(MST;Zenisky, Hambleton, & Luecht, 2010)的應用已成為試題層面CAT的替代方案,包括統一註冊會計師(CPA)考試和最新版本的研究生紀錄考試(GRE)。事實上,使用電腦和測試等術語進行網路檢索可能會產生超過500,000個搜尋結果。似乎可以合理地假設,測試行業可能沒有哪個部分沒有考慮過使用CBT應用於他們自己的評估目的。

第一批大規模電腦化測試主要以有限的方式利用技術,作為管理機制。在那些早期,機構將他們的紙質測試表單複製到電腦化管理的軟件中,並按照固定的順序,依次在考生的屏幕上顯示選擇題。儘管那聽起來可能很古老,甚至平凡,但這些小步驟為後來組成如今電腦化測試常見內容的創新打開了大門。

例如,在過去的20年裡,許多測試組織在實際運作中對自動化測試組件(ATA)的應用得到了擴展。ATA運用數學優化啟發式方法和演算法,非常快速地構建多個滿足有時複雜的測試內容和統計規範的測試表單(例如,Drasgow, Luecht, & Bennett, 2006; Luecht, 1998; van der Linden, 1998, 2005; van der Linden & Boekkooi-Timminga, 1989)。ATA讓測試開發人員能夠同時構建大量固定的CBT表單,以及用於即時線性測試(LOFTs)和MSTs(Luecht, 2012b, 2012c; Luecht & Sireci, 2011)。ATA的使用還帶來了其他實際好處,例如優化題庫庫存規劃以指導未來的試題編寫。 

也許最令人興奮的創新之一是在測試開發和技術增強試題(technology-enhanced items)(TEIs;Koch, 1993; Parshall, Harmes, Davey, & Pashley, 2010; Sireci & Zenisky, 2006; Zenisky & Sireci, 2002)的引入方面。如今,常見的CBT針對選擇題(SR)或簡答題(SA)類型主題的變化包括:(1)多選題,要求考生從列表中選擇兩個或更多答案;(2)簡答題,填空題;(3)“熱點”題,要求使用滑鼠選擇數位圖像或圖片上的指定圖形區域;(4)電腦化論文;(5)校對和文本插入題;(6)查閱題,要求考生從參考圖表、圖形或其他展示品中選擇信息;(7)排序回答格式,考生為多個步驟或選項選擇合適的順序或優先順序;(8)包含數位動畫或音頻或視頻刺激;(9)圖形建模格式,要求考生使用圖形介面或在網格上繪圖(例如,繪製與線性方程相對應的線條)。 

超越技術增強的選擇題和簡答題,我們還看到了各種類型的實際性能基礎模擬的開發。例如,為國家建築師註冊委員會(NCARB)考試開發的設計架構模擬、在美國醫學執照考試上使用的涉及複雜醫學模擬的電腦化案例模擬,該模擬要求在一段時間內管理病人的病例(Clyman, Melnick, & Clauser, 1995),以及在統一會計師考試(Uniform CPA Examination)上使用的會計模擬(Devore, 2004)。仍有許多未解決的研究和運作成本/實施問題限制了複雜模擬的廣泛採用,但無可否認的是,這些基於性能的評估已經在重要和基本的方式上推動了測量科學的進步(Drasgow等人,2006;Luecht & Clauser,2002)。 

分散式線上評分是另一個技術顯著幫助減少評分處理時間和成本的領域。自1990年代中期以來,線上評分網路(OSNs)已經有效地用於滿足書面論文和其他類型的建構式回答(CR)試題所需的大規模人工評分需求(Drasgow等人,2006)。安全的網際網路門戶為全球幾乎任何地方的人工評分員提供了一個分配和數位分發CR數據的方式,每天24小時,每週7天。線上培訓和實時統計監控功能進一步為評分過程提供了強大的品質控制(QC)方法。

因此,在這個技術增強時代,我們目前關注的問題是,接下來會發生什麼?本章剩下的部分探討了五個較有前景的技術導向測試方面:(1)評估工程和有原則的測試設計;(2)自動試題生成;(3)遊戲和先進的模擬技術;(4)自動論文評分;(5)自動語音識別。

評估工程和有原則的測試設計

Mislevy(1996)清晰地闡述了對一個新的基於證據的評估範例的重要呼籲——一個專注於建立強大認知基礎的評估範例;另見Hornke和Habon(1986);Irvine(2002);Mislevy(2006);Mislevy, Steinberg和Almond(2002, 2003);Nichols(1994);Snow和Lohman(1989);以及Whitely(1976)。這不僅僅是要求在評估企業中更多地考慮認知,而且絕對不是要求僅僅在測試組件過程中採用認知試題編碼分類法。相反,Mislevy的呼籲是從一開始就將基於證據的有效性設計到評估開發過程中(另見Kane,2006)。了解這個新範例的含義非常重要。

在過去,試題設計和試題編寫活動被認為是由學科專家(SME)進行的藝術形式(Haladyna, 2004; Schmeiser & Welch, 2006; Wesman, 1971)。儘管我們的定量心理測量過程變得越來越複雜(例如,Kolen & Brennan, 2014; van der Linden & Hambleton, 1997),但試題創建和測試設計活動基本上仍然掌握在測試開發人員手中,也就是說,學科專家的試題編寫者和測試編輯。實際上,評估設計通常包括兩個相對獨立的測試規範系統:(1)內容藍圖,以及在較小程度上,所謂的“認知”類別(例如,Anderson & Krathwohl, 2001; Bloom, Engelhart, Furst, Hill, & Krathwohl, 1956; Marzano, 2001; Webb, 1997);以及(2)統計目標,如平均試題難度、最小信度係數或試題反應理論(IRT)測試訊息目標(van der Linden, 2005)。自動測試組件(ATA)的發展(前文提到)在很大程度上源於需要更全面地協調這兩個測試規範系統的需求,通過使用優化啟發式和算法從題庫中選擇同時滿足兩種規範的試題。 

對於實證估計的試題和測試成績量表特徵的依賴是有代價的。我們需要大量、有動機且具有代表性的考生樣本來估計測試組件過程中使用的每個統計量。這種需求永遠不會消失或消失,這就是為什麼試題暴露的測試安全風險保持在高位,試題開發成本上升(Luecht, 2005)。實際上,考慮到有限的測試座位容量,電腦化測驗(CBTs)通常意味著顯著增加的試題生產需求、更高的成本和複雜的試題庫存規劃系統(例如,Way, Steffen, & Anderson, 2001)。

此外,當量表本身主要是為了僅僅最大化試題之間的相互關聯(即最大化信度係數),同時根據一些既定的藍圖平衡內容時,很難完全理解特定的成績量表實際上告訴我們關於被測量的所謂構念的信息(例如,Cronbach, 1957; Green, 1988)。正如Messick(1994)所建議的,與其在測試表單建立後執行因子分析或其他類型的維度分析,更重要且有成效的是將有效性內建於量表中,並從一開始更好地理解構念的認知本質。

Luecht(2006,2012b,2013)建議採用一個高度結構化、集成的測試設計和開發框架,該框架借鑒了來自工業工程和制造業的迭代設計和質量控制原則。不巧的是,這個框架被稱為評估工程 (assessment engineering, AE)。AE從一個名為構造圖(construct map)的特定量表的詳細、以證據為基礎的愿景開始(參見Wilson,2005)。使用特定領域語言或任務模型語法task model grammar ,TMG),然後構建詳細的認知任務模型,並根據它們的復雜性要求沿著量表進行映射,以指定所需測量信息的性質和數量。圖13.1顯示了一個“正常”熟練度分佈的潛在任務模型圖(task model map,TMM)。較容易的任務模型顯示在左邊;較困難的任務模型顯示在右邊。TMG指定了每個任務模型(即圖13.1中的每個點)是更為簡單還是更為復雜,這取決於任務所需的具體技能、內容或信息密度的水平,或者是每個任務模型規範的某些其他操作特徵。 

圖13.1 題庫的一個樣本任務模型(任務模型和模板)

個別任務模型包括:(1) 一個或多個必要的認知行為或心智程序;(2) 一個或多個靜態知識組件(使用行為操作的數據或其他信息);(3) 內容層次;(4) 任務呈現的複雜性;和 (5) 用於完成任務的輔助工具或資源。TMG(任務模型指南)記錄了這些組件的複雜性。對於給定的任務模型,知識對象(有時被認知科學家稱為陳述性知識(declarative knowledge))可以在數量或複雜性上有所不同。對象還可以通過指定類型不同的兩個或多個對象之間的關係,將對象連接或網路化以形成更複雜的對象。更多的行為和/或知識組件,更複雜的行為和/或知識對象,知識對象之間更複雜的關係,以及更高的訊息密度通常被假設為增加任務模型的難度。這些變量為設計任務模型提供了很大的靈活性。關於複雜性的假設可以通過以系統化方式實驗性地操作任務特徵進一步實證驗證。經過驗證後,可以創建試題生成模板,以複製每個任務模型實驗的條件。

任務模型模板隨後用於生產特定任務模型家族中的所有試題。這種使用模板的方法可以從高度結構化的試題形式和供人類試題編寫者使用的指導方針(例如,Case & Swanson,2001)到自動試題生成(例如,Bejar,2002;Embretson,1996;Embretson & Yang,2006;Gierl & Haladyna,2012;Gorin & Embretson,2012)。工程在兩個層面上變得相關。首先,為每個任務模型創建一個或多個試題生成模板,以確保與任務模型指定的相同預期內容和認知複雜性相一致的試題設計。試題編寫者不允許修改任務模型所需的複雜性組件。其次,試題反應理論(IRT)校準和相關統計殘差分析可以作為品質控制(QC)機制,旨在維護每個任務模型家族試題的操作特性。 

這種強烈以品質控制為導向的試題設計觀點確保了家族內所有試題在統計上具有等價性(isomorphs),即在家族內試題是完全可互換的(Bejar, 2002;Bejar, Lawless, Morley, Wagner, Bennett & Revuelta, 2003;Bejar & Yocom, 1991;Irvine, 2002)。自動試題生成(AE)仍然使用試題反應理論(IRT)或其他適當的數據測量模型來校準試題家族並對考生進行評分(例如,使用Geerlings, Glas和van der Linden於2011年設計的分層校準框架)。但是,選擇的心理測量模型和分層校準過程主要作為工程品質控制系統的一部分(參見Luecht, 2012a, 2012b, 2012c;Shu, Burke & Luecht, 2010)。 

自動試題生成

為了構建上述的評估,測試開發者需要試題,通常需要相當大的題庫。心理測量文獻充滿了有關試題開發的指導(Case & Swanson, 1988, 2001; Haladyna, 2004; Haladyna & Rodriguez, 2013; Osterlind, 1989),但對於某些測試計劃,試題需求簡單地超過了傳統的寫作方法,通常涉及一組保留的試題編寫者以及詳細的試題編輯和審查程序(Baranowski, 2006)。在高風險測試中,不犧牲品質的情況下,機構轉向的一種策略是自動試題生成(AIG),該策略使用算法、神經網路模型,可能還使用自然語言處理功能來生成數百甚至數千個試題。AIG在評估研究中具有相當長的歷史(例如,Bormuth, 1970;Case & Swanson, 2001;Haladyna & Shindoll, 1989;Hively, Patterson & Page, 1968;LaDuca, 1994)。AIG背後的基本思想是使用結構化的試題編寫模板或外殼、計算機程序或腳本(有時稱為試題生成器(item generator )(Embretson, 1996;Embretson & Yang, 2006;Gorin & Embretson, 2012))以及包含由試題生成器使用的相關內容實例的數據庫,以生成大量試題。像IGOR(Mortimer, Stroulia, & Yazdchi, 2012)這樣的自動試題生成器使用複雜的自然語言算法,可以快速生成數百甚至數千個試題,包括翻譯成多種語言。試題克隆(Item cloning)是AIG的一個特例,其系統地更改試題的表面特徵。圖13.2顯示了一個非常簡單的醫學考試試題外殼示例(Case & Swanson, 1988, 2001)。試題生成器使用的數據庫可能包含大量病人描述(例如,性別、年齡、職業), 另一個陣列包含不同的傷害和位置,以及一個數據庫表,其中包含與每個傷害/位置相關的合理結構。 

圖13.2 試題外殼模板 

自動試題生成在多個情境中已經被證明是可行的(Bejar等人, 2003; Bejar & Yocom, 1991; Embretson & Yang, 2006; Gierl & Lai, 2012; Gorin & Embretson, 2012; Irvine, 2002; Meisner, Luecht, & Reckase, 1993)。AIG面臨的最大挑戰不是試題生成,而是生成保持一定統計特徵的試題(Geerlings等人, 2011; Luecht, 2012a; Shu等人, 2010)或者預測這些試題特徵的機制(Gorin & Embretson, 2012)。將強大的認知模型或相關規範與每個試題家族的可定義特徵和條目相關聯的持續研究仍然是一個挑戰。如前一部分所提到的,評量工程(AE)也可以結合自動試題生成(Luecht, 2012a, 2012b)。 

遊戲與先進模擬

在思考新興評估形式時,電子評估和測試遊戲化領域具有相當大的潛力。自20世紀70年代家用視頻遊戲機問世以來,科技基礎的遊戲一直吸引著兒童和成人,當時像Magnavox、Coleco、任天堂和Atari這樣的公司推出了家用視頻遊戲機和視頻遊戲廳。這些主要為娛樂目的開發的高度互動遊戲,主要由三個元素定義:第一,目標的呈現;第二,對玩家相對於目標的進展提供明確的反饋;第三,根據玩家的操作不斷調整遊戲難度,使其剛好超出玩家當前的熟練程度(Pausch, Gold, Skelly, & Thiel, 1994)——後者與適性測試的前提非常相似。

近年來,"嚴肅遊戲"(serious games)這一術語開始用於描述虛擬環境,其中的目標是基於教育或培訓的目的(Shute, Ventura, Bauer, & Zapata-Rivera, 2008),在這些遊戲中,內容在玩家沉浸在遊戲活動中時呈現,並且這種遊戲玩法會產生可量化的結果(Shute, 2011)。嚴肅遊戲的一個自然延伸是將評估活動(如模擬、協作環境、虛擬世界、遊戲和認知導師)融入遊戲中,以玩家的行為作為知識或技能的指標。在某些方面,當前一些測試應用已經開始在實施過程中融入遊戲的一些元素,例如之前提到的建築師註冊考試和制服會計師考試的模擬。然而,嚴肅遊戲的原則遠遠超出了目前這些模擬中通常所做的事情,以創建真正高度沉浸式的環境。(註釋1)

為什麼要選擇遊戲化呢?在測試中,這種方法有三個主要優勢。當前的評估方法非常擅長評估許多長期以來受到關注的教育和職業構造,但這些主要是由傳統的成就和知識觀念所定義的,並在靜態空間中進行評估。使用基於遊戲原則的新興測量方法能夠開發更靈活地評估21世紀學生應該掌握的高階技能的場景,以及應該如何評估這些技能(Fu, Zapata-Rivera, & Mavronikolas, 2014; Rosen, 2014)。因此,遊戲化測試的第一個潛力是,像問題解決、合作、溝通和信息素養這樣的構造可能更容易適應這些遊戲化場景,因為環境中固有的互動和響應元素。 

從設計角度看,測試構造性質和可用性的變化對測試開發和分析有著巨大的影響。Fu及其同事(2014)指出,傳統評估與基於遊戲的評估之間的一個關鍵區別在於數據。歷史上,評估開發認為“答案”是至關重要的,並在此基礎上構建開發、交付、評分和報告系統,認為考生產生的結果是最重要的(無論其形式如何,從選擇多選題中的一個選項到綜合一篇文章——在Bennett,Ward,Rock和LaHart(1990)概念化的七個項目格式類別中的任何一個,包括多選題、選擇/識別、重新排序/重排、替換/校正、完成、構建和展示)。然而,如今,基於遊戲模擬的數據在質量和數量上都有所不同,因為它不僅詳細描述了遊戲中嵌入的評估活動的最終結果,而且還產生了大量與過程相關的數據,範圍從軟件對象訪問計數到響應延遲信息。每個採取的行動都可以被視為數據,但挑戰仍然是將時間戳、點擊流和所有其他採取的行動轉化為有意義且可操作的信息。

Scalise(2013)將通過TEIs收集到的信息稱為“半無定形”;從傳統評估角度(Almond,Deane,Quinlan,Wagner,& Sydorenko,2012;Bouchet,Harley,Trevors,& Azevedo,2013;Kerr & Chung,2012)以及在量表和數據挖掘領域概念化新範式(Fu等人,2014)方面正在進行大量工作。

使遊戲化成為一種吸引人的新興衡量策略的第三個考慮因素,簡單地說,就是它可能對測試性質產生重大變革的潛力。遊戲化評估不僅僅是表面上的變化,也不僅僅是統計調整,它建立在一個與衡量截然不同的觀點上。傳統將試題視為離散數據點的觀點將被相互連接、有機的表現所取代——例如,我們如何看待局部獨立性的影響相當重要。有趣的是,將評估視為嵌入在不斷變化的環境中的沉浸式模擬的概念讓人想起了真實評估(authentic assessment )(這個詞在大約30年前流行起來,用來描述直接檢查考生表現,而不是使用簡化和/或間接項目作為代理;參考 Wiggins,1990)。將某些評估標示為真實(因此,其他評估是“不真實”的)是——並且仍然是——非常具有分裂性的語言,但在這種情況下,它表明了:(1)這種方法有多新穎,尤其是對於大規模、高風險的評估;以及(2)遊戲化在多大程度上代表了測試行業的新範式,不僅僅是從測試開發的角度,而且是與考生在根本層面上的體驗相關。 

自動評分

對於要求考生生成回應的試題進行自動評分,這個想法已經存在了很長時間,但由於實施的技術挑戰,其在大規模操作上的應用受到了限制。對於文章和其他基於文本的回應的評分,最早由Project Essay Grade(Page,1994)、e-rater(Burstein,Kukich,Wolff,Lu&Chodorow,1998)和潛在語義分析(Landauer,Foltz&Laham,1998)等系統開創。專家系統分析和心理建模方法在評估電腦程式(Braun,Bennett,Frye&Soloway,1990)和建築設計任務(Bejar,1991)方面也早已投入使用。然而,近年來,這些系統的研究持續進行,交付和分析的進步推動了評估開發和管理環境,許多這類系統現已投入使用。Williamson,Xi和Breyer(2012)將自動評分的當前方法劃分為兩個廣泛類別:模擬為基礎的方法和回應類型系統。模擬為基礎的方法與美國會計師公會(Uniform CPA Examination)、建築師註冊考試(Architect Registration Examination)和美國醫師執照考試(U.S. Medical Licensing Examination)等考試中實際電腦化場景保持一致。在他們的文章中,Williamson和他的同事指出,這些考試中使用的自動系統往往與這些單獨考試以及其中特定任務類型高度相關。

與基於模擬的系統相比,回應類型系統是為處理特定試題類型而構建的。處理不同長度的書面回應的文本處理器(包括e-rater在內的類別)是這些系統中最為人所知的,但應該注意的是,已經為其構建系統的其他回應類型還包括口語回應和圖形建模等任務。任務專用系統通常可以以一致的方式進行構建(Williamson,Xi&Breyer,2012),首先是確定回應中有價值的特定特徵。然後構建一個特徵識別系統,以評估考生作品中這些特徵存在或缺失的程度,最後實施一種統計方法來計算某種類型的分數。 

然而,儘管自動評分充滿希望,但從未缺少批評者。關於這個主題的大量研究都是基於這樣的假設,即人類評分者是機器評分必須達到的黃金標準。實際上,這個假設是支持基於機器的系統的有效性論據的基石。例如,Higgins和Heilman(2014)指出,幾乎所有自動評分驗證研究中都使用了某種形式的電腦-人類一致性評估。然而,隨著自動評分系統的使用持續增長,人們對這些系統在多大程度上可能被考生"操縱"或以其他方式產生人為高評價的表現(例如,產生相對冗長的回應和使用多音節詞彙)的擔憂也在增加。一些研究已經研究了這個問題,例如通過招募專家創建可能從引擎中獲得高於應得分數的作品樣本(Higgins&Heilman,2014;Powers,Burstein,Chodorow,Fowles&Kukich,2001)。多年來,有一個建議的策略是用不太常見的同義詞替換高頻詞。這種方法在Bejar(2013)的研究中得到了研究。 

Higgins 和 Heilman(2014)制定了一個四步策略,以評估自動評分系統在多大程度上容易受到損害。在指定評分方法後,他們的步驟如下:

Higgins 和 Heilman 的這種實證方法提供了一種引人注目的基於數據的方法,以解決多年來關於自動評分的有效性問題。

然而,仍然存在擔憂。Liu 及其同事(2014)最近的一項研究在複雜的 CR 科學試題背景下評估了 c-raterTM,並發現人類與 c-rater 之間的一致性程度在總體上足夠充分,但發現了一些完全不能消除人工評分的問題。這些挑戰的例子包括寫作樣本中的不完整或不準確的論點,存在非規範性想法,對代詞解析的語法擔憂以及用於構建自動評分器的訓練集的樣本大小。

本章前面描述的與遊戲化相關的創新以及大規模、高風險測試應用中 CR 試題的擴展,自動評分領域至關重要。在美國,人們正努力衡量《共同核心州標準》(Common Core State Standards Initiative,2010a,2010b)中描述的高階思維技能,該課程主要是通過生成答案來展示知識和技能。如果要採用新穎的測試和試題格式來衡量傳統和新興感興趣的構念,那麼衡量方法(包括自動評分等評分策略)也必須同樣解決持續存在的技術和操作挑戰。

自動語音識別

自動語音識別(ASR)是一項可能為衡量許多構念提供新機會的技術。語音識別軟體已在一系列專門的非評估場景中實施(例如,醫療文件的口述、文字處理應用、腦損傷的治療、軍事系統、遊戲、導航和語言學習等應用),並且隨著自然語言用戶界面技術在許多智能手機和平板電腦中的引入,成為主流使用,例如 Apple, Inc.的“Siri”。ASR 技術本身非常先進,包括神經網路、動態時間規整和最近最常用的隱馬爾可夫模型(Rabiner,1989)等算法。在 ASR 系統中要做的一個重要區別是,有些被稱為依賴於使用者的(這意味著系統必須被訓練來識別特定目標使用者的節奏和語音模式,但一旦進行了此類訓練,系統對該使用者就非常準確),而其他系統是獨立於使用者的(因此必須準備處理可能的使用者群中更大範圍的詞彙、語音模式、惡劣噪聲和聲學信號)。這些考慮因素對在測試場景中使用 ASR 有意義。 

當然,獨立於技術的口頭評估概念在教育和心理學上有著悠久的歷史,而 ASR 已經在測試中找到了一些應用,主要是在語言測試領域。這是很自然的:在這種情境下,評估不應該詢問考生在說某種語言時的熟練程度,而應該直接評估他們的熟練程度,而 ASR 可以在技術豐富的環境中提供這樣做的機制。ASR 的另一個相關用途是心理測試,例如在聲音、言語和語言缺陷的診斷中,比如童年失語症(例如,Hosom, Shriberg, & Green, 2004)。還應該注意,語音識別的使用是測試適應實踐的輔助技術元素,因此可以被視為通用設計評估的關鍵組件(Thurlow, Lazarus, Albus, & Hodgson, 2010)。 

目前,單獨的 ASR 評估確實存在,但大部分相對簡單,使用有針對性的提示來收集孤立的語音樣本,而不需要與對話者互動(例如,Balogh, Barbier, Bernstein, Suzuki, & Harada, 2005; Bernstein & Cheng, 2007)。依賴 ASR 的題型傾向於限制在句子重複或由單詞和簡單短語組成的短答語音回答。考慮到某些測試環境中的實施和運營挑戰,與評估目的相關的 ASR 技術問題並非微不足道。通常,使用來自合適考生樣本的眾多豐富回應進行大量專門培訓將改善語音識別器,但組裝培訓樣本絕非易事。為了使語音輸入具有足夠高的質量以供評估,需要將相關的聲音信號(signal )與環境噪音區分開來,並將信號進一步解析為包含詞彙和語法成分的“語音”。除了眾多地區和方言的語音模式外,ASR 通常還需要處理口語中不太正式的結構,更不用說語調和其他暗示意義的語音方面了。即使是最簡單的 ASR 應用程序也需要相當複雜的“引擎”來僅僅處理語音樣本,並且要做到準確和高效(Saini & Kaur, 2013)。然後,只有到這個時候,ASR 引擎才需要根據往往與大量、規範性語音樣本相對標準化的語言流利度和發音特徵(例如,Price, Fisher, Bernstein, & Pallett, 1988)來實際對考生的回答進行分析性或整體性評分。 

即使有這些警告和技術考慮,然而,ASR 確實具有在教育和心理測試中帶來與本章其他創新相當的重大變革的潛力。這方面的潛在變革可以在 Clark, Martinez-Garza, Biswas, Luecht 和 Sengupta(2012)的工作中找到。他們將解決遊戲化性能運營化過程中遇到的挑戰的方法框定為一種被稱為解釋對話模型(explanation dialog model)的模型,學生的解釋成為感興趣的評估數據,這些解釋可以使用適性測試策略以及 ASR 進行評估。隨著測試體驗繼續發展,變得更加互動、更吸引人、更自然地評估知識、技能和能力,還有什麼比語音更自然的回應方式呢?如果考生可以直接說出他們的選擇、行動或答案,那麼像點擊所選答案或將回答輸入到輸入框等中間操作可能會被視為更遠或間接的方式,也許有一天會被認為比基於 ASR 的題目導致的推斷效度更低。 

結束思考:反思我們的基礎和未來

儘管仍存在相反的固有觀念,以及關於鉛筆和紙質試卷的刻板印象,但今天的心理測量學領域絕非停滯不前。技術的普遍進步以及與機器學習、自然語言處理和人機交互等眾多相關領域的發展為未來測試的外觀和功能與當前實踐有很大不同的可能性敞開了大門。然而,在任何規模上實施這裡描述的創新都是不可行的,如果沒有已經發生的心理測量學的基礎研究,以及為即將到來的事物鋪平道路。

在很多方面,Ronald K. Hambleton(本卷獻給他)的遺產發揮了重要作用,成為我們所處工作中不斷變化的評估格局的開創性建築師。他在標準參照測試、電腦化評估和 IRT 等無數其他主題的研究成果,幫助為當前和未來幾代測試開發者奠定心理測量的基礎,讓他們繼續在測試是什麼、看起來如何、如何運作以及如何管理數據等基本概念上不斷拓展。在他的職業生涯中,羅恩既支持又推動了變革,但始終在仔細的研究和更仔細的質疑的基礎上,將創新和想法與操作測試中的實際影響聯繫起來。CBT 的未來充滿希望,的確是建立在堅實的基礎上,其中很多磚塊都是由 Ron Hambleton 精心鋪設的。

註釋1:理解技術與評估整合的一種方法是由DiCerbo和Behrens(2012)提供的,他們提出了一個從(1)電腦化管理線性或適應性測試,(2)基於模擬的表現評估,(3)基於遊戲的隱性評估,到(4)在1、2和3級別跨多個評估收集信息的連續體。在本節中,我們將根據DiCerbo和Behrens框架中的第3和第4級來展望基於遊戲的評估的未來。