2. Important Principles of Measurement Made Explicit

原文出處:Bond, T., Yan, Z., & Heene, M. (2020). Applying the Rasch model: Fundamental measurement in the human sciences. Routledge. 

的確,人類科學中所謂的“測量”與我們在其他科學或日常生活中所稱的測量有很大不同,這有點奇怪。因此,我們將通過從運動領域中的一個類比來介紹這一章節。讓我們以跳高比賽為例,選手們在為爭奪國家或國際冠軍、甚至奧運獎牌而熱身。顯然,跳得最高的選手將成為冠軍,比賽規則要求選手面對逐漸升高的橫杆,直到僅剩下最後的冠軍(如果有兩個或多個選手跳高相同,則有特殊規定)。這個比賽將跳高的難度僅以一個可量化的實證變量來衡量:橫杆離地面的高度。但這是一個過於簡單化的觀點;其他變量(方面,因素,層面,特徵,維度)在成功或失敗中不可避免地起作用:跑道表面,空氣溫度,盛行風(方向和強度),相對濕度或降雨,照明(亮度,自然或人造),甚至來自觀眾的支持(或缺乏支持)。(“我要感謝今天的觀眾。他們太棒了!沒有他們的支持,我不可能獲勝!”)關於選手的跳高能力呢?我們更關注他們最近的比賽成績,而非其他通常被忽略的相關指標:每位選手的健康狀況,最近的受傷情況,與其他比賽相比的柔韌性,動力,信心,家庭或其他個人狀況等。在嘗試預測每位選手在依次升高的橫杆高度上成功的可能性時,我們忽略了大部分影響跳高難度或選手能力的因素;我們僅考慮每次跳躍嘗試的兩個關鍵影響因素。對於每次跳躍的相對難度指標,我們僅使用橫杆的高度;對於選手的能力,我們僅參考最近的比賽成績。有趣的是,跳高難度和選手能力都用相同的尺度和相同的單位表示:米制的線性測量尺度——在預測選手成功的概率時,我們通常忽略所有其他可能的影響因素。

如果我們可以完美地預測各種運動員面對各種跳躍的結果,我們甚至不需要舉辦比賽;我們可以根據最近的跳高表現來頒發獎牌。但是,我們無法完美地預測每個運動員的表現;相反,我們根據過去的表現進行概率估計。每次橫梁升高,電視評論員可能會估計每個跳躍者在每次跳躍中成功的機會。他們可能會考慮所有提到的變量來估計每次嘗試成功的概率,但他們最有可能只使用少量訊息以減輕他們的認知負擔。他們很可能會用機會/賠率/概率來表示他們的預測,而不僅僅是“肯定會/不會成功”。例如,他們可能會說:“超過50%”;“不到50%”;“幾乎不可能失敗/成功”;“嗯,大概是60:40,我想!”

作為研究人員,我們可以通過簡單的計算來幫助他們進行這些預測:取當前跳躍高度(跳躍難度,以米為單位表示)以及參賽者的上一次比賽成績(運動員的能力,以同樣的米為單位表示)並比較兩者。如果跳躍難度和運動員能力(根據估計)相同,我們可以預測成功:失敗的賠率為50:50,成功嘗試的概率為50%,失敗的賠率也為50%。隨著任何運動員的能力超過跳躍難度越來越多(僅根據簡單的米尺度計算),我們將預測運動員成功的賠率越來越高(60%、70%、85%)—根據運動員能力與跳躍難度之間的距離有多大優勢(例如,1公分、2公分、3公分)。如果計算結果顯示運動員在能力與跳躍難度的比較中處於劣勢(例如,-1公分,-2公分,-3公分等),我們的預測將相應地降低(40%、30%、15%等)。但是,對於任何有競爭力的運動員和任何合理的比賽高度,很少有熱衷於該項運動的追隨者會預測0%或100%:世界紀錄保持者未能獲得奧運獎牌,而剛剛進入前八名的選手經常打破我們的預測,因此我們必須考慮到這些人類的弱點。 

雖然這本書強調了一種針對人文科學數據進行定量分析的特定版本,但它提出了許多問題和原則,這些問題和原則普遍存在於幾乎所有人類表現的研究中。我們在人文科學中觀察到的人類能力和任務難度無法方便地歸納為現有科學計量尺度上的位置(例如高跳例子中的米尺度)。儘管從人類觀察中收集數據的定性和定量方法都旨在產生這些觀察的總結,但我們的目標是以有意義、有用並有效的方式傳達數據的本質。目前的趨勢是批評教育、心理、健康和其他人類研究的定量方法,因為它們的簡化主義是顯而易見的,但顯然所有總結和傳達方法都會對所研究的現象造成一定的損害,就像高跳比賽一樣。

可以承認,用純粹定量的方式概括任何複雜的人類行為,這種簡化主義對於除了最頑固的經驗主義者之外的所有人都是顯而易見的。對同一行為進行幾句甚至幾段的書面總結也以類似但可能不那麼明顯的方式失之過遠。Wine Spectator 可能會給出98/100的分數,以及品酒師筆記的一段文字,但兩者都無法充分捕捉到品嚐非凡葡萄酒的經歷。每個總結都完全錯過了重點。但每個總結(定量或定性)都可以有效地概括經驗的某些方面,足以讓其他人受到誘惑,購買並品嚐同一瓶葡萄酒!我們閱讀這段文字或查看該分數或兩者兼而有之;然後我們做出決定(購買與否),並根據該決定採取行動。

當我們試圖記錄任何事件以與他人分享時,原始經歷會以多種方式受到損害:通過調查者的取向、觀察計畫的適當性、觀察選擇以及觀察集合的完整性,以及在我們審查特定分析設備的適當性以及使用時的注意和嚴謹性之前。當我們專注於一個屬性時,我們不會自動完全忽略其他方面 - 但是當我們開始對該屬性進行量化時,我們傾向於這樣做 - 區別在於,當我們從觀察轉向測量時,焦點變得更窄。量化人類經歷的任何特定方面的行為立即使所有其他方面走向遺忘。我們認為定量和定性方法具有相同的起點:觀察。後面的章節將顯示這一共同基礎的程度,其中將展示定量和定性方法的綜合。

“所有可以觀察到的事物就是特定事件是否發生,以及數據記錄器(觀察者或被調查者)是否指定(任何特定的)類別作為他們的觀察”(Wright,1996,第3頁)。這是我們所有調查結果的基礎。在看台上,我們觀看運動員試圖跳過1.75米的高度,並將所有的戲劇、所有的訓練、所有的努力概括為僅僅成功或失敗;綠燈/紅燈;✓ 或 ✗。考試考生可能在答題卡上填寫“A”選項,完成一個句子,寫一段文字,或者編寫一份期刊。觀察者可能記錄一個適當的單詞插入到句子的空格中,注意到“b”是第17個試題的正確答案,或者編寫一個特定的短語或陳述以對應於已識別的視頻或期刊記錄的某個部分。本質上,我們的所有觀察都可以這樣描述;它們僅僅是總結,無論是定量分析還是定性分析。

在簡單觀察的情況下,調查者可能會對事件是否存在或不存在、是否發生或未發生做出定性決策。作為更複雜計畫的一部分,調查者可能會決定某個特定事件是否不存在,是否在某種程度上或更大程度上發生,或者沿著“無 – 一些 – 更多 – 全部”連續體觀察到了完整的行為表現。這樣,我們所有的調查觀察都是定性的,事件的分類或識別處理的數據在名義層面。

名義級數據:我們僅觀察那些是我們研究重點的事件,而不是其他事件——我們將觀察分類為類型。

序數級數據:我們記錄觀察到的事件中哪個比另一個更好——我們將觀察分類為層次。

當我們開始對這些觀察到的事件進行分類或計數時,我們會給它們分配數值。這個計數是明確量化方法的開始(但不是完成)。即使在第一個例子中,名義數據(存在/不存在)也可以被認為是序數數據,因為我們認為事件的存在(一個對號、正確框中的標記、一個“是”)比事件的缺失(一個叉號、錯誤框中的標記或一個“否”)更有價值。在第二個例子中(無/一些/更多/全部),我們的數據明顯更多地是序數。無論是嚴格分類為名義還是序數,我們對觀察或事件的計數始終保持在這些層次。只有我們成功地對這些計數觀察進行有意義的測量,才能構建一個區間量表,在該量表中,量表單位之間的距離被賦予相等和有意義的值。觀察和計數僅僅是序數;只有測量是區間。因此,任何分析模型在數據點之間隱含或明確地假設“區間”或“比例”關係時,如果數據是名義或序數的,那麼這種做法是不合理的。那些堅持質疑數據測量水平的教授是對的。 

記錄行為的存在/不存在以及沿著無/一些/更多/全部連續體對觀察進行排序,應始終由一些指導這些觀察的基本理論來指導。不幸的是,對於許多人文科學領域的研究者來說,這種理論往往是隱含的,甚至根本不存在。關於潛在人類特質如何發揮作用的理論,在人文科學研究中似乎是例外而非常規。事實上,早期製作溫度計的科學家與人文科學領域的許多工作(甚至在Rasch測量世界)之間的區別在於,這些早期科學家在嘗試測量溫度時,也在研究他們的溫度理論。因此,本卷中報告的許多研究示例都源於明確表述的心理學理論。研究者們將皮亞杰(Piaget)兩位最親密的合作者的建議牢記在心:

如果你想取得進步,那就有一個理論。(Karmiloff-Smith&Inhelder,1975)

任何調查者對質性觀察的記錄都代表名義類別,專注於某些事物,而忽略其他事物。然後,調查者可能會對這些觀察進行評分,根據用於生成觀察日程的理論模型,將它們按照優先級進行分步排序。這種對數據有意義排序的假設或期望是任何具有發展起源的人類概念的核心。

一個例子:“相差多少?”

作為一個有用的起點,對質性觀察的量化總結可以通過簡單地分配1(或 ✓)表示事件的存在和0(或 ✗)表示不存在,以便將所有試題上的個人A的數據摘要記錄為一行:

A 111000011001 or ✓ ✓ ✓ ✗ ✗ ✗ ✗ ✓ ✓ ✗ ✗ ✓

所有人在試題d上的數據摘要記錄為一列: 

一位教師的記錄簿或一個樣本在發展數學測驗試題上的完整表現記錄可能就像這樣。通常,我們更傾向於關注人的表現,而不是調查試題的表現,所以我們急於將調查結果表示為每個人的原始分數總和。對於試題,我們通常甚至不會做同樣粗糙的總結。作為研究人員,我們常常與學校教師共同擁有一種隱含但無法證明的信念,即我們具有編寫好試題的能力:學生答題寫作受到測試,但教師試題寫作從未受到測試。因此,在表2.1中顯示的矩陣中,每個人的最後一列是原始分數總和。我們經常這樣做,即使是在為計量心理學101的學生批改考試時也是如此。在人文科學中,將原始分數用作估計人在測驗中的能力的做法無處不在。

根據為撰寫本書所選擇的指導原則,我們從人文科學的不同領域中選擇了一些實際收集的數據,以回答實質性問題,通常是發展性或教育心理學。第二章的數據來自一個由一群小學教師編制的課堂數學測驗(Bond,1996;Bond&Parkinson,2010;Parkinson,1996)。該測驗旨在明確學校數學教程要求處理基於面積的概念(正方形、圓形、三角形等)。學校的要求是直接基於國家課程指示。(有趣的是,這些理解的順序或排序最初是基於皮亞杰在該領域的工作。)較低水平的問題要求學生對,例如正方形的表面進行著色。其他問題要求基於如面積=長×寬和面積=邊等公式進行計算。通過要求根據幾個公式進行計算的問題來測試高級技能,將這些公式相加或相減,以得到複雜圖形的面積度量。 

表2.1 選定的14位受試者(A-N)在12個選定試題(ɑ-l)上的資料矩陣 

從表2.1中顯示的數據矩陣,我們可以得出什麼推論呢?當然,我們可以看到相當範圍的人員表現,從0/12(全部錯誤,Person M)到11/12(幾乎全對,Person N)。但僅從這些信息,我們無法對試題或試題和人員之間的交互作用作出任何結論。

因為以下步驟(通常是隱含的或省略的)可以向我們展示關於數據的許多信息,並引入Rasch分析的一些重要特點,因此我們應該依次進行每一步。我們認為,研究人員(和教師)只要花時間定期檢查原始數據,按以下方式進行,就可以對他們的測試程序學習很多:

一個簡單的筆記本電腦或平板電腦上的試算表即可完成這項工作。可以將數據矩陣(即基於理論驅動的定性觀察的結果)排列,以使試題從最易於最難,人員從最能力到最低能力排序(表2.2)。這個有組織的數據表被稱為比例尺圖(Scalogram)(Guttman,1944)。表格的上方越高,人員就越能力強(Person N:11/12)。往右跨越表格,試題就越難(Item g:只有兩個人通過)。然後,該表顯示了一些關於觀察結果的特性,這些特性將有助於指導未來的數據收集和數據分析。 

現在我們有機會做到我們(作為教師)很少做的事情:我們可以檢查試題的難度順序是否與課程教材的順序相符。如果不符,是課程撰寫者或試題撰寫者有問題嗎?或者,我們要歸咎於學生嗎?把數據從發生最少到發生最多(對於人員和試題)排序的簡單任務可能會顯示,用於收集定性觀察的理論模型並未完全產生預期的結果。通常,第一次使用測試不會產生完整的有用觀察結果。在觀察時間表或試題的情況下,某些試題可能沒有出現的觀察結果(即所有零都被記錄下來,這意味著每個孩子在該試題上都“失敗”了)。其他試題可能無法區分觀察的人員(即所有的1都被記錄下來,這意味著每個孩子在該試題上都“通過”了)。這些試題應暫時從該數據集中刪除,因為它們對於該特定樣本的實質序列調查來說不是有用的鑑別器。多麼簡單而有意義的檢查,常常被忽略。隨後,這些試題應詳細檢查,並可能加以改進、刪除或在其他適當的測試或其他樣本中使用。 

表2.2 選定的已排序數據矩陣,根據能力由上到下排列人員,根據難度由左到右排列試題。 

同樣地,有些人可能沒有觀察到預期行為的存在(全為零,意味著他們在所有試題上都失敗了,例如人M),或者他們可能比這個觀察表預測的更有能力(全為一,意味著他們通過了所有試題;但這裡沒有這樣的情況)。這些人的結果也應暫時排除在外。我們無法令人滿意地描述這些人沿著這種定性觀察表所揭示的連續體上的進展,因為他們不在這個連續體上。我們唯一可以明確地得出的結論是,人M的能力太低,無法得分;但在我們目前的記錄觀察系統中,我們無法充分回答關鍵的測量問題:“它低了多少?”

這個程序並不意味著我們忽略了記錄到某個孩子在特定樣本或目的中全對或全錯的意圖。相反,它提醒我們,這些結果對於估計能力來說非常不足。它應該告訴我們,下一次當我們建構此類測試的後續版本時,我們需要包括一些更簡單和更困難的試題,以正確覆蓋像受調查的樣本中顯示的能力範圍。這與“目標定位”的概念有關。 

我們的主張是,在進行有意義的量化分析之前,資料的定性檢視是必要的先決條件,因此應該先進行定性檢視。我們已經發現,關於被觀察者與用於觀察他們的試題之間的匹配或不匹配的寶貴資訊,如何指導我們下一步對這個能力的研究。我們已被告誡,關於被觀察者的資訊是不足的(在這個例子中,是M)。嚴格來說,我們應該將這些情況暫時從數據矩陣中移除,並對M進行額外的資料收集。現在顯示了我們有一些不太有用的試題(在這個例子中是試題c)。從數據矩陣中移除不得分的M後,所有人都可以正確回答試題c。對於能力較低的兒童來說,這可能是一個有用的試題,但對於這13名剩餘兒童來說卻不是。對於我們下一次使用這個測驗,我們也有了進一步有用試題的難度水平指南。 

接下來的步驟是計算試題難度和受測者能力(以分數的分數表達,即每個試題或受測者的原始分數除以各自的總分:試題難度為 n/13,受測者能力為 n/11)。這些分數更容易顯示能力和難度之間的序列關係,使我們可以在觀察中粗略地比較難度和能力的分佈(見表 2.3)。教育界的常規做法是將每個受測者的 n/N 分數表示為百分比,並直接用於報告學生的成績(當然,50%是及格分數)。我們很快就會看到,這種普遍的程序是不合理的。如我們先前所述,這些 n/N 分數應該被視為名義類別的序列排序(即順序數據),並且不足以推斷觀察頻率之間的區間關係。 

與人類相關的理論通常會預測,表2.3所顯示的數據顯示出樣本觀察中存在相當大的能力差異。它們也展示了代表觀察計劃的試題的能力或難度存在相當大的變化。實際上,變量的概念就是變化本身。在往難度增加(→)和個體能力下降(↓)的方向上,觀察(1)向不存在(0)的方向發展,這也表明了這些觀察的發展性本質。

即使在這個層次上,一些數據點的安排也應該讓我們反思這些兒童的數學發展性質,這在這些潛在理論觀念的實證表現中變得顯而易見。我們現在應該關注在數據矩陣中顯示的成功和失敗模式。通常情況下,人或試題的1不會以嚴格的步伐(或Guttman模式)從1變為0。在表2.3中,人A展現了Guttman模式,所有在豎線左側的試題都是正確的,所有在豎線右側的試題都是不正確的。只有當成功和困難的模式相交時,才會出現一個不可預測性小區域,但這並不是太值得關注。我們可以合理地認為,這些反應模式反映了最近獲得或尚未鞏固的能力,可能在顯示方面不是完全可靠的。因此,表2.3中陰影單元格中包含的數據不應該再讓我們猶豫。

相較於具有小區域不可預測性的資料模式,出現在不正常位置的「意外」存在與缺席的觀察值(1 或 0)更具有重大關注度(在表 2.3 中以虛線框表示)。這些意外的觀察值會因其數量和出現在資料矩陣中的位置而有較大或較小的關注程度。在困難題目上得高分卻總分表現不佳的人(例如 F、K、G 和 B),可能是靠猜測或作弊得到高分。同樣地,在容易題目上表現不佳卻整體表現優秀的人(例如 H、E、L 和 J),可能表示他們缺乏專注或在猜測答案。當然,還有其他意外的特定人物-物品互動的情況也是可能存在的。回憶高跳比賽,當冠軍在前幾次簡單的跳躍中失誤時,我們會懷疑是因為緊張或者沒有認真對待。當一個過去不被人所知的選手超出所有人的預期取得勝利時,我們可能會歸功於他們使用了新的跳躍技巧、改變了訓練計劃,甚至是使用了藥物幫助。儘管這樣的意外表現很少見(基於現有的記錄),但並非不可能。 

表格2.3: 擁有足夠訊息的試題(11)和被試者(13)的選擇有序資料矩陣 

這提醒我們一個重要的原則,引導我們使用和解釋觀察表和測驗。有些學生(參見學生A)的表現非常有秩序:學生A的原始分數為5,表示正好做對了五個最簡單的試題和六個最難的試題錯了。這種模式稱為Guttman模式。然而,我們對大多數人類行為的觀察很少展現出完全僵硬、階梯式的發展模式。我們的觀察能力和人類表現能力的不確定性確保了即使是嚴格定義的發展序列的嚴格遵循也是例外而不是規律。

同樣,能夠明確區分能力較高和能力較低學生的試題,如i和g試題,也很少見。更合理的情況是順序會更或多或少可預測:即隨著人的原始分數增加,答對任何一個問題的可能性也隨之增加。當然,一個人的原始分數越低,該人答對任何問題或滿足任何觀察標準的可能性就越低。當任何學生的0分和1分相遇時,預測成功或失敗最具危險性。很明顯,在這種情況下,每個回答都幾乎同樣可能成功或失敗。任何成功的預測都取決於該試題嵌入學生成功區的程度。該試題越嵌入學生的成功區(1分),該學生成功的可能性就越大。反之,該試題越嵌入學生的失敗區(0分),失敗的可能性就越大。 

學生 A 的答案模式太好不像是真的,但仔細觀察其他得到6或7分的學生的答案模式是很有啟發性的。學生 I 的答案模式已經足夠遵循前面提到的獲得成功或失敗的機率越來越高的一般原則。但是,如何評價題目 k 和 d 的次序是否錯誤,讓人有些糾結。學生 F 和學生 I 很像,但是學生 F 在非常困難的題目 e 上的意外成功是從哪來的呢?猜測?作弊?特殊知識?然而,學生 E 和學生 L 的答案模式不太容易被解釋。雖然對於中等難度的題目 d 的意外失敗可能被忽略,但對於非常簡單的題目 ɑ 的意外失敗讓人開始懷疑學生 E 和學生 L 對於此次測驗中所涉及的面積概念的理解是否與學生 C 和學生 I 的理解相當可比。謹慎一些的老師會注意到學生 E 和學生 L 相同而且意外的答案模式,再次查看測驗當天的座位安排;E 和 L 是否坐在相鄰的位置?然而,當我們試圖解釋學生 F 的成功/失敗模式時,我們不太可能像解釋其他學生的答案模式那麼謹慎。相對於數據矩陣中呈現的一般有序性,學生 F 的答案如此不穩定和不可預測,因此認為 7 分是學生 F 解決面積問題能力的好總結會不公平。 

同樣的論點同樣適用於試題或觀察的表現模式。對於試題i、b、h和g的回答類似於格特曼(所有答案正確都在線下),我們可以預測學生在整個領域測驗中表現良好或差勁的可能性,成功或失敗在很大程度上取決於學生的表現試題i、b、h和/或g。但是觀察到試題d,我們不僅看到它是一個更難的試題,而且它的回答是如此不穩定,以至於幾乎不可能預測誰能成功,誰不能成功。對於大約三分之一的高分者,他們能夠成功完成試題d是高度可預測的,但是回答模式告訴我們,這個試題的難度評級(0.46)不能直接認為是正確的:高分者C、E和L在試題d上失敗,而較低的B、D、F和I則成功。現在,C、E和L失敗在試題d上可能是由於這些人還是由於試題d本身。數據本身不能告訴我們。但由於我們注意到d存在比人員更多的問題(對它的意外表現),因此我們會先調查試題d。對這個試題有些不同於領域整個數據矩陣中所看到的普遍反應模式。試題內容是否指定不當?也許我們沒有如我們想像的那樣寫好試題?

這個程序的下一部分顯示了直接將能力和難度的原始得分作為測量尺度的不足之處。為了說明這一點,從表2.3中取出能力分數分數並沿著連續線分佈它們的位置,以查看試題和人員的分散情況(圖2.1)。當然,原始分數分數(0.45)完全對應於以百分比(45%)表示的相同原始分數。許多教師和大學教授會認識到在人的能力方面所顯示的模式。

使用原始分數分數或百分比的問題在於此程序傾向於將學生團結在中間分數周圍,並未充分對比較有能力和較無能力的學生的結果。在考試中獲得幾分額外分數,例如從48%到55%,並不能反映出從測試頂部的88%到95%或從底部的8%到15%的能力跨越所需的相同能力飛躍。這裡的真正問題是,我們經常將分數之間的距離錯誤地認為具有直接的間隔比例意義,而我們實際上只能從這些數據中推斷出人或物品的排序。我們需要一種有效的方法來解釋分數之間的差距大小,以便我們能夠說,“在這個測驗中,貝蒂比比爾表現得更有能力,而差距就是這麼大。” 

從觀察到測量的轉換

從20世紀20年代起,Thurstone開始提出一種簡單的數學程序,用於更好地表示原始分數之間的相對距離。這個程序涉及將原始分數摘要轉換為其自然對數。儘管在物理科學中,此類數學轉換以產生線性測量的形式存在,但在人文科學中我們傾向於避免它們,甚至對它們持懷疑態度(例如擺錘現象(Lima,2008))。除了將分數從僅有的順序尺度轉換為數學上更有用的實數線之外,對數機率尺度還避免了由於其有限範圍而導致的原始分數尺度末端的壓縮,從而產生地板效應和天花板效應(對數機率:成功的機率或成功的對數的對數轉換)。此外,它使計算與測試上的實際試題數目獨立。 

這個程序的第一步是將原始分數百分比轉換為成功與失敗的比率或勝算。例如,60%的原始分數變成60比40的勝算,90%變成90比10的勝算,50%變成50比50的勝算,以此類推。然後,可以使用試算表命令或計算器應用程式執行將分數轉換為其自然對數勝算的基本功能。對於L人(64%或64對36的勝算),我們輸入64/36,按下對數功能,然後讀取結果(+0.58)。嘗試幾個這樣的轉換,以掌握其用法:對於I人的能力勝算為55比45,其自然對數值為+0.20,而對於A人的勝算為45比55,其自然對數值為-0.20。使用矩陣中的數據,嘗試幾個其他值,或使用更為熟悉的結果,看看發生了什麼。Georg Rasch的分析工作就是基於這種近似方法(例如,Rasch,1980年,第97頁)。 

圖 2.1:A至K的人員相對能力以原始百分比(左)和對數比(右)表示。為了僅供說明,還添加了更極端的人員位置(X = 10%,Y = 5%和Z = 95%)。 

在圖2.1的右側,我們已經包括了人數數據的對數轉換。相對位置(即序關係)當然與左側相同,重要的次序完全相同。然而,觀察這次測試的低成就者(低於50%的人)的位置,我們可以發現人數位置之間的距離被拉長了。請注意,對於那些相同的原始分數總和(例如L和F;A和K)的Rasch人員估計值也是相同的;響應模式中的差異將顯示在適合性統計數據中。

G、D和B之間的距離(每個僅相差一個原始分數)現在比A、I和F之間的差距(每個僅相差一個原始分數)要大得多。請檢查一下N、J和C之間的一個原始分數差異看起來如何。現在,我們用來繪製人員和項目位置的比例尺是實數比例尺,其中該比例尺的值在該比例尺的任何位置都保持不變。只有使用這樣的比例尺,我們才能開始說Betty比Bill更能做某件事,而不僅僅是說她更能做某件事。此外,如果我們在這些圖中加入一些更極端的人員能力,效果將變得更加明顯:具有95%原始分數的人員位於對數能力比例尺上的+2.94位置,而低分數10%則翻譯為-2.2,5%為-2.94。論點是,這種更廣泛的人員位置分佈更真實地反映了從90%分數到95%分數所需的能力增加大於從50%分數到55%分數之間的能力差異。

我們原始數據的這種對數轉換是Rasch測量尺度的第一個近似值,該尺度是本書的重點。Rasch模型是一個有趣的模型,因為它源於一小組假設。

Rasch measurement theory 的基本假設包括:

(a) 每個人都有一定的能力值,

(b) 每個試題都有一定的難度值,

(c) 這些能力和難度值可以表示成同一條數線上的數字,

(d) 只需要這些數字之間的差異,就能計算出每個得分結果的機率。

到目前為止,我們嘗試說明了一個模型要想在研究人類發展和其他理論方面具有實用價值,需要具備以下特性:

它應該對被研究的技能或能力的有序習得具有敏感性(即應該能夠揭示發展或習得的順序)。

它應該能夠估算有序技能或人員之間的發展距離(即應該告訴我們T人相對於S人在多大程度上更發展、更有能力、更抑鬱或更具康復能力)。

它應該讓我們能夠確定,整體發展模式是否足以解釋每個試題和每個人所呈現的發展模式。

如果我們現在繼續展示基於Rasch測量的分析對於人文科學的研究特別適用,就不會讓讀者感到太意外了。


本章中,我們介紹了從順序層次的觀察中建立間隔尺度所需的邏輯和實際步驟。以跳高比賽為例,我們認為對運動員成功跳過每一個高度的概率,實際上由兩個因素決定:運動員的能力和跳高的難度,這兩者都是在同一個線性間隔層次的測量尺度上進行測量的。當運動員的能力超過跳高難度時,成功的概率就會增加;而關鍵在於兩者之間的差異。如果兩者幾乎相等,那麼合理的預測成功與失敗的概率應為50:50或50%。

事實上,這種邏輯適用於任何可以總結和記錄為存在/發生/成功的事件/觀察/反應,只需為存在時指定1(或 ✓),不存在時指定0(或 ✗)。因此,對於旨在區分一組人在某種潛在人類能力上的真偽測試,我們只需遵循幾個簡單的步驟來建立該能力的線性測量。一旦我們意識到這些真假反應僅是定性觀察,而總“正確”的反應僅形成順序級別的分數,我們可以繼續進行以下步驟:

1.計算試題的難度和人的能力(通過將試題或人的原始分數表示為總可能分數的百分比)。

2.將原始分數百分比轉換為成功與失敗的比率或機率。例如,60%的原始分數變為60比40的機率。

3.計算比率的自然對數。

這些步驟將順序級別的數據轉換為實值尺度,並消除了原始分數尺度末端的壓縮。