maoosu - 1. Why Measurement Is Fundamental

Why Measurement Is Fundamental

馬來西亞的博士生報告說，有一群相當堅定的社會科學教授，在論文答辯期間，堅持詳細審查候選人分析的數據性質。特別是，他們詢問數據到底是區間性質還是僅僅是序數性質。顯然，這種有點老派的傾向已經讓一些博士答辯陷入困境；那些無法為數據的區間性質辯護的候選人被要求重做統計分析，用斯皮爾曼等級相關係數（Spearman's rho）取代皮爾森相關係數（Pearson's r）等。至少在教育、心理學和其他人文科學領域，西方世界的大多數教授似乎已經放棄對這些細節的爭辯：皮爾森相關係數似乎對各種數據都同樣有效——SPSS並不知道數據來自哪裡，顯然許多用戶也不知道。這個困難的好處是，許多這樣的教授現在意識到，從Rasch分析中得到的測量可能被認為是區間的，因此允許使用社會科學中眾多的統計計算。然而，不幸的是，西方世界的標準課程中並沒有經常教授測量，而是將序數數據分析得好像它們是區間測量一樣。

儘管有那些老派的教授和一小部分測量理論家，看起來在過去半個多世紀以來，社會科學研究者們一直在欺騙自己，不知道測量到底是什麼。在我們日常生活中，我們明確地和隱含地依賴校準的測量系統來購買汽油、買水、測量和切割木材、購買布料、準備烹飪食材以及給生病的親戚適當的藥物劑量。那麼，為什麼當我們去大學或測試公司進行社會科學研究、進行心理學調查或實施標準化調查時，我們會對待和分析這些數據，好像早晨在家裡為我們服務得如此出色的測量要求在下午就不再適用了呢？為什麼當人類狀況成為我們關注的焦點時，我們會改變對測量的定義和標準？

在我們日常將研究成果以p < 0.01或p < 0.05的概率水平或（更好的）效應量來表示時，測量系統被忽略了。概率水平僅表明A大於B或C與B不同的可能性有多大，而效應量旨在告訴我們受審查的兩個樣本相差多少。心理學家和其他人文科學者，而不是專注於構建人類狀況的衡量標準，而是將精力放在將複雜的統計程序應用於他們的數據上。儘管統計分析是科學過程中必要且重要的一部分，並且作者絕對不希望取代統計在檢驗變量之間關係中的作用，但本書的觀點是，人文科學的定量研究者過於侷限於統計分析，而對他們使用這些統計數據的性質關注得不夠。因此，作者的目的不是用Rasch測量取代定量統計，而是將用於數據分析的部分時間和精力重新聚焦於構建高品質科學測量的前提。

當然，前面提到的那些堅定的教授們依循S.S. Stevens（1946）所學的指導方針。每個心理測量學101或定量方法學101的學生都會永遠記住Stevens的教誨。簡而言之，Stevens將測量定義為根據一定規則將數字分配給對象或事件，從而在四個層次上存在某種形式的測量：名義、序數、區間和比率。到目前為止，我們大多數人都接受了人文科學中的比率級測量可能會超出我們的能力範圍，然而我們大多數人都認為我們收集的數據屬於區間級別的尺度。

然而，令人困惑的是，那些自認為是人類狀況科學家的人，特別是心理、健康和教育研究領域的人，似乎在毫無批判性反思的情況下接受他們的序數級「測量」，即使它們根本不是真正的測量。也許我們應該更仔細地閱讀Stevens本人（1946）的著作。他說：“事實上，心理學家廣泛且有效地使用的大多數尺度都是序數尺度。”（第679頁）然後，他指定了唯一允許用於序數數據的統計數據是中位數和百分位數，而均值、標準差和相關性僅適用於區間或比率數據。更令人驚訝的是，“名次相關係數通常被認為適用於序數尺度，但實際上，這個統計數據假定連續排名之間的間隔相等，因此需要區間尺度。”（第678頁）有比這更清楚的嗎：“使用區間尺度，我們得到了一種通常意義上的‘量化’形式。”（第679頁）這也是我們的觀點：只有在「區間」中，我們才能在通常意義上獲得「量化」，即我們在日常生活中使用科學衡量的意義。那麼，為什麼社會科學家們陷入困惑呢？

不幸的是，在同一篇開創性的文章中，Stevens模糊了這些序數/區間的區別，允許我們援引“一種實用的認可：在眾多情況下，它會帶來豐碩的成果。”（第679頁）他補充了一個暗示性的保留意見：“當只知道數據的排名順序時，我們應該謹慎地進行統計分析，尤其是從中得出的結論。”（第679頁）

看起來他對將序數資料視為間隔資料的隱含「許可」似乎是社會科學家所能得出的唯一結論——這些顯然渴望在他們眾多的態度量表上使用精密統計方法的科學家。我們有理由期待那些自認為是社會科學家的人會渴望成為開放思想、反思並且最重要的是具有批判性的研究者。在實證科學中，這個衡量問題似乎至關重要。然而，許多試圖提出這些以及「我們的數據是否構成衡量」問題的嘗試，即使在專門討論衡量、定量方法或心理計量學的論壇中，也會導致進一步討論機會的突然終止。我們的領域對史蒂文斯（Stevens）的（誤？）解讀——即序數數據不構成衡量的公然無知——僅僅是皇帝的新衣的另一個案例嗎？（Stone，2002）。讓我們看看這一傳統的各個組成部分：常規做法是什麼，衡量的定義意味著什麼，以及無處不在的四個衡量層次的地位。

在測量的藉口下，心理學家們通常會描述手頭的原始數據。他們會報告有多少人回答了正確的試題（或同意提示），一個回答與另一個回答之間有多高的相關性，以及每個試題與總分之間的相關性。這些單純的描述把我們的思考綁死在原始數據的層面上，而原始數據並不是測量。儘管在人類科學中，心理學家們通常接受計數作為“測量”，但這種用法不能取代物理科學中所知的測量。相反，科學的繁忙活動和重要性被不適當地賦予了統計分析，而不是測量。這種偏重於統計分析的方法，加上對數字歸因於事件的信心過高，作為測量的做法是不足的，尤其是對於心理學家們而言。在其名為“量化科學和心理學中測量定義”的論文中，Michell（1997）對此非常直言不諱，指出心理學家對於相對明顯的方法論事實的“持續無法認識”被稱為“方法論思維障礙”（p.374）。問題仍然存在：作為專門從事人類科學研究的科學家，我們是否可能對於一個可能的可能性開放我們的思想，即我們根本沒有測量到任何東西？或者如果我們已經進行了測量，那麼這很可能是出於好意和好運，而不是我們運用了適當的測量方法？

孩子可以建立測量

顯然，在社會科學中，“測量”這個詞具有“量化”或“統計”所沒有的聲望。也許，如果我們能夠觀察那些正在進行這些發展的人的測量概念發展，我們就能對測量真正包含的內容有所了解：兒童。Jean Piaget在日內瓦的研究議程之一是受到1928年在瑞士達沃斯與阿爾伯特·愛因斯坦的會面所激發（Ducret，1990）。愛因斯坦建議皮亞杰研究年幼兒童對速度、距離和時間概念的發展，以了解哪一個概念是邏輯上原始的（即，如果速度=距離/時間，那麼哪個概念可能先發展出來？）。皮亞杰繼續研究兒童的長度（和測量）概念的漸進建構，並在1948年報告了這些發現（Piaget、Inhelder和Szeminska，1948/1960）。

皮亞杰的助手們為孩子們提供了一套材料，通過一系列鬆散的問題，要求孩子為所提供的材料（通常是木棒）建立一個初步的測量系統。作者報告了兒童在獲得線性測量概念方面的時間和邏輯序列：

孩子們將提供的物品分類（分組），並選擇至少一個適合測量的共同特徵的類別（例如，木棍），將其放在一邊（例如，杯子，球等）。
然後，他們按照該屬性（例如，長度）的變化序列排列那些已選擇的對象。
接著，孩子們確定了相鄰兩根木棒之間的差距，即一個任意的單位A（例如，木棒C - 木棒B = 木棒A）。他們使用這個單位來計算不同長度之間的關係，例如木棒B = 2 × 木棒A，木棒B + 木棒A = 木棒C，以此類推。他們的測量嘗試顯示，任意兩根相鄰的木棒Xn和下一個最大的木棒X（n + 1）之間的一般差異是這個任意單位A。
最後，孩子們逐漸意識到這個迭代的測量單位必須在所有適當的測量情境下標準化，以便可以使用共同的線性測量刻度來測量所有長度。

當然，並不需要像叔本華那樣敏銳才能發現幼兒研究結果和史蒂文斯在我們大學入門課程中所學到的測量水準之間的相似之處。對於皮亞傑和孩子們來說，發展的階層序列是分類、序列、重複，然後標準化；對於史蒂文斯的水準來說，則是名義、順序、區間和比例。有趣但至關重要的區別——這是大多數人文科學者似乎忽略了的——是，分類和序列是發展測量系統的必要前提，但它們本身並不足以進行測量。線性測量系統的獨特特徵是需要一個任意但有意義的差異單位，可以在連續的長度之間重複使用。學校裡的孩子們很快就會堅持認為，即使是在課堂項目中，方便的線性測量單位，如手寬和腳長，也是不夠用的；他們要求使用標準的棍子長度。

Rasch模型的支持者專注於這一點：我們如何開發測量單位，起初必須是任意的，但可以在感興趣的尺度上重複使用，以便單位值保持不變？這是Rasch測量的主要重點。美國教育研究協會的Rasch測量特別興趣小組的手冊封面上有著“Making Measures”的口號。《應用測量學報》每一期的封面都以不同的方式陳述了同樣的目標：“構建變量”。在人類學科中，可能需要很長的時間才能樂觀地採用真正的零起點來測量數學成就或認知發展，或者決定零內向或生活品質是什麼樣子，但那些辛苦工作，使結果的量表具有區間測量特性的人正在對科學進步做出重要貢獻。與物理科學儀器的發展相一致，我們需要花更多時間研究我們的量表，而不是用我們的量表進行研究。這些測量的構建嘗試超越了僅僅命名和排序指標的範疇，朝向可能無法實現的真正比率測量的終極目標。

從 Stevens 的層級觀點來看，作者認為名目層級和順序層級本身並不是任何形式的測量。當然，他們同意 Stevens 的間隔層級和比率層級實際上構成了某種形式的真正測量。然而，在人文科學中，我們通常認為具有間隔層級測量特性的量表實際上只是被假定具有此特性，而這些特性幾乎從未被經驗性地測試。僅僅將數字分配給人類行為是不夠的，我們必須確保按照一組規則進行分配，以便在整個量表中維持單位值不變。測量是從實證對象到數值關係結構的映射，使數字之間的關係必須反映對象被測量屬性之間的關係。換句話說，我們必須確保所分配的數字反映了對象測量屬性之間的關係。這意味著，測量實際上超出了 Stevens 所定義的根據規則將數字分配給對象的範疇，因為它未指定這樣的規則應該是什麼。

區間尺度與比率尺度：概念性解釋

在前面的部分，我們已經提到了區間和比率尺度的性質，但尚未解釋這些尺度的組成以及區間尺度與比率尺度之間的區別；這些在實踐中經常被混淆。一般來說，正如名字所示，區間尺度使用數字來表示順序和更重要的是，反映尺度上值之間有意義的相對距離。但是，對於區間/比率區別而言，區間尺度沒有絕對零點；區間尺度的零點是任意的。攝氏和華氏溫度尺度是區間尺度的有用、眾所周知的例子：攝氏尺度將水的凝固點（在標準大氣壓下）作為其零點；華氏零點是將相等重量的雪和普通鹽混合產生的溫度。因為這些零點是任意的（儘管絕對不是無意義的），所以攝氏和華氏尺度值的比率是沒有意義的。為了說明這一點，我們可以考慮一個問題，即某一天的溫度是否是另一天的兩倍。讓我們用攝氏溫度來衡量：第一天，10攝氏度；第二天，20攝氏度。我們應該得出第二天的溫度是第一天的兩倍嗎？然而，如果我們使用華氏尺度：第一天將是50華氏度；第二天，68華氏度。因此，第二天是第一天的68/50=1.36倍，而不是攝氏尺度下的兩倍。這並不是為了削弱溫度尺度作為衡量工具的意義。實際上，我們可以使用公式°F=°C×1.8+32輕鬆計算出相應的華氏值。因此，這兩個溫度尺度之間存在功能對應關係，並且本身並沒有什麼錯誤。

因此，這兩個溫度尺度之間存在功能對應關係，本身並沒有什麼錯誤。這兩個完全有效的（區間尺度）溫度測量之間的明顯矛盾表明，區間尺度的尺度值之間的比率是無意義的。相比之下，比率尺度之所以被稱為比率尺度，是因為它使我們能夠比較尺度值的比率。堅持我們的例子，克氏溫度尺度為比率溫度尺度提供了一個極好的例子。克氏尺度具有絕對零點，表示完全沒有熱量，即所有熱運動停止的溫度。因此，在這種情況下，克氏尺度值0 K表示正在測量的變量的缺失，而0°C或0°F則定義了一個方便但任意的起點。正因為0 K對應於我們正在測量的變量的缺失，解釋尺度值的比率才有意義：300 K（一個宜人的夏日）是150 K的兩倍熱。

為了給讀者更生動地舉例說明這些區間尺度和比率尺度的核心特性，讓我們用兩種不同的方式來衡量三個建築物A到C的高度，如圖1.1所示，它們具有相同的地面高度。

假設建築物A是該地區的第一座建築，其高度為25米，構成了建築物B和C比A高多少米的標準。這可能對應於某些建築規範，即特定地區的新建築物的高度不能超過某一建築物的指定高度(註釋1)。因此，我們將建築物A作為參照點，即作為一個任意的零點。我們發現B比我們的標準建築物A高12.5米，C比A高25米。請注意，我們現在獲得了有關高度相對差異的信息：A和C之間的高度差為25米，是A和B之間12.5米高度差的兩倍。

圖1.1 測量具有相同地面高度的三棟建築物的高度

然而，請注意，從這些數字中並不能得出結論說C是A的兩倍高。這是因為所有測量都是相對於一個任意的零點（25米）進行的。因此，這樣的區間尺度上的數字反映了尺度上各點之間有意義的相對距離（即差異）。

相反，我們也可以從地面高度測量每個建築物，這構成了一個絕對零點（即高度的缺失），因此建立了一個比率尺度。建築物C為50米，B為37.5米。我們現在可以有效地說C是A的兩倍高（因為50/25=2），或者B是A的1.50倍高（因為37.5/25=1.50）。我們現在可以有意義地解釋尺度值的比率。

我們可以從這些解釋中得出的一般結論是，為了有意義地解釋尺度值之間的差異，我們需要建立至少一個區間尺度。當我們解釋參與者之間的智商得分差異，或者使用t檢驗比較兩個組之間的平均值時，我們經常將問卷或測試數據視為具有區間尺度特性。然而，我們幾乎從未嘗試構建這樣一個測試性能的區間尺度。

統計與/或測量

史蒂文斯傳統及其他人在此問題上的立場造成的一個令人遺憾的後果是，統計分析幾乎完全排除了測量概念，而在社會科學中占主導地位。社會科學測量的入門教材和課程通常是關於統計分析；在對史蒂文斯的四個層次進行一番象徵性的排練之後，這個問題就被擱置了。這並不意味著Rasch測量支持者的目的是要取代我們對傳統統計的使用。相反，目的是為社會科學家提供產生真正的區間測量的手段，並監控這些尺度對科學測量原則的遵循。這樣，數據的區間性質（對於我們許多最重要且有用的統計分析是必需的）變得明確，而不僅僅是假定。例如，許多人將原始數據輸入到SPSS或SEM軟件中，假設它們是每個變量的「測量」，然後計算它們之間的關係。另一種方法是從相關的試題反應中構建每個變量，使用Rasch模型檢查每個變量的測量特性，然後將這些經過品質控制的Rasch個體測量值輸入到結構方程建模或其他參數分析的軟件中。

為什麼要進行基本測量？

來自芝加哥大學的本·萊特（Ben Wright）通常會用口袋裡的折疊式碼尺來說明他關於使用Rasch測量的觀點，從而引起聽眾的興趣、惱怒、激起或啟發。他譴責人類科學中的尺度就像是用彈性材料製成的碼尺，擁有橡膠製成的段落、存在間隙或不直等特點。物理測量的類比在作為一個努力的模型和揭示較劣的尺度建構技術的弱點方面都是有用的。碼尺（或米尺）讓我們明白基於長度這一擴展屬性的基本測量尺度的特性。正如皮亞杰揭示的，小學生很快就會發現他們可以將長度連接起來，以顯示物理線性測量尺度中的加法關係；他們可以將任意的「單位」或棒子實際地放在一起以增加長度。

當我們將自然數系統的特性與加法單位長度之間的迭代關係相匹配時，這給了我們很大的力量（100厘米= 1米；1000米= 1公里等）。想想我們的祖先如何用當地人的「腳」（法語中的pieds）和「拇指」（帝國英寸，或法語中的pouces）來對齊獲得線性測量。研究人類在物理測量發展中的角色（Stone，1998）；建立米的基礎所面臨的巨大政治、科學和個人困難（Alder，2002）；以及估算像珠穆朗瑪峰這樣明顯而堅固的東西的高度的過程，即使該團隊可以使用精確校準的測量鏈，也被譽為“整個科學史上最驚人的工作之一”（Keay，2000）。

從本·萊特（Ben Wright）尺子背後的歷史中，我們可以得到很多教訓。首先，在成為標準化和可互換之前，人們使用了許多隨意的、局部的測量方法。其次，即使測量方法標準化並且看似足夠可靠和精確，但在特定背景下迭代單位以估算物理尺寸仍然可能是一項艱鉅的任務。道德寓言是：如果我們認為在人文科學中進行科學測量對我們來說太困難而無法堅持，那麼也許我們並不了解像米尺這樣簡單物品的發展歷史以及在看似簡單的測量任務中使用這個簡單裝置有多困難。即使是米的典範模型——在精心控制的環境中，鉑條上的兩個金點，如今也只是具有歷史意義；如今對米的定義已經不再是那麼粗糙。當然，本的尺子類比的弊端在於，正如他的批評者經常指出的那樣，我們無法像使用厘米來製作米那樣將人類心靈的碎片物理對齊以產生測量。

衍生指標（Derived Measures）

在物理科學中，學者們已經發現，儘管在可以物理連接的單位上進行基本測量是可能的（如重量、角度、時間等），但即使在物理科學中，這些比例也是少數。其他物理科學測量的加法性質（密度是一個很好的例子）必須間接地被發現（或構建），而不是通過在具體單位上重複物理操作來證明。將一升水（質量為一公斤，密度為一）加到另一升相同的水中，將得到兩升水，質量為兩公斤，但密度仍然為一。體積和重量的單位可以物理地連接，但密度的單位不能，即使我們在科學上可以正確地稱某物質的密度是水的兩倍、三倍，甚至是一半或三分之一。密度比例是從質量和體積之間的固定比率衍生出來的：對於純水為1.0，黃金為19.3，鎂為1.7，等等。

那麼，如果密度是一個衍生測量，我們在學校科學課程中如何衡量密度呢？事實上，如果科學課程、教材或教師對孩子對科學的理解的發展基礎敏感，這些實驗將在那些僅基於測量長度、重量和時間的練習之後進行。皮亞杰發現，兒童對體積的概念比對長度、重量等的概念更晚建立，並且在小學畢業或高中開始之前，兒童可能無法理解密度。此外，概率概念（對Rasch測量至關重要）直到青少年晚期才被建立！

所以，我們的高中科學老師給了我們一些物體，讓我們測量每個物體的重量和體積，然後將值輸入課堂表格中，以便我們可以計算相對密度：密度 = 質量/體積。而且，如果老師知道她的工作，她會鼓勵我們自己去發現任何物質（例如，銅）的密度始終保持一致，即使銅物體的大小和形狀在課堂上各組之間有很大差異：啊！在如此明顯的變異（重量和體積）面前，發現不易察覺的不變性（密度）的奇妙之處！在這個簡單的例子中，我們找到了科學努力的基石之一：我們的任務是在所有人都明顯知道的變異面前，找到不變的衡量、規則和理論。相反，當我們在新情況下應用這些不變的衡量、規則和理論時，我們需要解釋觀察到的意外變異。我們在變化面前尋求恆定，而在希望恆定的地方尋求變化。這部分科學事業是我們在第五章中考慮測量不變性的核心。

表1.1 課堂科學練習中物質密度的計算

表1.1不僅揭示了從上排左至右重量基本測量尺度值的增加（0.2、0.4、0.6、…、1.2等），以及類似的自上而下在左列中體積的加法尺度（0.5、1.0、…、3.0），而且還顯示了密度的衍生測量尺度沿對角線（虛線）從表格左下角到右上角呈現增加趨勢。

因此，物理科學家擁有基本的（物理連接）測量和衍生的（間接檢測或構建）測量來涵蓋物體的可測物理屬性。對於社會科學家來說重要的是，1940年，Ferguson委員會確定心理測量世界中沒有任何東西具有基本或衍生物理測量尺度的特性（Ferguson，1940）。我們目前對史蒂文斯（Stevens）的四個層次的依賴間接歸因於委員會中那些對他的批評，特別是著名的英國物理學家N.R. Campbell，他擁護物理科學的測量理念。碰巧而不幸的是，史蒂文斯自己對響度感知的測量試圖引起了Ferguson委員會的負面關注，而Campbell的開創性工作在一定程度上對我們簡單稱之為心理測量的那些人的科學測量要求予以否定。

史蒂文斯為心理學家重新定義了測量：“改述N.R. Campbell（最終報告，第340頁），我們可以說，在最廣泛的意義上，測量被定義為根據規則為物體和事件分配數字”（史蒂文斯，1946，第667頁）。史蒂文斯引用了他立場最嚴厲的批評者之一的權威，使用看似合理的Campbell自己的引述的改寫來證明史蒂文斯現在在心理學中熟悉的四個測量層次：名義、序數、間隔和比率——每個層次都構成了某種形式的測量。

共同測量

R. Duncan Luce及其同事已經表明，物理學家Campbell和心理測量學家Stevens都犯了錯誤。Luce和Tukey（1964）認為，他們的同時共同測量概念是一種新型基本測量，該測量涵蓋了物理科學中的現有基本（例如，重量、體積）和衍生（例如，密度、溫度）測量類別，更重要的是，為我們在心理構造等非物理屬性中檢測測量結構鋪平了道路。回顧表1.1中的密度矩陣，測量的關鍵不在於兩個基本測量尺度（重量和體積）之間的共謀，以產生一個保留了重量和體積中已經固有的科學測量關鍵特性的第三個衍生測量尺度（密度）。根據Luce和Tukey，數據中加法測量結構的關鍵指標（對於密度以及很可能對於某些心理屬性）在於矩陣單元格之間和之中的可觀察關係。

讓我們看看如果能夠將來自同時共同測量的一些想法應用於教育或心理測試的想法可能有什麼潛力。如果我們有一些指標可以從最小到最大排序的測試情境的兩個屬性（方面或面向），例如，從最不擅長到最擅長的候選人的能力，以及從最不困難到最困難的試題的難度，我們可以嘗試檢查Luce和Tukey的區間級別尺度測量結構是否可能存在於隨之而來的數據矩陣中。

表1.2 按能力排序的人（行）和按難易程度排序的試題（列）

想像表1.2是基於給100個適當人群的100道相關試題的測試。在頂部行中，我們將一些試題從最困難的（1個人答對/99個人答錯）排序到最容易的（99個人答對/1個人答錯），在左側列中，我們將我們的人從最有能力的（99個正確回答/1個錯誤回答）排序到最沒有能力的（僅1個正確回答/99個錯誤回答）。從本質上講，Luce和Tukey要求我們在表1.2中搜尋單元格之間的關係模式——與表1.1中衍生測量尺度示例的重量/體積/密度矩陣結果中明顯相同的關係。

數據矩陣可以用於測試滿足同時共同測量結構要求的數學公理可能是相當復雜的，但一兩個基本示例可能足以作為概念性介紹。請花一點時間重新查看早期表1.1中密度矩陣中單元格之間的關係，試圖找到：

(a) 在任意行中，單元格與其右側單元格之間的關係是什麼？

(b) 在任意列中，單元格與其上方單元格之間的關係是什麼？

密度表中的每個單元格（表1.1，參見圖1.2）具有的值小於：

(a) 該行中其右側單元格的值（即A < B）；

(b) 該列中其上方單元格的值（即C < A）；

可以用圖1.2表示的小模板來總結這些單元格之間的關係。

圖1.2 測量矩陣中相鄰單元格之間的關係

回顧表1.1中的密度計算，確認圖1.2中的模板所詳述的所有相鄰單元格之間的"小於"關係成立。此外，所有這些"小於"關係是同時存在的。但是要注意，Luce和Tukey對測量的要求（公理）比這要全面得多。

Rasch測量模型

Georg Rasch在他的《概率模型在智力和成就測試中的應用》（1960）中，完全獨立於Luce和Tukey，認為使用一個精心構建的測驗所產生的數據矩陣中也需要一套類似的關係。他闡述的原則非常直接明了：

一個人的能力大於另一個人，應該具有解決問題類型中的任何試題的更大可能性；同樣地，一個試題比另一個試題更困難，意味著對於任何人來說，解決第二個試題的可能性更大。

（Rasch，1960，第117頁）

Rasch模型的一個核心特徵是一個預期回應概率表，旨在解決關鍵問題：當具有此能力（測試試題正確數）的人遇到這個難度的試題（成功解答該試題的人數）時，這個人回答正確的可能性是多少？答案：成功的概率取決於人的能力和試題的難度之間的差異。

這就是為什麼一些Rasch測量人士對Rasch模型的科學測量可能性充滿熱情：使用Rasch的公式生成的預期概率表（參見表1.3的片段）中單元格之間的"大於/小於"關係與表1.1中的密度矩陣相同。

表1.3 能力與難度相遇時成功概率的表格

Rasch模型包括一種方法，用於根據能力將人員（例如學童樣本）排序，並根據難度將試題（例如數值計算診斷測驗）排序。Rasch原理是，如果在估計的正確回答概率的所有相鄰單元格之間存在特定的順序關係結構，則隨著某些屬性的水平隨著另外兩個屬性的值增加而增加，這可能表明間隔水平測量。從表1.3中的片段可以看出，一個屬性的水平（正確回答的概率）隨著另外兩個屬性的值（試題難度和人員能力）的增加而增加。然後，正確回答概率之間的純序關係顯示出所有三個屬性的間隔水平定量測量結構。圖1.1中的模板關係也適用於表1.3中的Rasch預期回答概率。實際上，Rasch所要求的關係不是那麼嚴格；它是“小於或等於”（≤），而不僅僅是“小於”（<）。同時聯合測量理論的理論典籍是Krantz、Luce、Suppes和Tversky（1971）。雖然Narens和Luce（1986）和Michell（1990）提供了更簡單的說明，但最易於理解的是Michell（2003）。

然而，Rasch模型與加法聯合測量之間聲稱的平行關係仍存在爭議。上述解釋表明，通過將我們的數據與Rasch模型相配合，已經實現了一種概率變體的加法聯合測量。通常的前提是“在Rasch模型的要求得到滿足的程度上”。但是，首先，在Rasch測量中通常使用的模型適配測試並沒有直接測試觀察數據中的聯合測量順序限制。Michell（2004）認為，Rasch模型測試並不能區分量化結構與僅僅是順序結構。因此，根據這些常用的模型適配測試顯示出的數據符合Rasch模型，仍然可能符合更不嚴格的假設，即心理屬性僅僅是順序的，而不是間隔的。此外，Kyngdon（2008，第100頁）從數學上論證Rasch模型的實證關係結構概念“…不包含事件的實證對象”。模型總是將概率映射到實數，這意味著應用Rasch模型並不會導致將對象的特性表示為數字之間的關係，而是在創建變量，從而默默地避免了正在調查的心理變量實際上是量化的這個問題。同樣，Kyngdon（2011）顯示，Rasch模型生成的所謂間隔尺度仍然與底層變量的實際順序屬性一致。另一方面，Rasch模型具有其他理想的測量屬性，這些屬性不是一般項目反應模型的屬性，我們將在接下來的章節中看到。然而，Rasch模型是否是加法聯合測量理論所描述的量化測量之路仍然存在爭議。

一個更適合人文科學中測量的比喻

Ben Wright 使用簡單的尺子（線性測量）作為他的測量比喻，這是由於尺子所代表的測量原則是我們在人類科學研究中可以追求的理想狀態。然而，使用尺子作為比喻也有一些缺點，尤其是對於許多人類科學領域來說並不那麼有幫助。尺子只能用於描述實際物體可以物理拼接的情況，這在人類屬性的研究中似乎有些牽強，而且即使在物理科學中使用衍生測量如密度和溫度時也無法套用這一原則。線性測量的歷史非常悠久，使用尺子進行測量也非常普遍，因此我們通常無法很容易地看出量表開發者所遭遇的問題與我們在人類科學中所面臨的測量問題之間的類比關係。例如，我們假定使用這些標準線性測量是沒有問題的，且常常被認為是“無誤差”的，即使稍加閱讀和思考就會發現並非如此。除了一個主要國家之外，公制線性測量系統的使用是如此的常規，以至於從毫米到厘米再到米和千米的校準進程被視為理所當然 - 我們只需要足夠長的尺子或足夠多的短尺子的迭代即可。

接續Bruce Choppin（1985）的思想並加以發展，我們問：溫度計--測量溫度的工具--可能是試圖測量人類特質的人們更有用的類比嗎？溫度計的歷史相對較短，早期Hooke、Galileo和其他人的努力有著書面的目擊證據。張福祥（Chang）（2004）的長達300頁的著作《Inventing Temperature：Measurement and Scientific Progress》可以被視為定論。即使是標題對社會科學家來說也是很有應用價值的：測量和科學進步是否相輔相成？那麼，對我們來說有哪些類比？溫度不是直接測量的，而是通過記錄其對其他物質（如汞、有色酒精和雙金屬條）的影響來間接估算。科學家對某些物質對溫度變化的反應方式有理論，而這些理論隨時間而改變。我們不會在所有（或甚至大多數）測量溫度的情況下都使用一種典型的溫度計。事實上，大多數常見的溫度計具有相當有限的刻度範圍和受限的應用：醫用水銀溫度計在廚房中幾乎沒有用處，除非認為廚師生病了。我們知道我們可以輕鬆地在攝氏度（°C）和華氏度（°F）之間切換，而稍懂高中物理的人可以了解凱爾文標度（K）。我們知道0°C和100°C已經被早期科學家在海平面上純水的凍結和沸騰點上任意設置，而不是因為這些是溫度標度的科學終點。我們可以從0°C、0°F或0 K開始測量溫度，這取決於我們的目的或一時的心血来潮。將0 K（-273°C）定為絕對零度的理論也暗示著實際測量絕對零度的溫度本身是不可能的（Choppin，1985）。

當我們記錄負溫度時（除了感覺太冷以外），並沒有問題：-10°C或"負七度"並不讓我們對於溫度有負數的概念感到困惑！沒有一個溫度計構造原理可以在整個溫度範圍內應用，例如：膨脹液體、雙金屬片和電導率變化，各自都有限定的應用。我們都能有效地使用一些溫度計，但其他一些則需要專業知識，僅在專業設置中使用。一些相當實用的溫度計幾乎是贈送的，而另一些則昂貴、脆弱，並且很少被普通人所想像。我們知道，在同一時間、同一環境下，任何一組溫度計的讀數都會有所不同。在重要場合，當我們的孩子生病時，我們會連續檢查兩三次孩子的體溫，以確保準確度。但是從醫院開車回家時，我們會依賴汽車恆溫器在"大約"正確的溫度下開啟和關閉，以保持引擎平穩運行。我們期望，我們在購買溫度計時會得到物有所值的回報：花費幾元就可以控制汽車引擎或居室的溫度；幾倍的價格就可以控制酒窖的溫度；在重大手術中監測核心體溫的費用則高得多。政府應該為在核反應爐中測量核心溫度而支付多少費用呢？

在人文科學的測量探索中，我們可以借鏡於溫度計的類比。儘管整個溫度範圍（從0K到+∞）最終可能代表從出生前（甚至對於某些屬性來說，是概念上的受孕）到死亡（甚至超越屬靈概念），但我們每個人可能只會專注於變量的一個小部分。我們開發的任務、測試和日程安排可能像紅外線醫用溫度計和1965年福特野馬上的恒溫器一樣，各有特色，並且在專業領域中使用。有些測量工具價格實惠且後果輕微（就像家用溫度計一樣），而有些則成本高昂、風險大、且需要大量維護（例如監控和控制核反應爐的核心溫度）。我們將立即承認，測試的準確性和精度可能取決於成本/努力，而且所有的估計結果都會有誤差，但這些特性（準確性/精度/誤差）將適用於決策需求。我們的測量尺度單位的名稱和大小可能會有所不同（就像攝氏度、華氏度和開氏度一樣）。然而，儘管許多指標在各種看似不相關的情境中看起來顯著不同且功能顯然不同，最終目標是將測試、檢查表等校準於一個擁有廣泛適用性的單一底層區間級測量尺度上，並且可以應用於各種人類狀況（就像溫度一樣）。對於那些需要提振樂觀和動力來面對眼前任務的人，請參閱「熱力學、溫度計和測量的基礎」（Sherry，2011）。 Sherry 在文章中闡述了從熱量測量的歷史中得出的教訓，這些教訓可以指導我們解決人文科學中的測量問題。他特別提到了一個主張，即由於約瑟夫·布萊克（約於1760年）的實驗工作，有序的測量工具被轉換為區間刻度的溫度計。

從量測溫度的歷史中可以看出，人文科學中發展、標準化和轉換測量尺度的問題，從不同種類的溫度計的使用上，也能看到其相似之處，即使很多測量讀數僅僅能達到「只夠政府使用的水平」。這也引出了在量測人類的優點和缺陷的潛在特質時所面臨的重要哲學問題。我們不能直接測量某個潛在特質，只能觀察它對其他物體的影響，例如使用彩色酒精玻璃溫度計的原理：我們觀察紅色液體的長度，然後讀出溫度。同樣地，若要測量兒童的數學能力，我們只有他做對的題目數，這並不是我們所要的結果，因此我們必須進行「推論」，由已知的資訊推出未知的結果，將一個原始的題目正確計數轉換為潛在特質的間隔測量，而Rasch模型正是我們用來進行這種推論的方法。

結論

通過了解和思考困擾物理科學中度量尺度發展和科學應用的問題，我們可以獲得很多收穫。Alder（2002年）、Keay（2000年）和Sobel（1996年）的流行著作都非常易讀且富有信息。Chang（2004年）的很多章節對業餘測量學家來說都很容易理解；而Sherry（2011年）可能正是我們需要的教材。知道我們並不是唯一面臨問題的領域令人欣慰。此外，了解我們在人文科學中的科學測量如何遠遠未能達到合理期望也有助於我們。Michell（1999年）為關鍵人物、事件和動機提供了非常易讀的描述。他還介紹了科學測量與Luce和Rasch思想之間的關係（Michell，2003年）。雖然很多從事Rasch測量的人並不同意Michell對我們領域中測量的所有預測，但他確實涉及了我們共同關心的許多重要問題，這些問題在我們學科的其他論壇中很少被考慮（參見Bond，2001年）。

在本章中，"基本"這個詞以兩種不同但同樣重要的方式使用。我們在日常生活中使用的度量方式——具有迭代單位值的刻度——對於人文科學中基於邏輯和經驗的研究至關重要。科學測量的性質在所謂的基本測量中最為明顯，在這種測量中，像重量和長度這樣的屬性可以沿著測量刻度物理地串連在一起。物理科學中的很多測量刻度都是衍生出來的，儘管測量單位可以迭代，但屬性本身（例如溫度和密度）無法在物理上相加。

Luce及其同事們概述了聯合測量的原則和性質，使人文科學的嚴密測量與物理科學的測量享有相同水平。實際上，物理科學的基本和衍生測量系統是聯合測量的特殊（受限）情況；Luce將聯合測量稱為“一種新型的基本測量”（Luce＆Tukey，1964年）。

Rasch測量模型目前是人文科學中最接近這些基本測量原則的普遍可接近近似。當然，采用如此明顯的沙文主義方法可能會疏遠我們在人文科學研究定量方法中的許多同行。即使是那些完全致力於開發和使用Rasch校準刻度的人有時也恳求我們走得更輕柔，更慎重，表現得不那麼自信。作者們對Rasch模型測量方法的支持並非旨在冒犯；也許是挑戰，但絕不是冒犯。令人鼓舞的是，那些對測量水、布和麵粉有如此高標準的同行現在將擁有達到數學成就、內向性、認知發展或與健康相關的生活品質相同標準的工具。

本書是一個邀請（敦促？），讓我們為人文科學研究的測量設定極高的標準，並逐步努力實現這些標準。我們必須記住，登陸月球曾經是遙不可及的目標。

摘要

在本章中，我們為理解測量與統計之間至關重要的區別奠定了基礎。我們認為，社會科學對史蒂文斯的測量構成框架以及相應的統計分析的依賴，導致了對測量的廣泛忽視和對統計顯著性在解釋研究中的過度依賴。無論是有意還是無意，這種疏忽對於理解我們所研究的現象都帶來了嚴重後果。

註釋1：應該注意的是，這個例子要求三棟建築物位於水平地面上是必要的。如果地面高度不一致，例如，建築物B和C要建在高地上，建築物A就不能再作為參考點，而我們需要（例如）使用海平面作為參考，或者分別作為有意義的零點，以計算建築物的地理高度並確定關於它們最大允許高度的規格。

Google Sites

Report abuse