6. Measurement Using Likert Scales

原文出處:Bond, T., Yan, Z., & Heene, M. (2020). Applying the Rasch model: Fundamental measurement in the human sciences. Routledge. 

前幾章已經展示了如何使用Rasch建模的基本特徵來處理簡單的對錯或二元數據。這些原則的一種擴展允許我們將Rasch建模的思想擴展到多項式數據。這種數據收集方法已經存在很長時間,其中一種形式是Likert量表的原理(Likert,1932),通常用於收集態度數據。不論評估哪種態度,Likert量表都有一些共同特點,可能的回答通常以“SD”(非常不同意),“D”(不同意),“N”(中立),“A”(同意)和“SA”(非常同意)的格式表示。同樣,每個Likert量表項目都提供了一個語幹(或態度陳述),要求被調查者在不同意-同意的連續性中標記回答,表明對語幹中陳述的態度的支持程度。奇數個回答選項可能在中點提供“中立”回答,而偶數個回答選項可能會迫使被調查者選擇正面或負面回答。1

心理學家通常認為Likert量表是一種較為柔和的數據收集形式,研究人員明確承認問題只需要表達意見。這種固有的主觀性可以歸因於關於人類狀態的許多類型的收集的數據(Hales,1986)。然而,傳統的分析Likert數據的標準方法立即忽略了數據的主觀性,並對它們的含義作出了不必要的假設。這些假設是為了找到一種快速簡便的方法,以生成關於電腦焦慮,對業務產品或服務的態度或支持特定醫療實踐的總體得分。因此,在本章中,我們將展示忽略Likert數據的主觀性並以傳統方式進行分析既不符合直覺,也不符合數學上的適當性。 

一個標準的 Likert 反應選項顯示可能會長成這樣:

接下來,回答的編碼可以按照以下方式處理: 

因此,評分應該進行如下處理:一個受訪者對SA選項的五次認同會得到20分的滿意度分數,這是對SD類別認同的五次受訪者所表示滿意度的4倍(5×1=5),或對五次SD類別認同者所表示滿意度的兩倍(5×2=10)。

當以這種方式添加分數時,假設數據的比例或至少是數據的間隔性質是相同的。也就是說,每個反應類別在所有試題中的相對值都被視為相同,並且給予評分量表上的單位增量相等的價值。當SA = 4 的情況被視為比SD = 1 的情況高四倍,並且每個評分項目都是如此,這些假設被傳達。一方面,每次收集數據時都承認了態度數據的主觀性。然而,在數據分析中,未將這種主觀性納入數據分析中,而是採用了嚴格的規定和不適當的統計方法。

在教育環境中,題幹19「我擔心我在使用電腦時會出錯」和題幹20「我害怕電腦,所以避免使用它們」可能表明了更高程度的電腦焦慮。實際上,對於第19題中的SA回答,兒童可能經常對第20題中的D回答表示認同,但是對於每個題目的SA回答,傳統分析都會為整體電腦焦慮分數貢獻恰好四分。一個更真實的代表性樣本可能如下所示,其中向右移動表示整體焦慮程度更高。

從這個例子中,我們可以看出,在“避免使用”中同意 SA 應該表示整體電腦焦慮水平更高。這是直觀的:那些報告說他們“強烈同意”實際上因為恐懼而避免使用電腦的學生似乎表現出更高的潛在“電腦焦慮”構念水平,而不僅僅是那些“強烈同意”他們害怕犯錯的學生。

多分類數據的Rasch模型

從這個例子可以看出,Rasch方法應用於Likert量表數據與我們在前面章節中詳細介紹的方法存在類似之處。特別是,Rasch模型允許每個題目或問題的試題難度基於一個適當的受測者組對實際該題目的反應而得出。與二元數據的方法類似,Rasch模型確定了每個試題在從該工具能夠記錄的最低水平到最高水平記錄計算機焦慮發展方面的相對難度。因此,每個試題都會有一個難度估計值。Rasch建模還將建立使用Likert量表類別的模式,以產生對於該量表所有試題的單一評分量表結構。因此,Rasch評分量表模型(RSM)比二元數據模型多了一個特點:除了報告每個試題的難度閾值估計值和人的估計值外,還提供了一個適用於該量表所有試題的評分閾值結構。對於任何一個數據收集工具,由於所有項目的反應類別都標有相同的標籤,因此可以推斷反應類別的大小是相同的,即在難度閾值之間的差異方面是相同的。這意味著,難度閾值的相對間距是反應格式的一個特徵,而不是任何特定項目的特徵。

在圖 6.1 中,我們以虛構的焦慮量表為例,呈現了五個Likert題目和五位受測者的位置,實際上是從一個更大的題目和受測者樣本中選擇的。當然,我們使用了先前介紹的路徑比喻,因此Rasch分析解釋的原則將與之前相同。實際上,在繼續閱讀之前,請花幾分鐘嘗試解釋圖6.1中的題目和受測者的關鍵屬性。關鍵創新是新的題目標籤:1.1 = 題目1,門檻1;1.2 = 題目1,門檻2,等等。

人物位置表示他們在回答中所表現的焦慮程度,如先前所示,用方塊表示。方塊的位置表示人物估計值(在本例中為焦慮程度),而誤差估計則顯示該位置的不精確度。很容易識別Tess是最焦慮的人,因為她在logit刻度上的位置最高。Ziggy被描繪成最不焦慮的人。雖然Vicky和Wayne的位置在人物估計值上可能不同,但相關誤差估計的大小意味著無法推斷這兩個人報告的焦慮水平之間存在任何實質上的差異。

然而,與二元數據相比,題目表示出的更複雜。對於二元數據,每個題目在發展路徑上(和題目表中)被表示為具有單個項目估計值和相關誤差估計值。對於評分數據,每個項目不僅具有難度估計值,而且評分標準也具有一系列閾值。這是在觀察到特定回答類別(低於閾值)的概率超過觀察到下一個更高類別(高於閾值)的概率時所處的水平。

雖然在Likert態度量表上談論失敗和成功可能有些奇怪,但我們可以很容易地理解,例如未同意或更好的是未背書任何特定的回應類別是失敗的表現。同樣地,成功可以被解釋為同意或更好的是背書了特定的回應類別。對於我們用Likert量表收集的多項式數據,我們需要一些閾值來顯示從每個類別到下一個類別的進展,通過估計適用於量表上所有項目的一組閾值值來實現。 

因此,我們先前在二分類試題中所代表的是: 

展示了試題難度估計值如何指示二分法試題兩種可能反應類別之間的50:50機率閾值。在評分量表模型中,這現在表示為: 

圖6.1 範例的Likert量表的發展路徑

因為Likert量表上有四種可能的回應類別,所以需要三個閾值來分離它們。但更重要的是,Rasch等級尺度模型並不假定移動過每個閾值所需的步驟大小,而是在資料集中檢測Likert量表的閾值結構,然後估計一組適用於該量表中所有試題的回應類別閾值距離。

回到圖6.1,顯然任何一個試題的閾值(例如1.1、1.2、1.3)並不是等距分佈的。某些步驟(例如從閾值2到閾值3)所需的焦慮增加較小,而其他步驟(例如從閾值1到閾值2)所需的焦慮增加較大。然而,步驟結構(那些閾值在試題之間的模式)被固定為在Likert量表的每個試題中都是相同的。此外,我們也可以看到,試題的相對難度也像二元資料的例子一樣有所不同。例如,試題1比試題5更容易贊同。此外,我們現在可以看到,即使在試題3上回答SA,整體路徑上表示的焦慮程度也只是一個適度的數值,而在試題5上回答A,所表示的焦慮程度則超過試題3所能測量的範圍。

傳統的統計方法會預設所有的試題都是相同難度,且各個步驟之間的閾值距離是相等或具有相等價值的。但Rasch模型並不會有這樣的預設,圖6.1中呈現的步驟閾值位置也不證實這樣的傳統預設。首先,這些位置呈現出實際情況下,SD到A的焦慮增加程度比D到SA的增加程度小。其次,它顯示了試題本身也因焦慮程度的不同而有所不同。

因此,相較於傳統的“分配1,2,3,4然後相加”的方法,Rasch模型對於Likert量表資料的處理在直觀上更令人滿意,在數學上也更具可行性。Rasch模型明確地將SD D A SA以及其後的編碼1 2 3 4 視為有序類別,其中每個類別的值比前一個類別高,但增加的數量不是固定的,因此這些數據被視為順序(而不是間隔或比例)數據。

因此,在David Andrich(Andrich,1978a,1978b,1978c)和Earling Andersen(Andersen,1977)的研究中開發了Rasch評分量表模型,它顯示了試題結構的更細節。分析提供了每個Likert題幹的項目估計值,以及標誌四個Likert反應類別(SD D A SA)之間邊界的三個閾值的估計值。通過以這種方式分析數據,我們可以立即看到,這些試題在研究中的相對價值不同。只有符合模型要求的試題,即它們必須首先通過質量控制標準(對此的證據通常稱為評分量表“診斷”),才能將原始分數加總以得出人或項目的總分。

分析評分量表資料:自我評估態度問卷

以下是自我評估態度問卷 (IASQ) 的範例,展示了如何使用 Rasch 評分模型從 Likert 類型的試題中建構度量工具。IASQ (Yan, Brown, Lee, & Qiu, 2019) 是一份測量晚小學到初中年齡孩童的自我評估態度的問卷。該問卷共有 12 個試題,每個試題有四個有序回答選項(非常不同意,不同意,同意,非常同意)。本章節的 IASQ 分析和結果基於來自 29 所香港學校的 462 名四年級到九年級學生的回答。

圖 6.2 提供了答案的試題地圖,採用先前介紹的路徑比喻的格式。該圖表過於擁擠,因為它代表了每個 12 個 IASQ 試題的難度、誤差估計和項目擬合估計,而且為了說明目的,還表示了一些試題(#2、#3、#8 和#12)的三個閾值位置的模式。值得注意的是,通常在 Rasch 分析軟件程序(例如 Winsteps)的輸出中看到的試題-人員地圖版本僅聚焦於試題難度和人員能力估計的相對分布。這些地圖不包括項目擬合和人員擬合表示,就像我們的路徑圖一樣,其中 -2 / +2 虛線之間的路徑表示充分的擬合。

在本章節的這個時刻,我們提供了所有12個問題的圖表,以展示決定在隨後的分析中僅包括其中一些問題的基礎。仔細觀察圖6.2的細節,可以得出這樣的推論:其中一個問題似乎沒有揭示與其他問題所探索的相同的基本結構(態度)。它是哪一個問題?有哪些不足之處的證據?當我們通過一些基本診斷進行進一步探討時,我們將回到這個問題 - 這些基本診斷作為確定人員和試題是否符合模型要求的質量控制指標。 

試題排列順序

IASQ試題的圖表同樣提供了初步的證據,證明本章先前提出的一般規則是正確的,即態度或觀點的Likert類型試題可能會因其難度、可接受性或可贊同性而有所不同。使用圖表和表6.1中的試題名稱,這些學生比較容易贊同哪些IASQ試題?哪些試題比較難以贊同?如何在圖表上繪製三個試題閾值的位置,以提供證據支持不同的試題難度?

IASQ路徑(圖6.2)顯示,並且表6.2中的數值證實,試題12(預測我的未來表現)和3(提高我的學習興趣)是較難贊同的態度試題(在圖6.2和6.3的頂部)。IASQ試題2(幫助我了解自己的優點和缺點)、11(幫助我檢查我的進展是否符合成就目標)和10(是測量我從教學中學到多少的方法)是最容易贊同的。我們可以看到,“SD”類別(即第一個閾值以下,12.1、3.1等)當然更容易被大多數人所接受,對於同一項目的“SA”類別(即第三個閾值以上,12.3、3.3等),只有在態度更高的人才會贊同。在這個樣本中,只有態度最積極的學生(見圖6.4)才有可能對項目12(13名孩子高於+2.9 logits)做出“SA”回應(即第三個閾值以上:12.3),對試題3(42名孩子高於+2.3 logits)做出“SA”回應(即第三個閾值以上:3.3)。此外,對於試題2(幫助我了解自己的優點和缺點)做出“A”回應(即2.2以上)與對項目8(提高我的成績和成績)做出“D”回應一樣容易,即高於8.1。 

對於Likert類型的試題,Rasch分析的表格輸出比二元試題的表格輸出更加複雜。雖然我們希望看到每個試題都有一個難度估計值和標準誤,但我們還應該期望看到每個反應閾值的估計值和標準誤。在表6.2中,我們可以看到每個IASQ試題都有一個單獨的試題難度估計值和標準誤,以及三個閾值(Tau)難度估計值(和誤差估計)記錄。然而,與二元資料一樣,每個試題只包括一組(四個)適合度統計量。

這種詳細的閾值輸出對於我們理解調查變量非常有幫助,既能幫助我們了解Likert類型試題的結構,又能直接解釋任何人在特定位置的最可能反應每個試題的方式。 

圖6.2顯示所有12個IASQ試題(其中一些具有相關的閾值估計)的發展路徑表示 

表 6.1 IASQ 題目

表6.2 所有12個IASQ試題的試題與閾值估計(附適合度統計量) 

對於Likert型試題的評分量表分析,Rasch測量方法使用了上述所有信息來估算整體試題難度估計。簡化每個試題的三到五個分類閾值信息,並僅通過一個試題難度估計和一個誤差估計來概括信息,不是通過丟棄信息,而是通過將所有相關信息按其沿著試題量表的位置進行建模。

圖6.3使用試題估計而不是分類閾值估計來提供評分量表分析的項目-人員地圖。每個試題估計可以被視為該試題分類中的韻律分布的平衡點,當然,試題難度估計的變化顯示了試題相對於彼此以及在人員分佈的情況下的難度。對於多項式項目,Rasch整體試題難度通常根據最高和最低類別同等可能性的平衡點來設置(Wright&Masters,1981)。這在表6.2中得到了揭示,其中閾值位置顯示為-1.40logits、-0.33logits和+1.74logits;這些位置是相對於每個試題的位置(難度估計)的。

評分量表的Rasch項目輸出表通常包含兩個方面,其區分輸出與Rasch模型家族的其他成員生成的輸出不同:每個項目都有其整體項目難度的估計,而所有項目共享一個閾值結構(-1.40,-0.33和+1.74),這是所有項目都通用的。這在表6.2中是明顯的,因為為每個項目重複顯示相同的閾值結構值是多餘的,但這樣做是為了強調RSM的這一獨特特點。項目難度估計因項目而異,但Rasch分析的實證數據所建模的閾值結構對所有項目都是共通的。

圖6.3展示了從表6.2中顯示的整體試題難度(第一列),而圖6.4則結合了類別閾值估計(三個反應類別閾值的tau值),以顯示IASQ結果的試題/類別閾值結構。讀者可以確認在圖6.2(路徑)、6.3(人-試題)和6.4(反應閾值)中顯示的試題和閾值值實際上是由Rasch分析生成並顯示在表6.2中的。當然,圖6.3和6.4中的試題-人員映射不顯示圖6.2或表6.2中顯示的適合度信息。 

圖6.3 IASQ的試題-人或Wright圖。 

目標對準度和信度

我們應該注意到,從二分到多分的Rasch模型轉變應該促使我們重新考慮哪些人的樣本才能適合進行評分量表分析。如常,我們需要一個樣本,該樣本足夠多樣化以確保所有項目的所有反應選項都會被使用。然而,考慮到一個典型的Likert量表可能有四個反應選項(例如,SD D A SA),而不是只有兩個(✓或X),我們需要比例上更多的參與者,以達到每個反應機會的相同數量。應該記住,估計的精度取決於統計信息的量。當40個人在二分項目上產生25個✓和15個X反應時,這些相同的40個人可能會在Likert格式的項目上產生9個SD、11個D、12個A和8個SA的反應。

直接結果是每個項目閾值的測量精度(即更大的誤差估計),因為40個反應分散在四個反應類別中,導致數據稀疏。但是人的估計將更精確,因為任何給定的多分項目數量都會提供比相同數量的二分反應更多的統計信息。

在圖6.3中,我們可以看出IASQ的目標對象的態度水平已經被現有版本的IASQ充分地實現,但仍不完美。學生的高端分佈(每個“#”代表三個學生,“.”代表一或兩個學生)繼續高於項目閾值的最高水平。同樣,學生分布的低端繼續低於項目閾值的最低水平。換句話說,一群學生的態度比我們用這組試題可以測量的更加積極,而另一群學生的態度比我們可以測量的更加消極。因此,這些學生的態度水平將無法被IASQ充分測量。因此,如果我們想要更精確地測量這些在態度頂部和底部的學生的人物估計值,我們需要在尺度的頂部和底部加上幾個更高(和更低)的態度水平的試題。然而,在圖6.4中,人物估計值的分布顯示在IASQ響應類別閾值的分布下,定位更好,但仍不完全。 

圖6.4 462名從四年級到九年級的學生樣本對IASQ反應閾值的估計值(閾值根據試題編號對齊)

摘要

對於 Likert 型態的數據進行傳統的統計總和,是基於先驗假設,即所有試題的難度都相等,且所有回答選項之間的距離相等。

對於多項數據而言,不是所有試題對潛在特質的貢獻相同。

每個試題都有其自己的 Rasch 難度估計值,而所有試題都共享一個閾值結構,這對於所有試題都是相同的。

定位和信度是交織在一起的,因為位於試題集之上或之下的人會有較大的誤差估計值(SEs),該試題集中的人數較少的試題也會有較大的估計值。

較大的 SEs 會導致較低的信度。因此,我們需要將試題的難度與受測者的能力匹配,以獲得最大的測量信息。

定位可以通過視覺方式(Wright 地圖)和統計方式(人和試題分佈的平均值和標準差)進行檢查。

試題和人員適合度統計數據表明,我們的數據不符合基礎測量。就定位而言,適合度指標提供了質量控制和測量改進的信息。