香港公司

項目反應理論

9547 171

IRT理論(Item Response Theory)

目錄

  • 1 IRT理論概述
  • 2 項目反應理論的特點
  • 3 歷史發展
  • 4 數學模型
  • 5 爭論

IRT理論概述

  IRT理論即項目反應理論(Item Response Theory, IRT),又稱題目反應理論、潛在特質理論(Item Response Theory)是一系列心理統計學模型的總稱。IRT是用來分析考試成績或者問卷調查數據的數學模型。這些模型的目標是來確定的潛在心理特征(latent trait)是否可以通過測試題被反應出來,以及測試題和被測試者之間的互動關係。目前廣泛應用在心理和教育測量領域。

  項目反應理論的意義在於可以指導項目篩選和測驗編製。項目反應理論假設被試有一種“潛在特質”,潛在特質是在觀察分析測驗反應基礎上提出的一種統計構想,在測驗中,潛在特質一般是指潛在的能力,並經常用測驗總分作為這種潛力的估算。項目反應理論認為被試在測驗項目的反應和成績與他們的潛在特質有特殊的關係。通過項目反應理論建立的項目參數具有恆久性的特點,意味著不同測量量表的分數可以統一。項目反應理論通過項目反應曲線綜合各種項目分析的資料,使我們綜合直觀地看出項目難度、鑒別度等項目分析的特征,從而起到指導項目篩選和編製測驗比較分數等作用。

項目反應理論的特點

  (1)獨立性。 被試特質水平不依賴於被試樣本的代表性;被試水平參數不依賴於測驗項目組;項目特征參數不依賴於所測被試組的參數不變測驗項目組。

  (2)項目理論中被試水平和項目難度可以直接比較;

  (3)正視了測量誤差和項目性能是否與被試水平相關這一事實;

  (4)提供了電腦化自適應測驗這一策略;

  (5) 從計量學角度提出了自己的新觀點與新技術。

歷史發展

  IRT理論髮端於20世紀50年代,它同時被丹麥統計學家Georg Rasch和美國心理統計學家Frederic M. Lord在各自的國家發展起來。儘管採取的研究方法不同,但是他們的結果卻非常相似。

  F. Lord在1951年從普林斯頓大學畢業時的博士論文《A Theory of Test Scores》被認為是IRT理論的開端之作。在隨後的30年中他進入ETS工作不斷深入研究這個問題並且在1980年出版的《Applications of Item Response Theory to Practical Testing Problems》正式完善了整個IRT理論的框架。

  和Lord幾乎在同時,G. Rasch在丹麥政府的委托之下開始研究現代考試理論,他採用了和Lord截然不同的切入點,一開始的時候他稱之為潛在特征模型(latent trait model),卻發現了極為類似的結果

數學模型

  IRT模型:Image:IRT模型.jpg

  這個模型也叫做“3參數Normal-ogive模型”(3-parameter Normal-ogive model),簡稱為3PN,是由Lord 提出的。在實際應用中,人們出於數值處理的簡便,更傾向於使用“3參數Logistic模型(簡稱3PL模型,3-parameter Logistic model)[2],該模型的表達式如下:

  Image:3PL模型.jpg

  其中D為常數1.7

  根據這兩個模型所繪製出的曲線也叫做項目特征曲線(Item Characteristic Curve, ICC)。其意義在於描述出“成功解答某一特定考試項目的可能性”和“被測試者能力”(在函數中以θ表示)之間的關係。在以上的兩個模型中,共有3個參數:a,b和c。其中參數c一般被稱為“猜測參數”(guessing parameter)或者“偽猜測參數”(pseudo-guessing parameter)。在圖像上,c所代表的是ICC的下限,其直觀意義為:當一個被測試者的能力值非常低(比如接近負無窮),但是他仍然能夠有可能做對這道題目的概率c就是他猜測的能力。

  b叫做項目難度參數,也稱為項目難度

(item difficulty)。b一般表示在ICC圖像最陡的那一點所對應的θ值。對於下限為0的ICC函數來說,b所對應的是概率為0.5的測試者能力值。改變b會導致ICC的左右移動,但是不改變其形狀。當b值增加,會使ICC曲線向右移動(θ值高的的方向),這會引起在即使θ保持不變,但是答題正確率下降,亦即題目難度增加。反之當b值減小,ICC曲線向左移動。題目難度降低。

  a叫做區分度參數或項目區分度(item discrimination)。在數學上,a的值是ICC曲線拐點處的斜率,即斜率的最大值。在這一點上,能力值微小的改變會造成最大的P值(回答正確率)變動。所以a體現的是該項目的最大區分度。

  Image:图22.jpg

  而Rasch提出的模型:Image:Rasch的模型.png

爭論

  雖然Rasch和Lord在幾乎同時獨立地提出了各自的模型。並且這兩個模型現在都被廣泛認為是IRT模型的基礎。但是在心理統計學家社群內許多年來一直存在著Rasch模型的篤信者和其餘心理統計學家的爭論。主流的IRT學者認為Rasch模型只不過是3PN模型的一個特例,即在3PN模型中,參數c和a都為0的情況。而Rasch派學者則認為只有Rasch模型是完全不同的模型,真正體現了“測量”的定義,因為在模型成立的時候,θ和b分別是“回答正確的題數”以及“對某一特定題目的正確率”的充分統計量

,其簡潔性也優於其他模型。

  但是在面對不同區分度的測試項目時,Rasch模型中並沒有相應的參數,所以無法做出區分。事實上對於Rasch派學者來說,他們認為所有的項目區分度都是一樣的。對於主流IRT學者,常見的做法是用別的模型擬合數據,Rasch派學者的方法是把所有不能擬合Rasch模型的測試項目全部拋棄。簡而言之,主流IRT學者的做法是“用模型擬合數據”,對於Rasch派學者來說,他們選擇“用數據配合模型”,是爭論的主要原因。

  至今,Rasch派學者雖然在人數上是學界的少數派,但是他們仍然在考試測量領域以及跨國比較教育研究領域發揮著巨大的影響力。