國中基本學力測驗量尺分數問題之探討
撰文◎陳明(補教名師)
、前言
國中基本學力測驗(以下簡稱基測)是教育部於民國90年起開始實施的一套標準化測驗,其目的是要評量國中學生在各學科上的基本能力,來作為學生申請進入高中、高職或五專的依據。亦由於原本是「標準參照測驗」的性質卻被當作「常模參照測驗」來使用,導致每一年隨著基測的登場,總會引起一些批評及檢討的聲浪,但一直以來總是雷聲大雨點小,最後不了了之。不過今年(民國96年)對於基測的批評聲浪卻居高不下,甚至已影響到整個制度的存在價值問題。究其原因在於這一波的批評聲浪中,有中研院的學者以歷年基測實證資料為基礎,對於國中基本學力測驗量尺及等化程序的缺失提出嚴厲批判,並引發了社會大眾對於基本學力測驗實施及量尺分數諸多疑問。爰此,前一篇文章針對基本學力測驗之理論基礎暨意涵提出說明,且分析其實施至今所引發之爭議。
  本文將以測驗角度來看現今國中基本學力測驗所面臨的相關問題,特別是基本學力測驗量尺分數的意義與建立等方向來闡述,最後以前述中研院學者林妙香(2005)對基測量尺分數疑慮作一歸納整理,期望投考教育類相關研究所考生們在準備國中基測議題時,能對基本學力測驗量尺分數有更深的瞭解。以下分別就國中基測量尺分數的內涵及所存在問題分別敘述之。

、國中基本學力測驗量尺分數的內涵
瞭解我國國中基本學力測驗量尺分數之內涵:
心理測驗的目的與分數的意義。
測量標準誤的意義與國中基本學力測驗分數之關係。
國中基本學力測驗分數每科總分60分之由來。
國中基測分數與傳統聯考之差異。
依研究分析,國民中學學生基本能力測驗,其主要特性有下列幾項(涂柏原、陳柏熹、章舜雯、林世華,2000):
標準化測驗。
客觀公平、可比較的。
考招分離─一年多試,一試多用。
能力導向的。
以「量尺分數」呈現測驗結果。
  尤其第五項特性「以『量尺分數』呈現測驗結果」是國中基測制度中的核心特色,但亦是一般社會大眾不甚瞭解及爭議問題之所在,將於以下加以敘述之。

國中基本學力測驗量尺分數的內涵
心理測量的目的與分數的意義:
心理測量的目的就是要評量個人或團體的心理特質(例如:成就、智力、性向……等),並且給予量化的數據(周文欽、歐滄和、許擇基、盧欽銘、金樹人、范德鑫等,1995),此一量化數值即為測驗分數,它代表個人或團體在該項心理特質上的高低程度。但由於測量的過程難免會受到一些外在因素的影響而產生誤差,例如:測驗的情境、受測者本身的情緒狀態……等。因此,測驗所得到的原始分數都是有誤差的。尤其在大型考試中,由於測驗的時間有限,難以針對每一種不同能力的人去設計適合他們能力的測驗,只能依據團體的平均能力來設計測驗(其人數佔團體人數的比例最多),所以對能力很高的以及能力很低的極端組的人來說,適合他們的題目較少,測量的誤差就更大。為了改善這一現象,必須將分數做一些轉換,使各個分數的測量誤差(SEM)儘量相同(如圖1所示)。

 
1 傳統原始分數與基本學力測驗分數之比較
取自:國中基本學力測驗工作推動委員會(2007)。國中基本學力測驗分數的建立意義與使用,頁2

以統計的觀點,每一個分數都有測量誤差,因此兩個人在測驗分數上的些微差距可能是誤差造成的。一般我們會以統計上是否有達到顯著的差異來說明兩個人的分數到底有沒有差異。
舉例而言,如果一個人的分數是50分,而測量誤差是3分,此時我們可以用503分來表示此人的能力範圍,也就是4753分之間。以常態分布的機率來看,此人能力介於4753分之間的機率約為68%(林清山,1992)。另外我們也可以用兩個標準差來作為判斷兩個人的分數是否有差異的依據,例如:當一個人的分數是56分,誤差也是3分,比前述50分的人多了兩倍的測量誤差,我們就有更高的信心(約為95%)認為此人的分數比前一個人高。而這樣的比較都是建立在各個分數的測量誤差是相同的基礎之下,這也就是傳統測驗理論的基本假設(王寶墉,1995)。
為使基測分數能夠具有統計上的實質意義,以避免用分數來進行分發或篩選學生時可能犯下的錯誤;又考慮到以兩個測量誤差來作為區分不同能力的依據會造成同分數的人太多,不利於分發或篩選學生,因此基測將所有的原始分數都經過轉換,調整成每個人分數的測量誤差都是3分。如此一來,在使用成績時就能清楚的知道每相差3分,受測者能力是不相同的機率都是68%左右。
為何要將分數定成160分:
基於上述的理由,受測者在測驗上的分數最好經過轉換,讓分數能夠有統計上與實用上的意義,如此在使用分數時比較不會有問題。而轉換的方式有許多種,一種是進行標準分數轉換,將所有的原始分數轉成標準分數,也就是所謂的Z分數,使整個群體的平均數變為0,標準差變為1,再根據需求轉成使用者所希望變成的量尺分數。例如:魏氏智力量表就是以這種方式轉成平均數為100,標準差為15的量尺分數(即Z15100);而美國教育測驗服務社(ETS)的TOEFLGRE等分數也是以這種方式轉成平均數為500,標準差為100的量尺分數(即Z100500)(賴保禎、周文欽、林世華,1996)。這樣轉換的好處是保留了原本分數的等級次序,並將群體分數標準化,如此當我們想要瞭解某人在群體中能力高低位置時,我們可以很容易的將此分數轉成百分等級分數,以瞭解個人在群體中的位置。但其缺點是不同分數的測量誤差都不相同,這將會增加分數比較時的複雜度。也就是說,對於同樣相差3分但能力不同的兩組人而言(5053100103),我們認為他們之間有差異可能會犯錯的機率是不同的。
另一種做法則是將測驗分數的測量誤差都調成相同。這種做法的好處是在進行分數的比較時,我們能夠對不同能力點的分數比較都具有相同的信心。也就是說,不論你的轉換後的分數是幾分,只要相差3分,兩個人之間能力是不相同的可能性都是68%(以轉換後的分數都是一個測量標準誤差為例)。而且這種轉換方式仍然保留了原始分數的等級次序特性,也就是分數高的人仍然比分數低的人能力強。但由於此分數不是Z分數,所以我們無法使用常態分布機率對照表來瞭解個人在整個群體中的相對位置,不過這個缺點可以經由另外建立一個對照表來克服(涂柏原、陳柏熹、章舜雯、林世華,2000)。
另外還有一種做法是採用試題反應理論的概念,先將題目難度(或包括鑑別度與猜測機率)、受試者能力與受測者對題目的答對率以一個指數函數來表示,再根據每個人在每個題目上的回答情況,直接估計題目的難度(或鑑別度與猜測機率)以及受測者的能力。用這種方法建立出來的量尺稱為洛基量尺(logit scale)或洛基分數(logit score)。使用者可以再根據自己需求對洛基分數作轉換,轉換的方式如同第一種方法中 Z 分數與GRE分數的轉換一般。這種做法的好處是將題目的難度與受試者的能力都放在同一個量尺上來看,可以幫助我們理解受測者能力與他在各個題目上答對率的關係,甚至可以預測他未來在其他不同難度題目上的答對率或分數,而且試題反應理論對測驗題目與受試者所做的一些基本假設也被認為是比傳統測驗的概念合理(Hambleton & Swaminathan, 1985)。但其缺點是估計的程序不容易讓人理解,而且每個人分數的測量誤差仍然不相同(對試題反應理論而言,這是可以被接受的)。
在考慮了基測的目的是要瞭解學生的基本能力,並且考慮在比較分數時,應儘量使每個測驗分數的測量誤差都相同的前提下,國中基測使用了第二種做法。根據測量誤差(SEM)與測驗信度(ρ)以及群體分數標準差(SD)的關係公式(如下所示,引自賴保禎、周文欽、林世華,1996):
SEMSD
以對未來基本學力測驗的信度估計而言,一份40題左右的測驗,其信度應該有0.85左右(尤其在知道題目特性的前提下,應該可以更高)。再採用Kelley(引自涂柏原、陳柏熹、章舜雯、林世華,2000)對測量標準誤差分數的建議,認為以3分為一個測量標準誤差單位較為理想,如此所計算出來的群體分數的標準差為7.75。再根據常態分布的機率來看,正負4個標準差就能涵蓋幾乎全部(99.99%)的人。因此,若要涵蓋所有的群體,量尺分數就必須要有62分(7.7542)。為了使用上的方便,我們單純的將量尺分數定成160分,這就是基本學力測驗每科分數的由來。
一般而言,國中基本學力測驗的量尺計分系統發展目標主要有下列4項(國中基本學力測驗工作推動委員會,2007):
統一各科分數的標準:過去的入學考試各個考科的滿分不同,當我們使用各考科分數相加作為甄選或分發的依據時,此加總所得的總分無形中已經被加權過了。例如:傳統高中聯考國文科滿分是200分,自然科、社會科是140分,數學科是120分,英語科是100分,在各科滿分不同的情況下,國文科、自然科與社會科表現較優異的學生,其總分將會比數學科或英語科表現較優異的學生來得高。如果還要再對各科進行加權的話,則各科在總分中所佔的比重相差可能會更大。為了降低這種不公平現象,基測使用相同的分數量尺,將每一科的分數定為160分,平均分數都是30分。
以答對題數來測量考生各科的基本學力,不依據題型來配分:過去許多的考試分數是以各種題型為配分依據,通常一題填充題的配分比一題選擇題或是非題的配分多;而問答題及作文的配分又比選擇題及填充題多,換言之,各科分數是將各個題目加權計分得來的,而加權的依據卻是題目型態。這種根據不同題目(型)來配分的方式並無客觀的依據,我們不應該直接認定考生答對問答題或填充題所需的能力要比選擇題來得多,因為選擇題所需要的能力可能是很複雜的分析或推理能力,而問答題所需要的能力也可以是很簡單的記憶能力。因此這種主觀的配分方式,並不十分公平。國中基本學力測驗並不對特定題目做加權,而是將各科答對題數做適當的轉換,形成另外一種標準分數的量尺型態。
使分數更能精確反映考生間的能力差異:基測的目的是要測出學生在經過國中三年學習後所應當具備的基礎的、核心的、重要的知識與能力,基測分數是用來作為全國高中、高職、五專篩選學生的依據之一。因此,測驗的編製與題目難度的分布也以能符合基測的精神以及大多數學校的需求為主。這也就是為什麼我們希望測驗題目的答對率最好在50%75%左右。由於基測中,適合能力中等學生之題目比適合能力很高或很低的學生來得多,對於中等程度學生的鑑別力會比其他程度的學生來得好。基測各科分數報告若用傳統的計分方式或答對題數來表示,當然也能反映考生的表現,但比較不能精確說出他們之間真正的能力差異。為了讓基測的分數更能反映出考生間的能力差異,我們採用適當的數學轉換,將靠近中間的量尺稍微加以壓縮,並將兩端的量尺稍微拉長開來,如此所得的分數量尺更能精確反映出考生間不同的能力差距。
等化兩次測驗分數:基測每年舉辦兩次,考生可從這兩次測驗中擇優參加登記分發入學,因此必須有一個共同的參照標準,使兩次測驗分數可以互相比較,而傳統的計分方式難以提供這樣的機制。目前基測的做法是利用每年參加第一次各科測驗的考生分數為常模,來建立各科答對題數與量尺分數的對照表。同年第二次測驗各科並不再重新計算量尺,而是透過測驗等化的機制,將第二次測驗各科的答對題數對應到依據第一次測驗結果所建立的參照標準上。兩次基本學力題本的難度雖然有些微差異,但是透過共同的參照標準,兩次測驗的分數是可以互相比較的。
基測分數與過去聯考分數不同之處:
由上述的分析,我們可以知道基測的分數與傳統考試的分數有相當大的不同點。主要可以從幾個方向來看(國中基本學力測驗工作推動委員會,2007):
單題分數的給定與分數的計算:在傳統的考試中,通常都會對每一類題目或每一題給定不同的配分,也就是答對該題就能獲得多少分數(通常問答題或計算題的配分較高)。但是在基測中,每個題目都沒有配分,因此並沒有配分的問題。這是因為我們很難說服人答對選擇題所需的能力一定比答對問答題所需的能力少。傳統考試中分數的計算是將答對的題目配分直接加總,形成受測者在此測驗上的分數。基本學力測驗則是根據受測者答對的題數來形成原始分數,再進行相等測量標準誤差的轉換,形成160分量尺分數。
分數的意義:傳統聯考的分數是經由事先給定的題目配分所建立出來的。而不同類型的題目或不同題目的配分給定的標準與理論根據較不明確。以此分數來代表一個人能力的高低誤差會稍大些,而且不同分數之間的測量誤差也不相同。基本學力測驗的分數是經由測驗專家根據統計上的實質意義所建立出來的,不但各分數點的測量誤差幾乎相等,分數也比較能夠反映出受測者真實的能力,使用該分數進行個體的比較或分發是比較有理論根據與實質意義的。

、關於基本學力測驗量尺分數的疑慮
瞭解我國國中基本學力測驗量尺分數之爭議:
考生的基測成績通知單的量尺分數的計算是正確的嗎?
各考科的160分的量尺分數代表對分發總分影響之影響力是一樣的嗎?
師大心測中心的等化程序是真正的IRT-等化程序嗎?
擇優政策是否不利於只報考第一次基測的考生?
師大心測中心真的有建構題庫嗎?
關於基本學力測驗的量尺分數,因林妙香的研究結論讓社會大眾對分數的制定與使用產生疑慮。其研究發現國中基測在其內部計算量尺分數的過程中,存在著一些不尋常的地方(林妙香,2005):
各類考科在計分過程中的最高分並非設定在60分,且各類科目在各個年度都不相同。
第二次測驗量尺並無等化(equating)步驟,只是單純進行分數連結(linking)。
  但如前述師大心測中心宣導其160分的量尺分數是反映均等測量標準誤量尺分數型態,是仿照 The ACT Assessment建立量尺的方法,具有分數精準特性。再者亦宣導其題庫裡是存放優良試題及正確試題參數資訊(試題難度),因此年度所需的前後二次學科試卷題本的平均難度是相近的。最後並宣稱其IRT-等化程序使兩次基測結果仍然是客觀、公平、可以互相比較。林妙香(2005)研究針對上述三方面的宣導文提出質疑:
考生的基測成績通知單的量尺分數的計算是正確的嗎?
各考科的160分的量尺分數代表對分發總分影響之影響力是一樣的嗎?
心測中心的等化程序是真正的IRT-等化程序嗎?
擇優政策是否不利於只報考第一次基測的考生?
心測中心真的有建構題庫嗎?
  針對上述問題有研究以歷年國中基測資料進行實證分析,提出以下分析(林妙香,2005):
考生基測成績通知單的量尺分數的計算是正確的嗎?
考生基測成績通知單160分的考科量尺分數是被「調整」過的,沒有按照公告所定的計分遊戲規則計算考科量尺分數,加入了莫名其妙的「調整」:有的考科量尺分數是以最高分64.34計算的,有的考科量尺分數是以最高分59.56計算的。如此一來,考生得到的量尺分數和正確算法(以最高分60計算)的量尺分數是不一樣的,產生加分或減分的效應。就五科量尺總分而言,加減分的範圍:〔4分至4分〕,〔11分至14分〕,〔9分至7分〕及〔4分至3分〕(9093年度依序範圍)。所以,考生基測成績通知單的量尺分數的計算是不正確的。
各考科的160分的量尺分數代表對分發總分影響之影響力是一樣的嗎?
心測中心160分的量尺分數設計只是檯面上的假像相同比重。均等條件測量標準誤量尺分數型態是藉量化函數s*尋求均等量尺分數的測量標準誤(SEM),而不是均等量尺分數標準差(SD),無法讓基測考科對量尺總分的比重是一樣的。況且,心測中心以不正確的測量標準誤計算160分的量尺分數,考科量尺分數標準差(SD)和正確算法的標準差也不一樣,產生上述量尺分數加減分效應。連帶地,影響量尺總分的分發名次變化,變化程度可造成考生分發至不同學校就讀,變化程度可造成公、私立學校分發之落差。所以各考科的160分的量尺分數代表對分發總分影響之影響力是不一樣的。
心測中心的等化程序是真正的IRT-等化程序嗎?
第二次基測與第一次基測IRT-θ值皆由題庫校準試題參數估計,可合併在同一個IRTθ-scale上一起比較。藉cubic spline將第二次基測θ值連結至第一次基測的量尺分數轉換表。此連結程序沒有達到等化所要求的對稱、反函數的概念;而是類似於迴歸函數的預測特質,雖保留題本內原始分數、能力值、量尺分數三者之間等第(rank)的一致性,但未必保留二題本原始分數之間的等同性。因而,第二次基測的量尺分數是大約對等值,而大約的範圍是幾分之差就不得而知。考生第二次量尺分數顯著的高平均值是反映整體學生真正進步現象?或是這顯著的高平均值來自等化程序的缺失?或是這顯著的高平均值來自人為加分動作?所以心測中心的等化程序是不是正確真正的IRT-等化程序。
擇優政策是否不利於只報考第一次基測的考生?
在第二次基測考完後(等化/擇優後),大部分未參加第二次基測考生的分發名次大大地往後掉。臺北分發區考生而言,往後掉的名次足足可達4,000名。本文發現心測中心公布的第二次基測量尺總分,重覆考生平均值以8.7分、0.1分、2.3分及5.0分高於第一次基測平均值。參加二次基測的考生有優勢的機會,以較佳的第二次基測成績作為分發成績。教育部應該將擇優好處、有利機制清楚地告知家長及考生,不應該為了避免造成「二次聯招」之批評,而不鼓勵考生參加第二次基測。所以擇優政策是不利於只報考第一次基測的考生。
心測中心真的有建構題庫嗎?
後者的質疑來源有二:其一,9093年度第一次基測試題是不符合Rasch model的試題特徵曲線;其二,就預試經驗來看,考生在預試時的作答動機不強,或故意亂答企圖影響試題參數,使題庫試題參數估計值無法正確估計正式考生前後二次基測的θ能力值,進而影響等化及量尺分數轉換正確度。說白一點,可以讓來源不精準的試題參數決定全國考生的入學命運嗎?
題庫是否有建構的質疑來自心測中心藉「調整」的方式來縮小滿分與錯一題的量尺分數差距。其實,只要題庫內有足夠數量的題目及精準試題參數,透過正弦反函數的不同比例轉換分數點的特性,由題庫選題組合適當難度的題本,就可縮小滿分與錯一題的量尺分數差距。題庫若有建構,充其量也是試題參數不精準的資料庫。

、結語
本文就測驗角度來看現今國中基本學力測驗所面臨的相關問題,特別是基本學力測驗量尺分數的意義與建立等方向來闡述,最後以林妙香(2005)的實證研究作一歸納分析,期望投考教育類相關研究所考生們準備國中基測議題時,能對基本學力測驗量尺分數有更深的瞭解。
  基測五學科的題數差異很大,建立均等條件測量標準誤的量尺分數,若題庫的參數不精確,阻礙從題庫中組合適當難度的題本時,勢必要調整量尺分數全距來縮小滿分與錯一題的量尺分數差距,然而這會造成不公平的計分,影響考生權益。教育部應該監督心測中心的題庫品質。試想自民國88年來,教育部每年花費至少8千萬建立題庫,應該派員或第三公正人士監督題庫品質,並督導量尺記分與等化的內部作業,不應該讓心測中心「裁判兼球員」。
  教育部誠實地面對基測成績是作為分發入學依據而不是作為門檻功用,應該以常模意義的量尺分數型態(scale with property of normative meaning)取代目前心測中心所用的量尺計分方式(林妙香,2005)。最後,考量基測公平層面,呼籲基測成績計算應該回歸「簡單、公平」的計分方式。林妙香(2005)建議:聯招讓考生痛苦,計分是公平;基測讓考生更痛苦,計分是不公平的。試問家長考生會選擇那一個,聯招或基測?



參考書目
王寶墉(1995)。現代測驗理論。臺北:心理。
林清山(1992)。心理與教育統計。臺北:東華。
林妙香(2005)。國中二次基測成績等化程序之探研。行政院國家科學委員會專題研究成果報告(編號:NSC 93-2511-S-001-001),未出版。
周文欽、歐滄和、許擇基、盧欽銘、金樹人、范德鑫(1995)。心理與教育測驗。臺北:心理。
涂柏原、陳柏熹、章舜雯、林世華(2000)。基本學力分數的建立。國中基本學力測驗推動工作委員會。(未出版)
賴保禎、周文欽、林世華(1996)。心理與教育測驗。國立臺灣空中大學。
國中基本學力測驗推動工作委員會(2007)。國中基本學力測驗分數的建立意義與使用。國中基本學力測驗推動工作委員會。(未出版)
Hambleton, R. K., & Swaminathan, H. (1985). Item Response TheoryPrinciples and Applications. Boston, MA: Kluwer Academic Publishers.

沒有留言:

張貼留言