社區心理學實務平台: 《『社區科學』的過去．現在．未來》專輯(IX)：「方案評估」和『科學』之間的關係─「評估」的歷史演進、「方案評估」的定義/目的/哲學觀/邏輯、「結果」和「影響」評估的區別與實例、「獲得結果」(GTO)的責信

2025年6月26日星期四

《『社區科學』的過去．現在．未來》專輯(IX)：「方案評估」和『科學』之間的關係─「評估」的歷史演進、「方案評估」的定義/目的/哲學觀/邏輯、「結果」和「影響」評估的區別與實例、「獲得結果」(GTO)的責信

作者：周才忠 (日期：2025/6/26)

「評估」的概念已經存在了悠久的歷史先例。遠在西元前2000年開始，中國人就為他們的文官建立一套大型的職能評估系統。《聖經·舊約》中的《但以理書》也以教育「方案評估」的故事做開頭。「評估」一詞的定義也會隨著其實施的“脈絡”而有所差異，目前有多達60個相關術語，而沒有一個確切的統一含意。美國社會方案和政策科學研究的創始人之一-卡洛·魏斯曾說過一句名言：「本世紀最吸引人的想法之一，是科學能夠為社會問題提供解決方案」。『科學』和「方案評估」之間有重疊(*交集)的關係，而且有充分的理由認為「評估」是屬於「科學性」的。因此，本文介紹的主題，包括「評估」的歷史演進、「評估」與「方案評估」的定義、「方案評估」和『科學』之間的關係、「方案評估」的目的/概念分支(*評估理論樹)/『科學』哲學觀/研究方法與應用趨勢、「方案評估」的邏輯模式、基於「結果」的「評估」作法、「結果」和「影響」評估的區別與實例、「效能」和「功效」的區別、「獲得結果」(GTO)的責信方向等內容。能夠鑑往知來，就可以避免許多錯誤或推知未來的變化，尤其現今正值「人工智慧」(AI)掀起了「運算革命」的新潮流，更有利我們邁向「成果導向」的責信新時代。

「評估」的歷史演進

「評估」(Evaluation)的概念，已經存在了悠久的歷史先例，也有各種定義：一些人將其視為測試，另一些人視其為描述、文件檔案，甚至是管理。今天的專業「評估」人員站在更早的實務者的肩膀上，儘管他們並不一定將自己的工作稱為「評估」。事實上，遠在西元前2000年，中國人就為他們的文官建立一套大型的「能力試驗」(Proficiency Testing, PT)系統，每三年「評估」一次。《聖經·舊約》中的《但以理書》以教育「方案評估」的故事做開頭，巴比倫的尼布甲尼撒王在攻占耶路撒冷後，為希伯來青年設立了為期三年的公務員培訓計畫。當但以理反對食用國王的肉和酒時，方案主管-梅爾扎爾同意進行一項實驗比較，以「評估」食用猶太潔食(kosher diet)會如何影響但以理和他的朋友哈拿尼雅、米沙利和亞撒利雅的「面容」(countenance)。預試期間結束後，他們依然保持健康，梅爾札爾同意為那些不食用巴比倫飲食的人提供永久性的改變，這是最早利用「評估」結果來改變方案設計的記錄(Patton, 1997; Frechtling et al., 2010)。

「評估」成為一種成熟的社會制度，其現代根源可以追溯到16世紀的法國。18世紀至19世紀，法國人持續發表關於「評估」的著作，包括與數量(度量衡)和品質相關的「評估」。然而，其範圍遠不止於此。對這些早期法國「評估」出版物進行合理的評定，可以發現它們主要關注貨幣、度量衡以及宮廷事務。換句話說，它們涵蓋了經濟、『科學』和政治/政策方面。因此，經過進一步研究，我們有充分的理由認為，「評估」及其在『科學』中的應用，其目前的形式，源自於大約1600年至1800年以後的法國(Fear, 2020)。

1792年，英國劍橋大學『化學』和『自然哲學』教授-威廉·法裡什最早使用「量化標記」(Quantitative mark)來評估學生的表現(Hoskins, 1968)。「量化標記」使得對考生進行客觀排名、計算平均分數和加總分數成為可能。此外，「量化標記」在歷史上對「方案評估」學科的成就至關重要，原因有二：(1)它是『心理計量學』(Psychometrics)發展的第一步；(2)其題目旨在衡量各學科領域中的實際技術能力，並逐漸取代了旨在評定修辭風格的題目(Madaus & O’Dyer, 1999)。在此期間，英國透過「評估」進行了教育改革。例如，波伊斯委員會(Powis Commission)建議將學生在閱讀、拼字、寫作和算術方面的表現作為教師薪資的標準。對學生的學業進行年度「評估」也並不罕見(Madaus & Kellaghan, 1982)(轉引自Hogan, 2007)。

美國最早的正式「評估」方法出現在1815年，當時陸軍制定了一套「製造商統一條例」政策系統(Smith, 1987)。這些政策制定了標準化的生產流程，確保所有軍火供應商在材料、生產技術、檢驗和產品規格方面保持一致。美國首次正式「教育評估」於1845年在麻州波士頓進行。波士頓教育系統使用各科的印刷試卷來評估學生成績。州教育委員會秘書Horace Mann希望對學生成績進行全面性「評估」，以評鑑大型學校體系的品質。根據Stufflebeam、Madaus和Kellaghan(2000)的說法，這一事件是「評估」歷史上的一個重要時刻，因為它開創了使用學生考試成績作為評鑑學校或教學方案「功效」(effectiveness)的主要來源的悠久傳統(轉引自Hogan, 2007)。

發展到1900年代，英語出版物的數量和範圍都有很大的增長，遍布一系列主題，尤其是與“藝術”以及「教育評鑑」有關。「評估」一詞的近代史，在很大程度上可以追溯到1933年至1936年美國「羅斯福新政」時期。例如，在1920年至1940年之間，我們開始看到美國關於「社會安全」，尤其是「教育」，“公共政策”(框架較為寬泛)和其他領域的第一個可識別的現代「評估」。在此期間，在「教育」中，「評估」似乎主要是可以識別的，但不是完全可識別出來的。在1940年至1950年之間，「評估」似乎都在包括藝術在內的許多領域中建立良好和蓬勃發展(Fear, 2020)。

1950年至1960年代，「評估」的職權範圍似乎有所擴大，並確立為一個擁有獨立部門的國家機制。這種情況並非在美國出現，而是在印度，始於1952年成立的「方案評估」組織。這似乎是最早使用「方案評估」一詞的例子之一，儘管並非唯一，或許也是第一個專門用於此目的的[現代]政府機構。值得注意的是，大約在同一時期(1955年)，美國國防部在寮國設立了一個秘密的準軍事機構─「方案評估辦公室」。此外，在1957/1958年，美國海軍特別計畫辦公室開發並建立了「方案評估」與審查技術(Fear, 2020)。此外，美國詹森總統主政時期推動一項由聯邦政府資助的『大社會』(Great Society)計劃，其中最為人熟知的是「向貧窮宣戰」(War on Poverty)倡議，這些包括學前的教育措施，例如「啟蒙方案」(Head Start)。這些政策下所擬定的社會方案也有諸多的「評估」需求，隨之而來的「方案評估」種種立法要求，其標誌著「評估」數量增長的轉折點(Shadish et al., 1991)。

在後一時期，「評估」的使用很普遍，其對象多種多樣，從導彈測試中的統計技術、資訊安全管理系統(ISMS)、電子穩定控制系統(ESP)、法律和文學作品等。「評估」在民主和『社會科學』中的作用也備受關注。從1960年代起，「評估」不僅得到了廣泛的應用，而且在「政策」領域也呈現出爆炸性成長(Fear, 2020)。1975年，美國國會通過《社區心理衛生中心修正案》 (P.L.94-63) ，以更進一步釐清社區心理衛生中心的定義，強調須對所有社區民眾提供綜合性與可利用性的服務，並且特別要求社區心理衛生中心去「評估」服務方案的需求與實施成效(Warheit, Holzer & Robbins, 1979)。因此，「方案評估」開始成為社區心理衛生中心的重要工作之一(Solomon & Bernstein, 1985)，國家心理衛生研究院(NIMH)亦擬訂出『社區心理衛生中心方案評估指導綱要』，以供各中心實務應用之參考(Hargroves & DeLay, 1979)(轉引自許耕榮等人，2004)。

※圖片來源：www.freepik.com

1970年代，「評估」開始利用新興的大型資料庫來描述『科學』活動。1990年代，「人工智慧」(AI)結合『認知科學』領域發展出「人工神經網路」。約莫2000年後，更進展到具備「深度學習」功能，如臉部與表情辨識。接續2010年，這股AI新潮流搭上「巨量資料科學」(Big Data)的子彈列車，研發出現代情感語意分析、大型語言模組(LLM)等。2022年10月由美國一家開放人工智慧研究實驗室(OpenAI)，開發出來的聊天機器人程式─「ChatGPT」，它可以透過與使用者的巧妙對話，提供更廣泛的常識以及能客製化準確地解決疑難問題。這股方興未艾的「運算革命」(Computing revolution)的新潮流，對於「方案評估」的實務上，有何重要角色與相對影響呢？總括來說，就是改變了“遊戲規則”(周才忠，2024)。

「評估」與「方案評估」的定義

據「評估」創始人之一的英裔澳洲博學者和學術哲學家-邁克爾·斯克里文(1928-2023年)指出，有近60種不同的「評估」術語適用於一種或另一種情況。這些包括判決、評價、分析、評定、批評、檢視、評分、審查、判斷、評級、排名、回顧、得分、研究、測試等。雖然所有這些術語可能看起來令人困惑，但斯克里文認為「評估」一詞的各種用法「不僅反映了評估過程在現實生活中的巨大重要性，而且反映了一個新的研究領域的爆炸性」(Patton, 2000)(轉引自Fitzpatrick et al., 2004)。

1994年，「美國教育評鑑標準聯合委員會」(JCSEE)則提出一項綜合性的定義：「評估」是“對一個事物的價值或優點進行系統性的調查”。此定義的核心是使用「評估」來達到某種目的。因此，應根據與行動相關的原因進行評估，其結果所提供的資訊應有助於一些具體的行動方案(Frechtling et al., 2010)。

「方案評估」(Program evaluation)被定義為「描述和解釋政策和方案的運作、效果、理由和社會影響的系統性探究」(Mark et al., 2000)；「…系統地收集有關方案活動、特徵和結果的信息，以便對方案做出判斷、提高方案功效和/或為未來方案決策提供資訊」(Patton, 1997)。

「方案評估」是一種制度。簡而言之，它是一種既定的行為模式，包括思考、感受和行動，以及隨之而來的一套信念和價值(DiMaggio & Powell, 1991; Gerth & Mills, 1953; Judd, 1936; Scott, 2004)(轉引自Fear, 2020)。

Fear(2020)特別強調，「評估」是指基於價值觀的判斷，「評估」源自於某種政策的介入措施或方案的優點和/或價值和/或意義。介入措施或方案旨在為一群人(即被評估者)帶來某種有益的改變。「評估」並不侷限於任何特定的學科、專業或實務領域，因此它既有些獨特，又具有滲透性。與所有制度一樣，它極易受到潮流和趨勢的影響。目前的趨勢之一是試圖將「評估」重新定義為『評估科學』(Evaluation Science)。

《評鑑百科全書》也認為「評估」的定義是一種應用探究過程，旨在收集和整合證據，最終得出關於方案、產品、人員、政策、提案或計劃的現狀、價值、優點、意義或品質的結論。「評估」的結論既包含實徵性層面(即某事物的現狀)，也包含規範性層面(即對事物價值的判斷)。正是價值特徵將「評估」與其他類型的探究(例如「基礎科學研究」、『臨床流行病學』、「調查報導」或「民意調查」)區分開來(Fournier, 2005)。

「方案評估」和『科學』之間的關係

從根本上講，『科學』，甚至所有其他學科，其根本目的在於分離「對象」(objects)/「現象」，並在一個清晰的概念框架內描述和解釋它們及其被知覺的意義。為了描述和解釋「對象」，科學依賴「批判性評估」(Critical evaluation)(Kantor, 1919)。「批判性評估」既運用一套預先定義且清楚表達的價值觀，也運用一套旨在限制與評價「對象」無直接關係的價值觀和價值觀集的影響的流程和方法。『科學』的角色是根據一個明確的概念框架，運用以公認的價值和方法為中介的「批判性評估」過程，賦予「對象」意義。『科學』力求限制「評估」中的情緒影響，並確保在共同的界線內管理對「對象」的理解。態度和價值觀是預先決定的、一致的和已知的。對「對象」的持續「批判性評估」建構了代表條件、「現象」和「對象」的知識結構。任何事物都可以被視為「對象」，這些區別只是為了簡化和清晰起見而接受與約定的術語(轉引自Fear, 2020)。

此外，『科學』非常關注變化。它關注「對象」如何相互作用並帶來變化，關注「對象」如何透過刻意介入而改變，關注「對象」如何隨著時間的推移而自行變化等等。「評估」，更確切地說是「批判性評估」，無疑是『科學』的主要產物，這一點得到了廣泛的認可。「科學方法論」(Scientific methodology)旨在約束和管理自動化評估過程的影響，並使其受到一定程度的控制。一系列的專業知識、方法、構念、「對象」和價值觀被運用，而價值觀、意義和「對象」在學科內部和學科之間也各不相同。從這個意義上講，我們可以認為「評估」是跨學科的，因為所有學科，而不僅僅是『科學』，都運用「評估」(Fear, 2020)。

關於「評估」，我們有充分的理由認為「評估」是『科學』的，尤其是在社會變革是由價值觀驅動並建構於這些價值觀之上的情況下，而這些價值觀通常根植於情感和堅定的信念。如果我們更仔細地回顧「評估」的歷史，就會發現這正是長期以來人們所做的努力：確保「評估」的「科學性」(即運用「科學方法論」，而且並不排除「質性」方法)。關於『科學』界對「評估」在『科學』中的作用的理解，Zuckerman和Merton(1971)指出，雖然『科學』取決於參與「評估」過程的地位裁判，但該過程本身並不能免於被「評估」(轉引自Fear, 2020)。

『科學』和「方案評估」之間的關係，如上圖所示。『科學』的主要目標之一是證明某事會導致其他某事，並能夠令人信服地排除其他解釋。另一方面，「方案評估」的目標是為決策者提供有關服務的可理解與有用的資訊；儘管這些資訊可能不如實驗室實驗提供的結論性(conclusive)和決定性(definitive)，我們正在用確定性(certainty)來增加相關性，並希望能使用。上圖中，存在重疊(*交集)的部分，這種重疊與儘可能減少不確定性有關。具體ˇ來說，我們確實需要關注有效和可靠的測量儀器，以儘量減少以人為方式做出反應的壓力。『科學』和「方案評估」的另一共同點是，透過能夠將人們的行為與其他一些行為進行比較，通常有助於得出結論。這種「其他行為」可能是不同人群、人們自己在不同時間點的行為，或者標準化問卷或測量工具提供常模的人(Speer, 1998)。

「方案評估」的目的、概念分支、『科學』哲學觀、研究方法與應用趨勢

「方案評估」的目的

我們進行「評估」的目的是什麼？據Chelimsky和Shadish(1997)指出，至少包括以下內容：

衡量與說明公共政策或方案的成果(results)。
確定方案、計劃及其組成部分的流程之「效率」(Efficiency)。
對社會和其他公共問題，以及過去和現在解決這些問題的努力，獲得解釋性見解。
瞭解組織如何學習。
強化制度並提高管理績效。
提升機構對公眾的回應能力。
透過「評估」相關資訊的自由流動來改革政府。
擴大對地方或全國性介入措施的結果和「效率」衡量，以減少貧窮和飢餓或扭轉環境退化(Environmental degradation)模式。

以上所有這些目的顯然是進行「評估」的合法和有價值的理由，但它們在解決的問題與回答這些問題的方法方面有所不同。例如，考慮上面提到的第一個目的：衡量和解釋成果的「評估」工作。無論這些成果是地方性的、全國性的還是全球性的，「評估」者都面臨著一個問題，即特定介入措施是否導致了特定的成果，或者(換一種說法)觀察到的變化是否能歸因於介入措施。這種因果關係問題通常需要方法來解決，允許將發現結果或估計值與介入措施儘可能密切和確鑿地連結起來。這種方法的一個例子是「隨機對照臨床試驗」，通常用於衡量醫療介入的「功效」。另一方面，出於上述其他目的─例如加強、改善機構績效或幫助管理階層思考他們的規劃、「評估」和彙報任務。上述其他目的涉及更大的理解，無論是關於公共政策面臨的問題背後是什麼。這些尋求知識的「評估」作法，通常「改變了社會議題和方案的框架方式；它們改變了對某種型別的方案可能產生的現實主義水準；或者它們促進了對方案如何運作的類化性」。與一般的『科學』研究一樣，努力獲得這種解釋性見解需要強大的設計和方法，通常涉及「量化」和「質性」方法，以及高階的實質性和「方法論」相關專業知識(Chelimsky & Shadish, 1997)。

社區心理衛生中心做「方案評估」的目的何在(陳嘉鳳，2004)？

因為上級的要求，好做為資源分配的依據──這種追求責信的作為往往忽略了工作人員在資源不足的狀況下，要提供最需要的服務所經驗的挫折。因此很容易引發工作人員對於「評估」的恐懼與排斥。
因為自己想要知道提供的服務是不是有效？有什麼可以改進與發展的部分？──這種追求比較有可能慢慢建立起專業的能力與自主性。
對服務對象的責信──這種追求是服務的最底線要求。
因為一些不當的動機，例如收集「評估」資料主要想做為公關或行銷的工具。以便獲取更多的資源。

為了達成不同的目的，工作人員往往就可以採取不同的「評估」策略

「方案評估」的概念分支

2004年，美國加州大學洛杉磯分校教育學榮譽教授-馬爾文·阿爾金首先提出「評估理論樹」(Evaluation theory tree)(如上圖所示)，其直觀地描繪了「評估」的『哲學』基礎和受這些想法影響的不同工作分支的觀點。該樹提供了一種對各種理論進行分組的方法，這些理論由一組特定和有限的學者群來撰寫，這些理論圍繞「評估」理論的三個基本重點進行分組：使用(Use)、方法(Methods)和估值(Valuing)(Alkin & Christie, 2023)。

樹木會生長和變化，這是「理論樹」的最新版本，與先前的有所不同。值得注意的是，此圖示的主要目標並非在描述「評估」實務的增長和發展；相反，重點是將概念轉化為實踐。其使用「理論樹」來展示一系列的]實務，從而提供簡要的描述作為相關實務討論的「脈絡」方法。另外，這個最新版本還呈現了一組擴充套件的理論，特別是那些聚焦於樹的「估值」維度的理論，它們在「評估」中更直接地涉及「正義」和「文化」議題的理論(Alkin & Christie, 2023)。

「評估」的三個根源─「社會責信」、「系統性社會探究」和「知識論」，支撐起肢體的「評估」實務；每個根源都對「評估」產生了重要影響，並以不同但相關的方式支持了該領域概念工作的發展。它們是「評估」的原因。「社會責信」是「評估」的重要動機，特別是對於政府部門資助的方案。我們認為「社會責信」不是一種限制性活動，而是改善方案和社會的手段。第二個根源「系統性社會探究」，其源於對採用一套有條不紊和合理的程序來確定「責信」的擔憂。「責信」為「評估」提供了理由，而「評估」模式主要源於「社會探究」。最後，第三個根源「知識論」，是處理知識的本質和「效度」(或限制性)的『哲學』領域。基於「知識論」論證的關鍵「評估」問題，包括價值主張的合法性、普遍性主張的本質、真理(或事實)就是我們所創造的觀點(Alkin & Christie, 2023)。

「評估」的「知識論」相關討論，通常借鑑「後實證主義」、「建構主義」或「實用主義」的三個思維領域。因此，這些典範的基本公理為理解『科學哲學』理論對「評估」理論的影響提供了一個更廣泛的框架。重要的是，一些「評估」理論是由『哲學』理論更精確地塑造的，而在其他理論中，只能檢測到理論的暗流。「知識論」對「評估」理論起著更普遍的重要影響，儘管程度有所不同(Alkin & Christie, 2023)。而「後實證主義」、「建構主義」和「實用主義」也是『社區心理學』強調的「科學哲學觀」(Kloos et al., 2021)。

「方案評估」的邏輯模式

「邏輯」(logic)一詞有多種定義。作為『哲學』的一個分支，學者們畢生致力於其實踐。作為一種結構化的「推理」方法，『數學』家依靠它來證明。在「機器」的世界裡，「電腦」唯一能理解的語言是程式設計師的「邏輯」(Milstein & Chapel, n.d.)。

然而，還有另一層意義更貼近「社區變革」的核心：事物運作的「邏輯」。例如，想想尖峰時段交通移動的「邏輯」。沒有人計劃它，也沒有人控制它。然而，透過經驗和對反覆出現的「模式」的覺察，我們理解了它，並且在許多情況下能夠成功地避免它的問題(例如共乘、選擇替代路線等)。這裡所說的「邏輯」指的是「元素之間以及元素與整體之間的關係」。我們所有人都擁有在複雜現象中洞察「模式」的強大能力。我們觀察運作的系統，並在其中發現內在的「邏輯」，一套支配行為的規則或關係。單獨工作時，我們通常能夠辨別出一個簡單系統的「邏輯」。透過團隊合作，必要時可以持續進行，幾乎任何過去或現在的系統，其「邏輯」都是我們無法解讀的(Milstein & Chapel, n.d.)。

另一方面，我們也能將「邏輯」投射到未來。憑藉對「脈絡」和「因果關係」的理解，我們可以建構「邏輯」上的『變革理論』，即關於事物如何自行發展或在計劃性介入的影響下如何發展的假設。與所有預測一樣，這些假設的有效性取決於背後的「邏輯」。天馬行空的假設、拙劣的推理和模糊的思維，都增加了即使我們付出努力，未來也可能與我們預期或希望的結果不同的可能性。此外，一些在外行人看來出乎意料的事件，對於長期居住和細心觀察的人來說，可能並不令人意外。因此，「邏輯」建模者面臨的挑戰，是找到並準確地表達那些最暸解「社區變革」如何發生的人的智慧(Milstein & Chapel, n.d.)。

方案的「化學表徵」，有時被稱為方案「邏輯模式」(Logic models)，多年來一直被用來闡明方案的目的及其所基於的因果假設。其在「方案評估」中被廣泛使用，每個「評估」方案也有通用或特定的「邏輯模式」。此外，一些概念指南和導航輔助工具已在社會行動和「方案評估」領域發展(Rush & Ogborne, 1991)。

儘管目前「邏輯模式」備受矚目，但其歷史可以追溯到1960年代初期。Suchman(1962)提出的建構「目標層級結構」的建議，在評估人員面臨大量短期和長期目標時尤為有效，並有助於方案管理者和「評估」人員明確他們對方案「因果關係」的假設。Weiss(1972)建議使用一個模式，其能夠詳細闡述方案的假設，她認為模式中的要素類似於「路徑分析」(Path analysis)中的路徑。第一本使用「邏輯模式」一詞的出版物，通常被引用為Wholey(1979)的《評估：承諾與績效》(轉引自Rush & Ogborne, 1991; Taylor-Powell & Henert, 2008)。

Bennett的「層級」理論，即《七個證據層次》(1976)在「合作推廣」(Cooperative Extension)界廣為人知，是當今「邏輯模式」的先驅。Bennett(1979)的方案「事件鏈」(chain of events)模式，也有助於「評估」人員建構可行的方案視角，並確定不同「評估」層級所需的資料類型。我們在許多領域都能看到「邏輯模式」思維的先例和足跡：公私部門、非營利組織(NPO)、國際領域以及「評估」領域(轉引自Rush & Ogborne, 1991; Taylor-Powell & Henert, 2008)。

Wholey(1977)提出了一個方案模式，用於「評估」初始規劃階段的「可評估性評估」。當「可評估性評估」本身成為「評估」工具時，他的工作得到了進一步發展(Wholey, 1983)。他的模式包含兩個主要元素：(1)方案組件部分；(2)目標和效果(如上圖所示)。「組件」部分被視為活動或活動集合，它們可以在概念或管理上組合在一起，對方案目標有直接影響，並旨在實現方案目標。在該模式的圖形中，「組件」部分以水平線形式顯示在頂部。箭頭用於指示哪些「組件」部分是相互關聯的。目標和效果在對應的「組件」部分下垂直顯示，「短期目標」放在最前面，「長期/最終」目標放在後面。再次使用箭頭來顯示「組件」和目標是如何相互關聯的(轉引自Rush & Ogborne, 1991)。

「邏輯模式」是以圖形表示投資與成果之間的預期關係。其最簡單的型式，包括「導入」(Inputs)、「產出」(Outputs)和「結果」(Outcomes)三個有方向性的組件。「導入」階段，為投入方案的資源包括員工時間、材料、資金、設備、設施、志工時間等。「產出」階段，為透過資源(提供的好事和服務)投入而產生的活動、產物和參與。「結果」階段，為方案帶來的成果或變化，例如知識、意識、技能、態度、見解、願望、動機、行為、實踐、決策、政策、社會行動、狀況或地位的改變。「結果」可能是預期或非預期的：正面的或負面的。「結果」呈現連續性的光譜，從立即結果(初始；短期)到中間結果(中期)再到最終結果(長期)，通常與「影響」(Impact)同義(Taylor-Powell & Henert, 2008)。

1996年，美國聯合勸募(United Way)非營利組織使用一種符合「邏輯模式」且以「結果」為導向的「方案評估」模式(如下圖所示)，它也被其他機構所採用。其包括「導入」(方案專用或消耗的資源)、「活動」(方案如何利用導入來實現其使命)、「產出」(方案活動的直接產物)和「結果」(參與者在方案活動期間和結束後的受益)四個步驟(United Way of America, 1996)。

上列聯合勸募「方案結果」的「邏輯模式」，還用於協助美國聯邦政府「物質濫用預防中心」評估幾個資助方案。此「邏輯模式」的主要目的是在一張紙上，展示有助於社區方案需求的「狀況」、旨在解決這些「狀況」的「活動」以及這些「活動」預期產生的「結果」和「影響」之間的邏輯連結(Julian, Jones & Dey, 1995; McEwan & Bigelow, 1997)(轉引自 Dalton et al., 2001)。

Kloos等人(2021)更將Linney和Wandersman(1991)的方案評估「四步驟邏輯模式」擴充為「六步驟邏輯模式」(如下圖所示)。其中，「狀況」(Conditions)具體說明了方案的需求。它們包括方案試圖解決風險因素或進程、社區問題或組織困難。「導入」(Inputs)是解決「狀況」所涉及的資源。「活動」(Activities)，有時稱為介入方案，具體說明了為解決每種「狀況」而完成的工作和事情。一項或多項「活動」可以旨在解決每個「狀況」(例如，研擬手冊、執行、訓練、倡導)。「產出」(Outputs)是方案「活動」的指標(例如，達到的參與者人數、參與者投入的百分比)。「結果」(Outcomes)是指「活動」的直接、短期結果(例如，方案參與者對物質使用的知識或態度的變化、當地法律或組織政策的變革)。該方案的「影響」(Impacts)反映了整個社區「活動」的遠端(間接、長期)結果。

基於「結果」的「評估」作法

任何基於「結果」的「評估」方法，都須涉及組別或條件的“比較”來對比結果的重要性。在「有效性評估」中，最合適的“比較”是將獲得的「個人和組織參考結果」跟「預期結果」做比較(Schalock, 2001)。這包括「效能/效力」(Efficacy)和「功效/效果」(Effectiveness)的部分(Kloos et al., 2021; Singal et al., 2014)。前者是“做對的事情”，而後者則是“把事情做對”(周才忠，2024)。

所有方案的最終目標不僅僅是運作良好，而是帶來改變─以有益的方式影響一些問題或社會「狀況」。改變的狀態是方案的預期「結果」或「產出」。「評估」一個方案產生這些「結果」是評估者的核心職能。「結果」一詞有三種不同的用法：「結果水平」(Outcome level)─是某個時間點的狀態(例如，青少年的吸菸量)。「結果變化」(Outcome change)─是不同時間點「結果水平」之間的差異。「方案效果」(Program effect)─是指「結果變化」的一部分，可以唯一歸因於方案介入，而不是其他因素的影響(Rossi et al., 2004)。

下圖繪製了「結果」測量隨時間而出現的水平。垂直軸表示與我們希望「評估」的方案相關的「結果變項」，它是方案目標群體的可測量特徵或狀況，可能受到方案操作的影響。這可能吸菸量、體重、入學前準備度或上述「結果」定義下的任何其他結果。橫軸表示時間，具體來說，從方案傳輸給目標群體“之前”到“之後”的一段“期間”。圖表中的實線顯示了一組接受方案服務的個人之平均「結果水平」。請注意，隨著時間的推移，它們的狀態不是被描繪成一條直線，而是被描繪成一條四處晃動的線。這表明，吸菸、入學前準備度、管理技能和其他此類「結果」維度預計不會保持不變─它們是由於許多自然原因和與該方案完成無關的情況而產生的變化。如果我們測量「結果變項」，可以確定目標群體相對於該變項有多高或有多低。這告訴我們「結果水平」，通常簡稱為「結果」。在目標群體接受方案服務後進行測量時，它告訴我們一些關於該群體的情況。如果所有青少年都在吸菸，我們可能會感到失望，相反，如果沒有人吸菸，我們可能會感到高興。然而，這些「結果水平」本身並不能告訴我們該方案的「有效性」，儘管它們可能會限制可能性。在大多數情況下，單靠「結果水平」無法被自信地解釋為方案成功或失敗的指標。如果我們在目標群體參與該方案前後來測量「結果」，我們可以描述的不僅僅是「結果水平」，我們還可以辨別「結果變化」。例如，孩子們在參加方案前後有表現出更大的入學前準備度，這是一個正向的變化。但僅從這些資訊來看，我們實際上並不知道學前班方案與孩子們的入學準備程度的提高有關。因為學齡前兒童正處於發育期，他們的認知和動作技能透過正常的成熟過程迅速提高。另外，其他因素也可能在起作用。下圖中的虛線顯示了如果方案參與者沒有接受方案服務，就會觀察到「結果變項」的軌跡。實線和虛線的比較表明，即使沒有接觸該方案，「結果」也會得到改善，但幅度不會那麼大。參與該方案所取得的「結果水平」與同一個人如果不參與而將達到的「結果水平」之間的差異是該方案產生的「結果變化」的一部分。這是「結果」的附加值或「淨收益」(Net gain)部分，如果沒有該方案，就不會發生。我們把這種增量稱為「方案效果」或者是「方案影響」。這是該方案唯一能誠實地獲得信譽的「結果」。「評估」方案的「結果」或「影響評估」是最嚴苛的評估研究任務(Rossi et al., 2004)。

「結果」和「影響」評估的區別與實例

『影響評估』(Impact evaluation)決定了一個方案是否與沒有方案或替代方案相比產生了差異。『影響評估』的絕對要求是，你有一個對照組或情況，以比較「結果」的重要性。例如，你可能有興趣透過將畢業生的培訓後工作狀態與工作培訓方案B的畢業生或不參與工作培訓方案的人進行比較來確定工作培訓方案A的「影響」。依據實務的經驗，方案行政人員很少檢視不在方案中的類似人員的對照組，並探問如果我的服務對象沒有進入方案或接受服務，他們會發生什麼？通常資助團體和決策者對『影響評估』非常感興趣，因為他們想知道特定的教育、健康照護或社會服務方案是否有所作為，以及某些型別的方案是否比其他方案更好(Schalock, 2001)。

『影響評估』涉及資料收集，隨著時間的推移重新聯絡人們，並思考服務接受者實際發生了什麼，以及如果他們沒有得到服務或在類似方案中的服務會發生什麼。具體目的包括：(1)聚焦該方案的「影響」部分。(2)確定這些「影響」是否可以合理地歸因於正在評估的介入或服務。(3)為「責信」和持續改善目的，向方案管理人、決策者和資助機構提供「形成性回饋」(Formative feedback)。進行『影響評估』的資料要求與『有效性評估』(Effective evaluation)所需的資料要求相似。然而，兩者之間有兩個重要的區別：(1)「成本估計」在『影響評估』中變得更加重要，因為它們經常用於等同於方案密集度(*多久執行一次和頻率)。(2)估計「影響」是根據「結果」之間具有『統計學』意義的平均差異(如果有的話)得出的(Schalock, 2001)。

進行『影響評估』有助於瞭解「結果」和「影響」之間的區別。如上圖所示，「方案影響」代表在“比較”情況之間結果的『統計學』顯著差異。而且，需要超越簡單地根據「結果」變數的平均值來計算群體差異，因為可能會對介入或處遇效果產生偏頗的估計，特別是預先分配(Preassigment)特徵之間存在差異的狀況。因此，在『影響評估』中，經常使用「迴歸」(Regression)或「共變數分析」(Analysis of covariance, ANCOVA)方法。這些統計技術是有利的，因為它們能夠控制最初的樣本差異，並且可以期望它們對介入效果產生無偏見的估計(Schalock, 2001)。

「效能」和「功效」的區別

「獲得結果」(GTO)的責信方向

1999年，美國南卡羅萊納大學社區心理學榮譽教授-亞伯拉罕‧萬德斯曼和同事利用「賦權評估」的哲學，開發了一種基於結果的10個步驟「責信」方法，其稱為「獲得結果」(Getting To Outcomes, GTO)。GTO提供一個系統框架，授權「評估」者可以使用該框架與方案工作人員和合作，共同設計方案的評估元件。方案工作人員也可以用於系統性的方案發展(Wandersman, Imm, Chinman & Kaftarian, 1999/2000)。

無論創建新方案或持續現有方案，方案實務人員都可以透過回答10個GTO的「責信」問題，開始思考有關方案的成效和改善。因此，每個GTO問題都與一組「評估」問題和工具相關聯，以促進系統性的方案規劃、執行和「評估」。每個問題的答案都通向下一個問題，這就是所謂「資料導向決策」(Data-informed decision making)的一種形式。

上圖中的10個GTO問題鼓勵方案利害關係人對方案選擇、發展、「評估」和改善過程進行深思熟慮。【問題1-5】：幫助方案工作人員選擇最合適的方案。【問題6-10】：協助方案工作人員執行、改善和持續方案。透過仔細考慮每個問題及其答案，一個組織可以顯著增加其實現預期「結果」的可能性，並向方案「利害關係人」(stakeholders)展示他們的「責信」能力。

在理想情況下，GTO是一個永無休止的過程。即使對於一個有效執行、徹底制度化的方案，其工作人員也會從【問題1】重新開始。上圖說明了GTO是(1)連續的，(2)以「結果」為導向，(3)適合運用於一個方案生命週期的任何階段(*這就像一座旋轉木馬，無論你處於什麼階段都可以坐上去)。

🔍參考文獻：

Patton, M. Q. (1997). Utilization-focused evaluation: The new century text (3rd ed.). Sage Publications, Inc.
Frechtling, J. A., Mark, M. M., Rog, D. J., & Johnson, E. (2010). The 2010 User-friendly Handbook of Project Evaluation. Washington, D.C.: National Science Foundation.
Fear, W. J. (2020). A Critical-Historical Review of Program Evaluation and the Emerging Motif ‘Evaluation Science’. Journal of MultiDisciplinary Evaluation, 16(35), 14-31.
Hogan, R. L. (2007). The Hist The Historical De orical Development of Pr elopment of Program Evaluation: Exploring P aluation: Exploring Past and Present. Online Journal for Workforce Education and Development, 2(4), Article 5.
Hoskins, K. (1968). The examination, disciplinary power and rational schooling. History of Education, 8(1), 135-146.
Madaus, G. F., & O’Dwyer, L. M. (1999). A short history of performance assessment: Lessons learned. Phi Delta Kappan, 80(9), 688-697.
Madaus, G. F., & Kellaghan, T. (1982). Trends in standards in Great Britain and Ireland. In G. Austin & H. Garber (Eds.), The rise and fall of national test scores. New York: Academic Press.
Smith, N. L. (1987). Army ordnance and American system of manufacturing. Cambridge, MA: MIT Press.
Stufflebeam, D. L., Madaus, G. F., & Kellaghan, T. (2000). Evaluation models: Viewpoints on educational and human services evaluation (2nd eds.). Boston: Kluwer Academic Publishers.
Mark, M., Henry, G, & Julnes, G. (2000). Evaluation: An integrated framework for understanding, guiding, and improving policies and programs. San Francisco: Jossey-Bass.
許耕榮、陳嘉鳳、王榮春、韓明榮、林柏煌 (2004) 。「台灣社區心理衛生中心績效評核模式之建立─以賦權評估理論為基礎」。行政院衛生署委託研究計畫成果報告。
Warheit, G. J., Holzer, C. E., & Robbins, L. (1979). Social indicators and mental health planning: An empirical case study. Community Mental Health Journal, 15(2), 94-103.
Solomon, G. S., & Bernstein, J. (1985). Program evaluation in rural community mental health. Journal of Rural Community Psychology, 6(1), 3-17.
Hargroves, W. A., & DeLay, E. A. (1979). Program evaluation in a rural community mental health center. Community Mental Health Journal, 15(2), 104-118.
Patton, M. Q. (2000). Overview: Language matters. In R. K. Hopson (Ed.), Special Issue: How and Why Language Matters in Evaluation. New Directions for Evaluation (No. 86, 5-16). San Francisco: Jossey-Bass.
Fitzpatrick, J. L., Sanders, J. R., & Worthen, B. R. (2004). Program evaluation: Alternative approaches and practical guidelines (3rd ed.). Boston: Pearson Education, Inc.
Shadish, W. R., Cook, T. D., & Leviton, L. C. (1991). Foundations of program evaluation: Theories of practice . Newbury Park, CA: Sage.
DiMaggio, P. J., & Powell, W. W. (1991). Introduction. In P. J. DiMaggio & W. Powell (eds.), The New Institutionalism and Organizational Analysis (pp. 1-38). Chicago: University of Chicago Press.
Gerth, H. H., & Mills, C. W. (1953). Character and Social Structure: The psychology of social institutions. Harcourt, Brace & Company. New York.
Judd, C. H. (1936). The Psychology of Social Institutions. The Macmillan Company, New York.
Scott, W. R. (2004). Institutional theory. in G. Ritzer (ed.), Encyclopaedia of Social Theory (pp. 408-814). Thousand Oaks, CA: Sage.
Fournier, D. M. (2005). “Evaluation”. In S. Mathison (Ed.), Encyclopedia of Evaluation (p. 140). Thousand Oaks, CA: Sage.
Kantor, J. R. (1919). Psychology as a science of critical evaluation. Psychological Review, 26(1), 1-15.
Zuckerman, H., & Merton, R. K. (1971). Patterns of evaluation in science: Institutionalisation, structure and functions of the referee system. Minerva, 9, 66-100.
Speer, D. C. (1998). Mental health outcome evaluation. Academic Press.
Chelimsky, E., & Shadish, W. R. (Eds.). (1997). Evaluation for the 21st century: A handbook. Sage Publications, Inc.
陳嘉鳳 (2004)。「淺談社區方案規劃與成效評估」。社區心理衛生中心方案評估資源手冊。行政院衛生署。
Alkin, M.C., & Christie, C.A. (2023). Evaluation roots: Theory influencing practice (3rd ed.). Gilford Publications.
Milstein, B., & Chapel, T. (n.d.). Developing a logic model or theory of change. In Learn a skill (Chapter 2, Section 1). Retrieved from Community Tool Box.
Rush, B., & Ogborne, A. (1991). Program Logic Models: Expanding Their Role and Structure for Program Planning and Evaluation. Canadian Journal of Program Evaluation, 6(2), 95-106.
Kloos, B., Hill, J., Thomas, E., Case, A. D., Scott, V. C., & Wandersman, A. (2021). Community Psychology: Linking Individuals and Communities (4th Ed.). Washington, D.C.: American Psychological Association.
Taylor-Powell, E., & Henert, E. (2008). Developing a Logic Model: Teaching and Training Guide. Madison, WI: University of Wisconsin-Extension, Cooperative Extension, Program Development and Evaluation.
Suchman, E. (1962). Evaluation research: Principles and practice in public service and social action programs. New York: Russell Sage Foundation.
Bennett, C. (1979). Analyzing impacts of extension programs. Washington: U.S. Department of Agriculture.
Weiss, C. (1972). Evaluation research. Methods for assessing program effectiveness. Englewood Cliffs, Nl: Prentice-Hall.
Wholey, J. S. (1977). Evaluability assessment. In L. Rutman (Ed.), Planning useful evaluations: Evaluability assessment. Beverly Hills, CA: Sage.
Wholey, J. S. (1983). Evaluation and effective public management. Toronto: Little, Brown.
United Way of America. (1996). Measuring Program Outcomes: A Practical Approach. Evaluation/Reflection, 47.
Linney, J. A., & Wandersman, A. (1991). Prevention plus III: Assessing alcohol and other drug prevention programs at the school and community level: A four-step guide to useful program assessment. US Department of Health & Human Services.
Dalton, J. H., Elias, M. J., & Wandersman, A. (2001). Community psychology: Linking individuals and communities (1th Ed.). Wadsworth/Thomson Learning.
Julian, J. A., Jones, A., & Dey, D. (1995). Open systems evaluation and the logic model: Program planning and evaluation tools. Evaluation and Program Planning, 18, 333-341.
McEwan, K., & Bigelow, A. (1997). Using a logic model to focus health services on population health goals. Canadian Journal of Program Evaluation, 12(1), 167-174.
Schalock, R. L. (2001). Outcome-Based Evaluation (2nd Ed.). New York: Kluwer Academic/ Plenum Publishers.
Singal, A. G.,Higgins, P. D. R., & Waljee, A. K. (2014). A Primer on Effectiveness and Efficacy Trials. Clinical and Translational Gastroenterology, 5(1), e45.
Rossi, P. H., Lipsey, M. W., & Freeman, H. E. (2004). Evaluation: A Systematic Approach (7th Ed.). Sage Publications, Thousand Oaks.
Wandersman, A., Imm, P., Chinman, M., & Kaftarian, S. (1999). Getting to outcomes: Methods and tools for planning, evaluation and accountability. Rockville, MD: Center for Substance Abuse Prevention.
Wandersman, A., Imm, P., Chinman, M., & Kaftarian, S. (2000). Getting to outcomes: A results-based approach to accountability. Evaluation and Program Planning, 23, 389-395.
周才忠 (2025)。「社區心理學實務教學資源手冊」(第一版)。
周才忠 (2024)。「台灣心理專業者的未行之路」(第五版)。

👉延伸閱讀

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

2025年6月26日 星期四

《『社區科學』的過去．現在．未來》專輯(IX)：「方案評估」和『科學』之間的關係─「評估」的歷史演進、「方案評估」的定義/目的/哲學觀/邏輯、「結果」和「影響」評估的區別與實例、「獲得結果」(GTO)的責信

沒有留言:

張貼留言

2025年6月26日星期四