2025年12月2日 星期二

《『社區心理學實務』的「社區服務方案設計」》專輯(IX):「影響評估」的簡介和範例─「影響評估」的定義和實例、「結果」和「影響」的區別、「影響評估」的簡易指引、「影響評估」的實務方法

 

作者:周才忠 (日期:2025/12/3)

       愛因斯坦曾說過:「並非所有能被計數的東西都重要;所有重要的東西也未必都能被計數」。這彰顯了愛爾蘭詩人-王爾德的警語:“純粹而簡單的真理很少是純粹的,也從來都不是簡單的!”。尤其是「影響評估」(Impact evaluation)的部分,它最具耗時費力與技術難度的評估工作。以至於常造成混淆,例如『公共衛生』領域剛好將「短期」(*結果評估)和「長期」(*影響評估)這兩個術語顛倒(Kloos et al., 2021)。此外,常發生的一個矛盾現象,評估資助者(如各級政府)通常認為他們需要「影響評估」,但又往往只使用前期的「過程評估」數據,就要進行相關政策或方案(服務)的大規模推廣,而容易導致實際上無效(*可能依據的方案理論是錯誤的)或僅在某些有限情況下有效的風險。因此,本文介紹的內容,包括「影響評估」的定義和實例、「結果」和「影響」的區別、「影響評估」的簡易指引、「影響評估」的實務方法等。猶記美國著名作家和演說家-東尼·羅賓斯的名言:“任何真正有價值的改變,都必須是持久且持續的”,或許總要經歷「見山是山,見山不是山,見山又是山」的辯證過程,最後才能有機會發揮真正的社會影響力,不是嗎~~ 


「影響評估」的定義和實例 

     「影響評估」(Impact evaluation)是最具耗時費力技術難度的評估工作,其指在方案“結束一段時間”之後,再來評估原先方案設定的最終正向結果長期的影響程度。例如方案標的對象的快樂幸福感(well-being)是否持續惡化或有具體提昇,另外發生率(Incidence)或盛行率(Prevalence)也是常用來評估各類「初級預防」(Primary prevention)方案長期影響的客觀指標,其他非量化的資料亦可提供「影響評估」佐證,如醫療記錄健康檢查報告學校成績單考試榜單等。為了確認標的對象的正向改變與相關影響是受到方案介入所致,最好能使用「實驗設計」的方式(介入組對照組)來證明,受試樣本數不能太少且需隨機的抽樣過程。目前,有因果推斷的新策略,包含因果歸因(Causal attribution)與因果貢獻(Causal contribution)兩種(Lewis et al., 2003; Rossi et al., 2004; Cyrus, 2010)。

     「影響評估」涉及方案的“最終效果”,以及它們是否與“預期結果”相匹配。例如,在酒精與其他毒品的預防方案中,其“最終效果”可能包括減少整體藥物濫用狀況(*盛行率)降低高中學生初次吸毒的新個案人數(*發生率)減少酒駕被捕率以及降低學校對吸毒或酗酒犯罪行為的紀律處分案件等(Kloos et al., 2021)。由於「影響評估」探問方案是否實現了“預期結果”,以及這些變化是否包括“意外”的副作用。評估方案的「影響」的主要困難度是,通常“預期結果”也可能是由與方案“無關”的因素引起的(Rossi et al., 2004)。

       此外,確定何時適合進行「影響評估」,以及使用哪種評估設計,給評估人員帶來相當大的挑戰。評估資助者通常認為他們需要「影響評估」,事實上,這是唯一能夠確定方案是否具有“預期效果”的方法。然而,「影響評估」的特點是非常需要專業知識時間資源,而且通常很難在常規方案運作的限制下去正確地設置。如果對「結果」資訊的需求足以證明「影響評估」是合理的,仍然存在一個問題,即方案情況是否適合進行這種評估。例如,確定一個結構不完善或無法充分描述的方案的「影響」是沒有意義的。因此,「影響評估」最適合成熟、穩定的方案,具有明確“定義”的方案模式,並明確使用證明所需努力的「結果」(Rossi et al., 2004)。

「影響評估」的臺灣實例

       臺灣是一個人口高密度的國家,存在著垃圾問題。近年來,垃圾堆積量呈倍數快速增加,26條河流被垃圾汙染,垃圾掩埋場數量越來越少。因此,1993年在臺北市內湖區啟動一個社區「垃圾減量示範」(Garbage reduction demonstration, GRD)方案,並評估了其對產生的廢物量的「影響」。臺灣每天都有垃圾收集,GRD的計劃是透過暫停週二收集垃圾來擾亂這一常規。理論上,要求居民每週在家中存放一天垃圾,這些家中相關裝置,此將造成足夠的不便和不愉快感,以提高對垃圾的認識。因此,“預期”居民會努力減少他們產生的垃圾量。經「過程評估」(Process evaluation)確定該示範方案已按計劃實施。

      「影響評估」是透過獲取內湖區和類似郊區的鄰近南港區的每日垃圾量記錄進行的,該期間從GRD方案啟動前四個月即開始,之後並持續了四個月。據分析顯示,與方案前或跟對照社區(南港區)相比,內湖區在方案期間收集的垃圾量並沒有減少。此證據表明,居民只是儲存了他們習慣性週二垃圾量,並在週三來處理,在每週剩餘時間內對垃圾量沒有「延續效應」(Carryover effects)。對居民的訪談顯示,“方案理論”是錯誤的。他們沒有報告方案“預期”與在家中存放垃圾相關的不便或不愉快感(Chen et al., 1997)(轉引自Rossi et al., 2004)

「結果」和「影響」的區別 

      「影響評估」決定了一個方案是否與沒有方案或替代方案相比產生了差異。影響評估的絕對要求是,你有一個對照組或情況,以比較「結果」的重要性。例如,你可能有興趣透過將畢業生的培訓後工作狀態與工作培訓方案B的畢業生或不參與工作培訓方案的人進行比較來確定工作培訓方案A的「影響(Schalock, 2001)

       依據實務的經驗,方案行政人員很少檢視不在方案中的類似人員的對照組,並探問,如果我的服務對象沒有進入方案或接受服務,他們會發生什麼?通常資助團體和決策者對影響評估非常感興趣,因為他們想知道特定的教育、健康照護或社會服務方案是否有所作為,以及某些型別的方案是否比其他方案更好(Schalock, 2001)。

      影響評估涉及資料收集,隨著“時間”的推移重新聯絡人們,並思考服務接受者實際發生了什麼,以及如果他們沒有得到服務或在類似方案中的服務會發生什麼。具體目的包括:(1)聚焦該方案的「影響」部分。(2)確定這些「影響」是否可以合理地歸因於正在評估的介入或服務。(3)為「責信」和持續改善目的,向方案管理人、決策者和資助機構提供「形成性回饋(Formative feedback)。進行影響評估的資料要求與『有效性評估(Effective evaluation)所需的資料要求相似。然而,兩者之間有兩個重要的區別:(1)成本估計」在影響評估中變得更加重要,因為它們經常用於等同於方案密集度(*多久執行一次和頻率)(2)估計影響」是根據「結果」之間具有統計學意義的平均差異(*如果有的話)得出的(Schalock, 2001)。

       進行影響評估有助於瞭解「結果」和「影響」之間的區別。如上圖所示,「方案影響」代表在“比較”情況之間結果的統計學顯著差異。而且,需要超越簡單地根據「結果」變數的平均值來計算群體差異,因為可能會對介入或處遇效果產生偏頗的估計,特別是預先分配(Preassigment)特徵之間存在差異的狀況。因此,在影響評估中,經常使用「迴歸(Regression)或「共變數分析(Analysis of covariance, ANCOVA)方法。這些統計技術是有利的,因為它們能夠控制最初的樣本差異,並且可以期望它們對介入效果產生無偏見的估計(Schalock, 2001)

「影響評估」的簡易指引 

    「影響評估」涉及下列的五個步驟(Schalock, 2001):

  1. 清楚地確定目的─對於「影響評估,目的是確定無方案替代方案相比,該方案是否有區別。
  2. 透過使用一個多個評估設計來建立“比較”情況─此步驟包括描述如何建立比較情況以及服務接受者如何進入該方案。
  3. 描述核心資料集(服務接受者特徵核心服務功能成本估算與估值人員參照結果)以及它們如何操作和測量的。
  4. 展示「結果」─這包括(1)描述如何分析資料,如特定的統計考驗和顯著性。以及(2)根據使用的統計分析做出「影響」宣告(*基於顯著的平均差異)和其他主要結果。
  5. 討論主要結果及其對方案變化或政策發展和評估的意涵。

     「影響評估」提供有關介入措施所產生的觀察變化或「影響」的資訊。這些觀察到的變化可能是正面的,也可能是負面的;可能是預期的,也可能是非預期的;可能是直接的,也可能是間接的。「影響評估」必須確定這些變化的原因。確定原因的過程稱為因果歸因(Causal attribution)或因果推論(Causal inference)。如果「影響評估」未能有系統地進行因果歸因,則評估結果出現錯誤並導致決策錯誤的風險會更高。例如,當方案實際上無效或僅在某些有限情況下有效時,卻決定擴大規模;或當方案可以透過解決限制因素而有效時,卻決定退出。以下是「影響評估」相關的簡易指引(Peersman, n.d.):

一、為什麼要進行「影響評估」?

     「影響評估」可用於改善或調整介入措施(即『形成性評估』),也可用於指導是否繼續、停止、複製或擴大介入措施的決策(即『總結性評估』)。雖然許多『形成性評估』著重於「過程」,但如果介入措施正在進行中,「影響評估」也可作為『形成性評估』的手段。例如,「影響評估」的結果可用於改善“下一批”參與者的方案實施,其具體方法是識別需要監測和嚴格管理的關鍵要素。「影響評估」最常用於『總結性評估』。理想情況下,總結性影響評估」不僅要得出「哪些措施有效」的結論,還要提供訊息,說明如何使介入措施在不同環境下對不同群體有效。

二、何時進行「影響評估」?

       只有在能夠明確其“預期”用途,且評估結果可能產生有用資訊的情況下,才應進行「影響評估」。評估時需考慮資源可用性以及針對所研究介入措施的決策時機。可能需要先進行「可評估性評定」(Evaluability assessment),以評定這些面向。

       在確定「影響評估」介入措施的優先順序時,應考慮以下因素:評估與組織或發展策略的相關性;評估的潛在效用;高階主管或政策制定者對使用評估結果的承諾;以及/或其在「倡導」(advocacy)或「責信」(Accountability)方面的潛在用途。

     「影響評估」的時機也至關重要。如果評估進行得太晚,結果就無法為決策提供基礎。如果評估進行得太早,則會對影響的描述不準確(例如,如果影響沒有足夠的時間發展,則會低估影響;如果影響隨時間推移而減弱,則會高估影響)。

三、評估過程中應該邀請哪些人參與?

       無論評估類型為何,在評估過程的每個步驟中,都必須認真思考哪些人應該參與參與的原因以及參與方式,以便制定適當且符合具體情況的「參與式方法」(Participatory approach)。參與可以發生在「影響評估」過程的任何階段:從決定進行評估、評估設計、資料收集、分析、報告撰寫,到評估管理。

       明確「影響評估」中「參與式方法」的目的,是管理預期和指導執行的關鍵第一步。其目的是為了確保那些本應因方案或政策而生活得到改善的人的聲音成為評估「結果」的核心嗎?是為了確保評估重點切合實際嗎?是為了傾聽人們對“改變”的自身理解,而不是取得外部評估機構設定的指標嗎?是為了增強人們對捐助方資助方案的認同感嗎?這些以及其他因素,將導致不同利害關係人(stakeholders)組合以不同的形式參與「影響評估」。

       選擇「參與式方法」進行「影響評估」的根本理由可以是務實的,也可以是符合「倫理」的,或者兩者兼而有之。務實之處在於,這種方法能夠獲得更好的評估「結果」(例如,更優質的資料、更深入的數據理解、更恰當的建議以及更有效地採納「結果」結果);符合「倫理」之處在於,這樣做是正確的(例如,根據聯合國基於“人權”的方案編制方法,人們“有權”參與制定直接或間接「影響」他們的決策)。因此,「參與式方法」可以應用於任何「影響評估」設計。換句話說,它並非特定評估方法的專屬,也不限於量化質性的資料收集和分析。

       任何旨在採用「參與式方法」的「影響評估」,其出發點都在於明確這種方法能為評估本身以及密切參與的人員帶來哪些價值(同時也要考慮他們參與可能帶來的潛在風險)。在每種情況下,都需要回答以下三個問題:

  1. 利害關係人的參與在本次「影響評估」中將扮演什麼角色?
  2. 哪些人的參與至關重要?何時參與才重要?為什麼?
  3. 何時參與才切實可行?

       只有在解決了這些問題之後,才能探討如何讓「影響評估」更具“參與性”。

四、如何規劃和管理「影響評估」?

       與其他任何評估一樣,「影響評估」也應進行正式規劃,並作為獨立方案進行管理。決策流程和管理安排應從一開始就明確,包括:

  • 描述需要評估的內容並制定評估簡報。
  • 確定並調動資源。
  • 確定由誰來進行評估工作並聘請評估人員。
  • 確定並管理評估「方法論」的發展流程。
  • 管理評估工作計畫的制定。
  • 管理工作計畫的實施,包括報告的編寫。
  • 推廣此報告並獲得支持其使用。

      確定「因果關係」是進行「影響評估」的必要條件。所有設計方案(無論是實驗性、準實驗性或非實驗性)都需要在準備和“早期”資料收集方面投入大量資源,如果「影響評估」僅限於在介入措施實施“後期”進行的「短期」活動,則無法實現這些目標。因此,至關重要的是,必須將「影響評估」納入綜合監測、評估和研究計畫及體系中,以產生並提供一系列證據來輔助決策。這也能確保在需要時能夠利用其他監測與評估活動(例如「績效監測」和「過程評估」)的數據。

五、可以使用哪些方法進行影響評估?

       評估目的是指進行「影響評估」的理由。例如,旨在支持學習的評估應明確學習對象、學習者如何參與評估過程以確保評估的相關性和可信度,以及是否存在關於“預期”應用這些學習成果的具體決策點。此外,旨在支持「責信」的評估應明確「責信」對象、對誰負責、「責信」內容。

       評估依賴“事實”和“價值觀”(即被認為本質上是好的、可取的、重要的和具有普遍價值的原則、屬性或品質,例如「公平對待所有人」)的結合來判斷介入措施的價值(Stufflebeam 2001)。評估標準明確了評估中將使用的“價值觀”,因此有助於設定評估的界限/範圍。

       許多影響評估都採用『經濟合作暨發展組織發展援助委員會』(OECD-DAC)的標準,如下所示:

  • 「相關性」(Relevance)─介入措施的目標與受援方的需求、國家需求、全球優先事項和合作夥伴政策的“一致性”程度。
  • 「功效/效果」(Effectiveness)─考慮各項目標的“相對重要性”(Relative importance),介入措施的目標實現或“預期”實現的程度。
  • 「效率」(Efficiency)─衡量經濟性資源/投入(資金、專業知識、時間、設備等)轉化為成果的程度。
  • 「影響」(Impact)─介入措施產生的直接間接、“預期”或“非預期”的正面和負面的長期主要和次要「影響」。
  • 「永續性」(Sustainability)─在主要發展援助停止後,介入措施帶來的「效益」(benefits)能否持續。介入措施必須在環境和財務上都具有可持續性。如果重點不在於外部援助,「永續性」可以定義為主要利害關係人在捐助方資金停止後,利用當地可用資源維持介入措施「效益」的能力。

六、如何報告評估結果並支持其應用?

       評估報告的結構應反映評估的目的關鍵問題。首先,應簡明地呈現與『經濟合作暨發展組織發展援助委員會』(OECD-DAC)的相關性功效/效果效率影響永續性標準相關的詳細問題的證據,並考慮公平性性別平等人權等因素,同時提供足夠的細節以佐證結論和建議。應使用具體的評估標準來「解讀」證據,並確定哪些考慮因素至關重要或迫在眉睫。隨後,應綜合多維度證據,以回答高層次的評估問題。因此,評估報告的結構有助於簡潔地報告對評估問題的直接答案,並提供足夠的評估推理和方法論細節,使讀者能夠理解其邏輯並清晰地瞭解證據基礎。

      以下建議有助於明確評估報告的預期,使其評估推理嚴謹有力:

  1. 執行摘要必須包含指導整個評估的「關鍵問題」(Key evaluation questions, KEQ)的直接且明確的評估性回答。
  2. 在呈現評估結果時,必須使用明確的評估性語言(而非僅描述結果的價值中立語言)。應提供範例。
  3. 使用清晰簡潔的資料「視覺化」(visualization)方式,以易於理解的方式呈現介入措施在各個評價維度上的表現「快照/簡要情況」(snapshots)。
  4. 在評估結果部分,應使用「關鍵問題」作為副標題(而非像通常那樣使用證據類型和來源)。
  5. 必須清晰透明地闡述所使用的評估推理,並確保非評估人員和不具備深厚專業知識的讀者都能理解這些解釋。這些解釋應在報告正文中簡明扼要地呈現,並在附件中提供更詳細的資訊。
  6. 如果評價標準篇幅較小,則應將其包含在報告正文中。若篇幅較長,則應在報告正文中簡要概述至少一到兩條標準,所有標準全文則應列於附件中。

「影響評估」的實務方法 




🔍參考文獻:

  • Kloos, B., Hill, J., Thomas, E., Case, A. D., Scott, V. C., & Wandersman, A. (2021). Community Psychology: Linking Individuals and Communities (4th Ed.). Washington, D.C.: American Psychological Association.
  • Rossi, P. H., Lipsey, M. W., & Freeman, H. E. (2004). Evaluation: A systematic approach (7th ed.). Thousand Oaks, CA: Sage.
  • Chen, H. T., Wang, J. C. S., & Lin, L. H. (1997). Evaluating the Process and Outcome of a Garbage Reduction Program in Taiwan. Evaluation Review, 21(1), 27-42.
  • 陳嘉鳳 (2004)。「淺談社區方案規劃與成效評估」。《社區心理衛生中心方案評估資源手冊》,行政院衛生署。
  • Schalock, R. L. (2001). Outcome-Based Evaluation (2nd Ed.). New York: Kluwer Academic/ Plenum Publishers.
  • Fitzpatrick, J. L., Sanders, J. R., & Worthen, B. R. (2004). Program evaluation: Alternative approaches and practical guidelines (3rd ed.). Boston: Pearson Education, Inc.
  • Peersman, G. (n.d.). Impact evaluation. BetterEvaluation knowledge platform, Global Evaluation Initiative (GEI).
  • Porras, B. S. (2018). Decalogue for an impact evaluation. LinkedIn.


👉延伸閱讀



沒有留言:

張貼留言