Paper Review

Causal Inference in the Social Sciences - Guido W. Imbens

y2r1m 2025. 4. 16. 17:33

https://www.annualreviews.org/content/journals/10.1146/annurev-statistics-033121-114601

 

인과관계에 대한 이해는 다양한 환경에서 의사결정을 내리는 데 있어 매우 중요한 역할을 한다.
지난 30년 동안 인과 추론 분야는 빠르게 성장해 왔으며, 그 연구 범위 또한 계속 확장되고 있다.
다양한 실험 및 관찰 환경에서 인과관계를 신뢰성 있게 추정할 수 있는 방법들이 연구되어 왔고,
특히 사회과학 및 생물의학 분야의 경험적 연구(empirical work)에 큰 영향을 미쳐오고 있다.
이 논문에서는 그동안의 대표적인 연구들을 간략히 리뷰 하고, 아직 풀리지 않은 주요 쟁점(open questions)에 대해 논의한다.

 

※ 리뷰 논문을 꽤 자세히 정리했기 때문에 분량이 많습니다

 

1. INTRODUCTION

 

지난 30년간 인과추론은 통계학, 경제학, 컴퓨터과학 등 다양한 분야에서 방법론적·실증적 발전을 이루며, 그 범위와 깊이를 크게 확장해왔다. 특히 실험적 접근(RCT)과 관찰연구의 분석 기법은 지속적으로 고도화되고 있으며, 이질적 효과, 고차원 공변량, 실험-관찰 데이터 결합 등 다양한 주제가 활발히 연구되고 있다.

 

본 리뷰는 아래 네 가지 핵심 영역을 중심으로 최근 연구 동향을 소개한다.

 ① RCT 설계

 ② unconfoundedness 하의 관찰연구

 ③ unconfoundedness 하의 분석

 ④ 실험 및 관찰 데이터의 통합

 

 


2. BASIC SETUP AND QUESTIONS

 

많은 empirical literature에서와 같이, 이 리뷰에서도 인과 추론을 위한 일반적인 틀로 potential outcome framework를 사용한다.

이 프레임워크는 Splawa-Neyman[1990 (1923)]에 의해 최초로 사용되었으며, 관찰 연구에서의 인과추론을 위한 일반적인 틀로는 Rubin(1977)이 제안하였다.

 

  • i = 1, ... , N => N개의 units로 이루어진 모집단 고려

 

  • binary treatment의 경우, 각 unit에 대해 두 개의 potential outcome => Yi(C), Yi(T)의 존재를 가정
    • Yi(C) : unit이 control treatment에 노출된 경우의 결과
    • Yi(T) : unit이 actvie or new treatment에 노출된 경우의 결과
    • multi-valued treatment로도 확장 가능

 

  • SUTVA (Stable Unit Treatment Value Assumption)를 포함하고 있음
    • 한 unit의 결과는 다른 unit의 treatment exposure에 영향을 받지 않아야 함
    • 이를 위반하는 spillover 상황에 대해 섹션 3.3에서 다룸

 

  • 인과 효과는 보통 Yi(T)-Yi(C)와 같은 두 potential outcome의 비교를 통해 정의된다. 그러나 인과추론의 근본적인 문제 (fundamental problem of causal inference)는, 두 결과를 동시에 관측할 수 없다는 데 있다. (Holland, 1986)
    우리는 treatment 상태에 따라 하나의 결과만 관측할 수 있기 때문이다.

 

 

# 기본 용어 정리

 

sample  인과효과를 분석하는 기본 단위 ex) 개인, 가구, 회사, 학교 등
unit  sample에 속한 개체 ex) 환자, 학생 등
treatment (Wi) 각 unit에 대한 처치(T) 또는 통제(C)
outcome (Yi) 각 unit에 대해 관찰된 결과. treatment에 따라 잠재적인 두 가지 결과가 나옴
causal effect Yi(T) - Yi(C)

 

  • Binary treatment
    • C : control treatment
    • T : active or new treatment

 

  • Potential outcome
    • Yi(C) : unit i가 C를 받았을 때의 결과
    • Yi(T) : unit i가 T를 받았을 때의 결과

 

  • Potential and observed outcome

 

  • Treatment effect for unit i : Yi(T) - Yi(C)

 

  • Average Treatment Effect (ATE) : E(Yi(T) - Yi(C))

 

  • sample ATE

 

  • CATE (Conditional ATE)

 

  • Spillover Effect : 처치를 받지 않은 개체에서 나타나는 효과
    • ex) 집단 면역. 당사자가 처치를 받지 않아도 다른 개체가 받으면 면역 효과 상승

 

 


 

3. RANDOMIZED CONTROLLED TRIALS (RCT)

 

1920년대 Neyman과 Fisher의 획기적인 연구 이후로, RCT는 인과 효과를 추정하는 데 있어 가장 신뢰받는 방법이 되었다. 특히 1960년대 이후, 규제 기관들이 신약 승인 절차에서 실험적 증거를 강력히 요구하면서, 많은 연구자들이 RCT를 인과추론의 gold standard로 간주하게 되었다.

최근 20년간 사회과학 분야에서도 실험 연구의 중요성이 커졌으며, 이는 2019년 노벨 경제학상 수상자 Abhijit Banerjee, Esther Duflo, Michael Kremer의 연구를 통해 공식적으로 인정받았다. 초기 Fisher와 Neyman이 제시한 실험 설계는 여전히 널리 사용되고 있지만, 최근에는 새로운 실험 설계 방식도 등장하고 있다. 학계에서 RCT에 대한 관심이 높아졌고, 온라인 환경에서 실험을 수행하려는 기업의 수요가 늘어났기 때문이다.

 

 

3.1. Simple Randomized Controlled Trials

 

[ 기본 세팅 ]

  • 각 unit이 두 개의 potential outcome (Yi(C), Yi(T))를 가진다고 가정

 

  • spillover 효과 배제
    • 실제로 약물 실험이나 농업 실험과 같은 traditional biomedical setting에서는 타당한 가정일 수 있음
    • 하지만 전염병과 관련된 실험처럼 예외적인 상황도 있으며, 현대 사회과학에서는 spillover 존재 가능성에 대한 우려가 커지고 있음

 

  • 전체 샘플 또는 연구 집단에 대한 평균 인과 효과를 추정하는 데 초점

 

[ Testing ]  

Fisher(1937)의 sharp null hypothesis : 인과효과가 전혀 없다.

하지만 사회과학 분야에서는 이러한 가설 검정이 주요 관심사가 아닌 경우가 많다. 효과의 존재 여부보다 그 크기 혹은 의미 있는 수준인지에 더 관심을 가진다.

따라서 Splawa-Neyman의 연구는 더욱 적절하다. Neyman은 다음과 같은 추정량을 사용해 전체 평균 인과효과를 추정하는 방법을 제시했다.

 

그는 위 추정량이 unbiased임을 보였고, randomization 하에 정확한 분산을 다음과 같이 도출했다. 

conservative estimator for variance

 

이러한 기본적인 결과들은 여전히 여러 분야에서 이뤄지는 실험 연구의 토대가 되고 있다.

일반적인 modifications 중 하나로는, unit 수준의 covariate 또는 pretreatment variables를 활용하여 추정량의 precision을 높이는 방법이 있다.

covariates의 존재는 실험 설계를 향상시키며, 계층화(stratification) 또는 극단적으로는 paired matching 하는 방식도 있다. (Athey & Imbens 2017) 또한 실험이 이미 끝난 후여도 회귀 등의 방법을 통해 covariates를 활용할 수 있다.

대부분의 추정 방법의 경우, model validity는 bias에 영향을 미치지 않지만, asymptotic precision을 크게 향상시킬 수 있다.

 

 

3.2. Adaptive Experiments

전통적인 실험 방식은 현대 연구 환경에서는 그다지 효과적이지 않을 수 있다.

특히 온라인 실험은 다음 네 가지 특징을 가진다.

 ① unit이 순차적으로 실험에 유입된다.

 ② outcome이 빠르게 측정된다.

 ③ 관심 있는 treatment arm이 다수(multiple)일 수 있다.

 ④ 연구자의 관심사는 "good treatment"를 찾는 것이지, 그렇지 않은 arm들에 대한 eficacy의 정확한 추정에는 관심이 없다.

 

이러한 네 가지 특징은 연구자가 실험 도중 실험 설계를 유연하게 adapt할 수 있게 하며, 같은 수의 unit을 사용하면서도 훨씬 더 유용한 의사결정 정보를 얻을 수 있다. 아래 예시를 통해 쉽게 살펴 보자!

예시: 광고 실험
한 온라인 마케터가 10개의 광고 중 가장 좋은 하나를 선택하고자 한다. 이를 위해 randomized experiment를 한다면, 전통적인 방식은 각 처치군에 동일한 비율로 incoming traffic을 할당한다. 이는 각 처치군의 효과를 정밀하게 추정하는 데는 적합하지만, 많은 unit들이 필요하다.
대신, adaptive experiment를 사용할 수 있다. 초기에는 각 처치군에 대해 동일한 확률로 실험 unit을 할당하고 결과를 측정한다. 이후 결과를 바탕으로 처치군별 효과 정보를 반영하여 할당 확률을 갱신한다. 효과가 낮은 처치군은 더 이상 많은 unit을 할당할 필요가 없으므로, 효율성을 크게 높일 수 있다.

이러한 설정에서는 Multi-Armed Bandit (MAB) 알고리즘이 유용하다.
- 탐색 (exploration) : 어떤 처치군(treatment arm)이 효과가 좋은지 탐색 
- 활용 (exploitation) : 현재까지 효과가 높은 처치군에 더 많은 unit 할당
=> 탐색과 활용의 balancing이 이 알고리즘의 key feature!

 

 

adaptive experimentation 의 대표적인 2가지 접근법은 다음과 같다.

 

 Thompson sampling

  • Thompson(1933)이 처음 제안하고, 이후 Scott(2010), Russo et al. (2018) 등이 발전시킨 방식
  • 핵심 아이디어: next unit을 어떤 특정한 treatment에 할당할 확률은, 그 처치군(treatment arm)이 최적일 사후 확률에 비례하도록 한다.
  • 성공률이 낮게 관측된 처치군에는 점점 더 적은 unit들이 배정됨 => 효과가 낮은 처치군에 낭비되는 자원을 줄일 수 있음
  • 그러나, 모든 처치군의 정확한 성공 확률을 추정하기는 어려워진다.
  • 톰슨 샘플링의 목표는 '최적의 처치군을 찾는 것'이지, 모든 처치군의 정밀한 추정이 아니다.
  • 손실(loss)는 보통 선택된 처치군과 진짜 최적 처치군 간의 효과 차이로 정의된다.

 

② UCB (Upper Confidence Bounds)

  • Lai & Robbins (1985), Lattimore & Szepesvari (2020)에서 제안한 방식
  • treatment arm별 성공 확률에 대한 신뢰구간의 상한을 계산하여 다음 할당 확률을 업데이트
    • 처음엔 각 처치군(treatment arm)마다 일정 수의 unit을 할당한 뒤, 각 처치군별로 성공 확률에 대한 신뢰구간 계산
    • 신뢰구간의 상한(UCB) = (성공률 + 1.96 x 표준오차) 이 가장 높은 처치군에 next unit을 배정
    • 실험이 진행됨에 따라 신뢰 수준을 점점 높이며 (즉 UCB 폭을 줄이며) 모든 처치군이 일정량의 관찰을 계속 받도록 한다.

 

 

3.3. Experiments in the Presence of Spillovers

SUTVA("어떤 개체의 처치 할당이 다른 개체의 결과에 영향을 미치지 않는다")는 표준 RCT의 핵심 가정이지만, 현실에서는 자주 깨지게 된다. 예를 들어 전염병 예방접종에서는 일부 개인이 백신을 맞는 것이 맞지 않은 사람에게도 영향을 미친다.

 

이러한 Spillover를 제한하는 common theme은 "Exposure Mapping" (Aronow & Samii 2017) - 개체가 처치 벡터 전체 중에서 어떤 component에 노출되는지가 중요한지 파악, 즉 spillover를 모델링 가능하도록 만드는 것이다.

 

① 계층이나 군집으로 하위집단을 나누는 설계

  • 같은 군집(cluster) 단위로 그룹을 만들어 실험함 (ex. 같은 지역, 같은 반)
  • spillover가 그룹 내에만 있다고 가정하고, 그룹 간 비교로 인과 효과 추정

 

 

네트워크 링크 기반 설계

  • unit 간 연결 관계 (network link) 고려
  • 친구, 동료, 가족 같은 링크 기반 영향력을 분석 (ex. 친구에게 투표를 독려하는 것이 친구의 친구까지 영향)

 

 

이분 그래프 기반 설계

  • 처치 받는 unit과 결과 측정 unit이 다른 경우 (원래 보통은 "내가 받은 처치는 내 결과에 영향을 준다"는 구조. 즉, 처치를 받는 unit으로부터 결과를 측정한다)

 

  • 예시) 우버에서 기사와 승객 간 조합에 따라 정책의 효과가 달라질 수 있음.
    • 처치 unit: 기사 - 기본 팁 정책을 바꿈
    • 결과 unit: 승객 - 승객의 만족도, 재사용률 등을 관찰
    • 기사와 승객은 pair을 이루어야만 outcome이 생긴다! => 이분 그래프(bigpartite graph)로 모델링

 

  • 이분 그래프(bipartite graph)
    • 두 종류의 노드가 있고, 같은 종류끼리는 연결이 안되는 그래프
    • 위 예시로 이어서 설명하면, 기사 노드 집합이 있고 승객 노드 집합이 있을 때, 기사 노드끼리, 또는 승객 노드끼리는 연결할 수 없음.
    • 간선(edge) : 노드를 연결짓는 선. "이 기사가 이 승객에게 영향을 준다 (처치 효과가 발생한다)"는 것을 의미
    • 이분 그래프를 통해 다음과 같은 내용을 표현할 수 있다.
      1. 어떤 처치가 어떤 결과에 영향을 주었는가?
        (예: A기사가 팁 정책 처치를 받았고, B승객과 매칭되어 B의 만족도가 높아짐)
      2. 동시에 여러 기사가 한 승객에게 영향을 줄 수도 있음
        (→ 승객은 여러 번 탑승함. 각 탑승마다 다른 기사와 매칭됨)
      3. 한 명의 기사가 여러 승객에게 영향을 줄 수도 있음
        (→ 많은 사람을 태움)
      즉, 인과관계를 1:1이 아니라 다:다(many-to-many) 구조로 표현 가능

 

 

unit 쌍(pair) 기반 설계

  • 두 unit이 짝을 이루어 상호작용하며 결과가 발생하는 구조 => 기사-승객 pair가 하나의 unit이 된다!
    (위 이분그래프에서는 기사, 승객이 각각 유닛으로 존재하며 각자 역할이 달랐음.)
  • 예시) 우버에서 팁 정책 변경 실험을 한다고 가정
    • 전통적인 실험: 모든 기사에게 팁 옵션을 주거나 말거나
    • pair 단위 설계: 특정 기사-승객 조합에만 팁 옵션 적용
      => 승객 입장에서는 다양한 기사에게 다른 조건으로 서비스를 받게 되고, 기사 입장에서는 다양한 승객에게 서로 다른 처치를 경험
  • 한 pair에서 나타나는 상호작용 효과까지 고려한 인과추론이 가능해지며, 그러한 상호작용에서 비롯된 spillover를 파악할 수 있게 됨

 

GPT가 요약을 잘해줘서.. 첨부...

 

 


 

4. OBSERVATIONAL STUDIES WITH UNCONFOUNDEDNESS

RCT는 이상적이지만, 사회과학에선 실험이 불가능하거나 비윤리적인 경우가 많다. 

예를 들면, "모든 지역에 정책을 무작위로 적용하자"는 실험은 비현실적인 실험이다. (따라서 사회과학의 주류는 관찰연구!)

이럴 때 우리는 관측 자료 (observational data)를 사용해야 하고, 그 전제조건이 바로 unconfoundedness 가정이다.

 

  • unconfoundedness = observables = exogenity = ignorability : the assumption that treatment assignment is independent of potential outcomes  ( <- 영어 표현 그대로 이해하는 것이 좋을 것 같다!)
    • 즉, 동질적인 하위 집단(homogeneous subpopulation) 내에서는 처리 할당이 random이라고 가정
    • 그러한 subpopulation 내에서는 마치 randomized experiment가 발생한 것처럼 데이터 분석 가능

여기에 더해, overlap 가정을 한다.

  • overlap assumption : assignment probability가 0과 1에서 멀리 떨어져 있음을 보장하는 가정
    • 만약 실험에서 통제(C) 그룹과 처치(T) 그룹 간 겹치는 (overlap되는) 연령대가 없다면, 비교가 무의미하므로 유효한 인과추론이 불가함. => overlap 가정이 필요한 이유

propensity score

 

 

이 두 가지 가정을 합쳐 strong ignorability라고 한다.

 

 

인과추론에서 자주 등장하는 DAG는 아래와 같은 형태의 그래프를 의미한다.

  • DAG (Directed Acyclic Graph)

변수(Xi)는 W(=treatment)보다 선행한다는 개념에 기반하여, 어떤 변수(Xi)도 W, Y(=outcome)의 영향을 받지 않는다

 

위 그래프와 같이, Xi가 W, Y보다 선행하는 개념이므로, Xi는 영향을 주기만 할 뿐 받으면 안된다.
X (covariates) → W (treatment) 의 순서를 꼭 기억하자!

 

즉 가장 흔한 실수는 W(=treatment), Y(=outcome)에 영향을 받는 변수를 conditioning(=알고 있다는 조건 하 분석)하는 것이다.

 

이러한 경우 X는 collider가 되며, 이를 conditioning하면 M-bias가 발생한다.

위 그림에서는 X가 직접적으로 W, Y에 영향을 미치지는 않으나, 동일한 어떤 unobserved variables U1, U2에 의해 영향을 받고 있다. X가 W나 Y의 직접적인 자손이 아니더라도 이러한 관계로도 영향을 줄 수 있다.

이러한 경우 X를 collider라고 하며, 이를 conditioning value로 사용하면 편향이 발생하게 된다.

이때의 편향을 M-bias라고 한다. (DAG 모양이 M 모양임!)

 

즉, confounding을 일으키는 backdoor path가 없으므로 조정이 필요 없는 것이다. (조정은 backdoor path를 막기 위해 하는 것)

조정하면 오히려 편향이 발생할 수 있으므로 하면 안됨!

 

 

4.1. Estimating Average Treatment Effects Under Unconfoundedness

ATE
sample CATE

ATE를 sample CATE로 추정한다. 약간의 차이는 있지만, 분산에만 영향이 있고 추정에는 영향이 없어 크게 문제가 되지 않는다.

 

 

  • Xi(공변량)의 고유값(distinct values) 개수가 적을 :
    • 각 공변량 조합에 따라 표본을 나누고 그룹 평균 효과를 계산한 뒤, 이를 평균내는 방식으로 인과 효과 추정 가능
  • 공변량 개수가 많아지면:
    • unconfoundedness 가정을 만족시키기 위해 공변량을 많이 포함하고 싶지만,
    • 그럴수록 Overlap 가정이 위협받고, 데이터가 희소해지며 분석이 어려워짐.
  • 결론:
    • 많은 공변량이 있는 상황에서도 정확하고 실용적인 추정을 가능하게 하는 방법찾는 것이 분야의 핵심 과제 중 하나!

 


이후 내용은 천천히 정리 중입니다 :)