DID - 1. Difference-in-difference 기본 개념

인과추론 기법들 중에서도 DID(Difference-in-Differences)는 원리가 비교적 직관적이고 간단해서 실무에서 자주 사용되는 방법론이다. DID는 어떤 정책이나 처치가 실제로 효과가 있었는지 알아보기 위해, 단순히 전후 비교나 집단 간 비교만 하는 것이 아니라 ‘변화량의 차이’를 측정함으로써 보다 정확한 인과효과를 추정한다. 이번 글에서는 DID의 기본 개념과 작동 원리를 살펴보고, 이를 위해 어떤 가정이 필요한지 알아보자.

DID란?
Identification strategy

Identification strategy는 관측 데이터로부터 우리가 관심있는 인과효과를 어떻게 신뢰 가능하게 분리해낼 것인가에 대한 논리적 설계 전략을 의미한다. 주로 counterfactual을 어떻게 만들어낼 것인지, 선택 편향을 어떻게 제거할 것인지, 기본적으로 어떤 가정이 필요한지 등의 문제를 해결하고자 한다.

Identification assumption
  1. Parallel trend assumption
    • DID의 기본 가정으로, 두 그룹의 시간에 따른 변화 트렌드가 같아야 한다는 가정
    • Parallel trend는 시간의 변화량과 변화 패턴의 유사성만 충족하면 되므로 상대적으로 증명이 쉽다. 그래프를 통해 Treatment 이전/이후의 트렌드를 확인하는 방식이 일반적이다.
    • Staggered treatment 등 시각적으로 확인하기 어려운 경우 event study를 통해 간접적인 통계적 검정이 가능하다.
    • 그러나 Parallel pre-trend assumption이 충족되었을지라도 Parallel post-trend가 보장되지는 않는다.
    • 인과추론의 데이터과학
      그림 2. Pre-period에 두 그룹 간 변화 트렌드가 동일함을 그래프로 확인할 수 있다 (source: 인과추론의 데이터과학)
  2. Exogeneity of Treatment Assignment (Exchangeability)
    • Treatment가 독립변수와 독립적이어야 한다.
    • 우연히 treatment가 적용되는 시점에 동시에 발생한 현상(contemporaneous trend) 또는 treatment와 상관성이 있는 confounder가 있다면(post-treatment confounder), post-trend 시점에 영향을 받을 수 있기 때문에 이러한 요인이 있는 지 반드시 점검해야 한다.
    • No spillover effect : 한 그룹에서의 인과효과가 다른 그룹에 영향을 주지 않아야 한다.
  3. OLS 기본 가정
Pre-trend adjustment