DID - 2. DID의 일반화 - TWFE 모델 (1)

TWFE, Two-Way Fixed Effects model은 DID를 일반화한 형태이다. 고전적인 2x2 DID는 2개의 그룹(treatment/control)과 2개의 시점(처치 전후)을 비교하는 반면, TWFE는 여러 unit과 여러 시점을 동시에 다룰 수 있어 보다 복잡한 상황에 적용할 수 있다. 먼저 패널 데이터와 fixed effects가 무엇인지 살펴보고, TWFE가 어떻게 인과효과를 추정하는지 알아보자.

패널 데이터
Fixed Effects
TWFE의 원리 이해하기
인과추론의 데이터과학
source: 출처 영상 링크


  1. unit fixed effects를 고려하지 않고 treatment effect를 추정하는 경우
    • 전체 데이터 중 treatment 그룹의 purchase amount 평균과 control 그룹의 평균값을 비교한다.
    • treatment 그룹 평균(70+70+30+50 / 4) - control 그룹 평균(50+10+30+20+10 / 5) = 55 - 24 = 31
  2. unit fixed effects를 고려하고 treatment effect를 추정하는 경우
    • 각 unit 내에서 treatment 이전의 평균과 이후의 평균을 비교하여 효과를 추정한다.
      • customer 1 : (70+70 / 2) - 50 = 20
      • customer 2 : (30+50 / 2) - 10 = 30
      • (20+30 / 2) = 25
    • control group은 비교군이 없기 때문에 효과 추정에 전혀 활용되지 않는다. 즉 customer 3를 제외해도 추정치는 동일하다.
    • 이 때 treatment가 on → off → on을 반복하는 경우(reversible treatment), (treatment 적용 시점의 효과) - (treatment 미적용 시점의 효과)를 비교하여 각 unit의 효과를 추정하게 된다.
  3. time fixed effects까지 함께 고려하여 treatment effect를 추정하는 경우
    • treatment 그룹 내에서 한 unit의 treatment 전후 차이를 비교한 후 control 그룹 내 한 unit과의 시점별 차이를 평균낸다.
      • post-period 값에서 pre-period 값을 빼준 후 control 그룹과 동일한 시점별로 비교한다.
      • customer 1 : day2, 3의 평균값((20-(-20)+20-(-10)) / 2) - day1(0-0) = 35
      • customer 2 : day2, 3의 평균값((40-(-20)+20-(-10)) / 2) - day1(0-0) = 45
      • (45+35) / 2 = 40
    • control group이 여러 개 있다면 각 control group의 unit과 모두 비교한 수치의 평균값으로 효과를 추정한다. - 즉, TWFE는 unit 내에서 treatment 미적용 기간 대비 적용 기간의 차이를 연산하고, 시점별 control 그룹과의 차이를 한 번 더 연산하여 해당 값의 평균으로 ATE(전체 평균 효과)를 추정한다.