DID - 2. DID의 일반화 - TWFE 모델 (1)
Causal Inference ·TWFE, Two-Way Fixed Effects model은 DID를 일반화한 형태이다. 고전적인 2x2 DID는 2개의 그룹(treatment/control)과 2개의 시점(처치 전후)을 비교하는 반면, TWFE는 여러 unit과 여러 시점을 동시에 다룰 수 있어 보다 복잡한 상황에 적용할 수 있다. 먼저 패널 데이터와 fixed effects가 무엇인지 살펴보고, TWFE가 어떻게 인과효과를 추정하는지 알아보자.
패널 데이터
- 여러 unit을 여러 시점에 걸쳐 반복적으로 관찰한 데이터
- 인과추론 관점에서 패널 데이터는 강점을 갖는다.
- 여러 unit의 데이터, Cross-sectional data는 treatment를 받지 않은 unit을 control group으로 활용해 counterfactual을 추정할 수 있다.
- 한편 여러 시점의 데이터, Time-series data는 pre-treatment period 데이터로 counterfactual로 추정한다.
- 즉 control group을 활용해 시간에 따라 변하는 특성(time-varying confounder)을 제어할 수 있고, pre-treatment period로 시간에 따라 변하지 않는 특성(time-invariant confounder)을 제어함으로써 인과추론이 가능한 형태를 갖는다.
- 패널 데이터를 분석할 때 전통적으로는 Hausman test를 통해 fixed effects를 사용할 지, random effects를 사용할 지 판단했으나, 현대 인과추론 프레임워크에서는 fixed effects를 사용하는 것이 디폴트에 가깝다.
Fixed Effects
- unit fixed effects
- unit fixed effects는 time-invariant confounder(유저의 성별, 상품 카테고리 등)를 명시적으로 통제한다. 따라서 인과효과를 추정하기 위해서는 time-varying confounder에 대해서 비교 가능한 control group을 찾아야 한다.
- unit fixed effects는 within-group 비교(unit 내에서 비교)를 가능하게 하며, 매칭과 유사한 역할을 수행한다.
- time fixed effects
- unit fixed effects를 적용한 상황에서 time fixed effects를 통해 pre-treatment 시점의 treatment 그룹과 control 그룹 간의 차이를 통해 time-varying confounder도 명시적으로 통제할 수 있다. 따라서 최소한 time trend에 대해서만 비교 가능한 control group을 찾으면 유효한 인과효과 추정이 가능하다.
- time fixed effects는 unit fixed effects와 유사하게 within-time 비교를 가능하게 한다.
- TWFE (Two-Way Fixed Effects)
- 이처럼 unit fixed effects와 time fixed effects를 모두 사용하는 모델을 TWFE 모델이라고 한다.
- 패널 데이터 구조에서는 일반 회귀모델의 기본 가정 중 하나인 오차항의 i.i.d 가정을 충족하기 어렵다. 따라서 실무에서는 패널 단위로 clustered standard error를 구함으로써 한 unit에 대한 여러 시점의 residual 간에는 intercorrelation이 존재할 수 있음을 허용해준다.
- 구체적으로는 회귀모델의 표준오차를 계산할 때 클러스터 특성을 가중치로 반영해준다.
- 만약 클러스터의 개수가 적다면(50개 이하) 이러한 방식이 유효하지 않을 수 있으므로 cluster-bootstrapped standard error를 사용하는 것이 보다 적절하다.
TWFE의 원리 이해하기
- unit fixed effects를 고려하지 않고 treatment effect를 추정하는 경우
- 전체 데이터 중 treatment 그룹의 purchase amount 평균과 control 그룹의 평균값을 비교한다.
- treatment 그룹 평균(70+70+30+50 / 4) - control 그룹 평균(50+10+30+20+10 / 5) = 55 - 24 = 31
- unit fixed effects를 고려하고 treatment effect를 추정하는 경우
- 각 unit 내에서 treatment 이전의 평균과 이후의 평균을 비교하여 효과를 추정한다.
- customer 1 : (70+70 / 2) - 50 = 20
- customer 2 : (30+50 / 2) - 10 = 30
- (20+30 / 2) = 25
- control group은 비교군이 없기 때문에 효과 추정에 전혀 활용되지 않는다. 즉 customer 3를 제외해도 추정치는 동일하다.
- 이 때 treatment가 on → off → on을 반복하는 경우(reversible treatment), (treatment 적용 시점의 효과) - (treatment 미적용 시점의 효과)를 비교하여 각 unit의 효과를 추정하게 된다.
- 각 unit 내에서 treatment 이전의 평균과 이후의 평균을 비교하여 효과를 추정한다.
- time fixed effects까지 함께 고려하여 treatment effect를 추정하는 경우
- treatment 그룹 내에서 한 unit의 treatment 전후 차이를 비교한 후 control 그룹 내 한 unit과의 시점별 차이를 평균낸다.
- post-period 값에서 pre-period 값을 빼준 후 control 그룹과 동일한 시점별로 비교한다.
- customer 1 : day2, 3의 평균값((20-(-20)+20-(-10)) / 2) - day1(0-0) = 35
- customer 2 : day2, 3의 평균값((40-(-20)+20-(-10)) / 2) - day1(0-0) = 45
- (45+35) / 2 = 40
- control group이 여러 개 있다면 각 control group의 unit과 모두 비교한 수치의 평균값으로 효과를 추정한다.
- 즉, TWFE는 unit 내에서 treatment 미적용 기간 대비 적용 기간의 차이를 연산하고, 시점별 control 그룹과의 차이를 한 번 더 연산하여 해당 값의 평균으로 ATE(전체 평균 효과)를 추정한다.
- treatment 그룹 내에서 한 unit의 treatment 전후 차이를 비교한 후 control 그룹 내 한 unit과의 시점별 차이를 평균낸다.