Posts

My thoughts and ideas

DID - 3. 유닛마다 서로 다른 시점에 처치를 받는다면? Staggered DID

Causal Inference · 30 Dec 2025

앞에서 살펴 본 고전적인 DID(Canonical DID)는 treatment가 모든 유닛에 동일한 시점에 적용되었다는 것을 가정한다. 만약 유닛마다 서로 다른 시점에 treatment를 받는다면 어떻게 해야 할까? 현실적으로 treatment 적용 시점이 다른 경우가 많기 때문에 최근 들어 다양한 분야에서 Staggered DID의 활용 빈도가 높아지고 있다. 이번 글에서는 Staggered DID에 대해 이해하고 대표 방법론을 알아보겠다.

Staggered DID

Treatment 할당 시점이 유닛마다 다른, 즉 staggered treatment adoption(= multiple treatment timings)이 발생하는 경우 Staggered DID를 고려해야 한다.
Staggered DID는 한 번 처치를 받은 유닛은 그 상태를 계속 유지한다는 것을 가정한다. 즉 처치가 원복되는 reversible treatment 상황은 고려하지 않는다.
최근 들어 다양한 분야에서 staggered DID의 활용 빈도가 높은데 이는 현실적으로 treatment가 적용되는 시점이 다른 경우가 많고, parallel trend assumption을 만족하기 위해 반드시 배제되어야 할 contemporaneous trend 혹은 post-treatment confounder의 가능성을 더 낮출 수 있기 때문이다.
그러나 기존에 많이 활용하던 TWFE DID Model로 Staggered treatment 상황을 분석하는 경우 DID estimator가 가중 평균되는 오류가 있음이 최근 연구를 통해 밝혀졌다. 따라서 staggered treatment 상황에서는 TWFE를 수행함에 많은 주의를 기울여야 한다.

그림 1. Bad comparison problem (source: 인과추론의 데이터과학)

유닛은 세 개의 유형으로 나눌 수 있다.
1. never-treated units : 한 번도 처치를 받지 않은 유닛
2. not-yet-treated(later-treated) units : 아직 처치를 받지 않은 유닛
3. already-treated(earler-treated) units : 이미 처치를 받은 유닛
각 시점 t마다 treated unit i는 위의 3개 유형과 비교하게 되는데, 이 때 already-treated unit과 비교하는 경우 잘못된 비교를 수행하게 된다(bad comparison). 이미 처치를 받은 유닛을 counterfactual로 사용하게 되는 오류가 발생하는 것이다.
최악의 경우 bad comparison은 모든 ATT가 양수임에도 불구하고 음의 효과가 있다는 결과를 얻게 만들 수도 있고, treatment variance가 클수록 이와 같은 weight은 더 커진다.
treatment의 효과가 treatment cohort(treatment 적용 시점이 같은 그룹) 간 동일하고, 그 효과가 시간에 따라 변하지 않는다면(heterogeneous treatment effect) TWFE 추정치도 문제가 없다. 그러나 그렇지 않은 경우(dynamic treatment effect)라면 편향된 결과를 얻게 된다.
(참고) Goodman-Bacon 2021; Imai and Kim 2021

Staggered DID 분석 모형

기본 모형

$Y_{it}=\beta_0\,+\,\beta_1Treat_i\,+\,\beta_2Post_{it}\,+\,\beta_3\cancel{Treat_i*Post_{it}}\,+\,\epsilon_{it}$

수식에서 $Treat_i*Post_{it}$는 treatment group에 대해서만 정의되므로 $Post_{it}$와 동일하다. 그러나 매칭 등을 통해 control group에 대해서도 $Post_{it}$를 정의할 수 있다면 동일하지 않을 수 있다.

1. Local DID Approach

valid comparison만 분리하여 local하게 ATT를 개별적으로 추정하고, 이를 결합하여 overall ATT를 추정하거나 event-study model처럼 dynamic treatment effect를 추정하는 방법론
Callaway and Sant’Anna (2021)
- 유닛별 최초 처치일을 기준으로 코호트(treatment cohort)을 나눈다. 예) time 1에 처치를 받은 유닛은 cohort 1, time 2에 처치를 받은 유닛은 cohort 2 등. 그룹별로 인과효과를 추정하기 때문에 고전적인 DID처럼 모든 유닛에 효과가 동일하다고 가정하거나, 공변량에 따라 효과가 선형으로만 달라진다는 가정이 더 이상 필요하지 않다. 즉, treatment heterogeneity로 인한 오류를 줄일 수 있다.
- 각 코호트에 대하여 연도별로 DID를 수행하되 never-treated 또는 not-yet-treated 까지만 포함하여 cohort x time별로 ATT를 추정한다.
- Treatment(t) 이후 시점의 ATT 추정 시에는 처치시점의 t-1을 baseline으로 하되(여기서는 2009년), pre-treatment 시점에는 추정시점 t-1을 baseline으로 사용한다(2005년에 대한 pre-treatment ATT는 2004년을 baseline으로 사용)
Sun and Abraham (2021)
- Sun and Abraham 방법론은 기존 TWFE event-study 모델에 코호트를 추가하고, auxiliary regression을 이용하여 그룹 별 여러 시점의 처치 효과를 가중 평균으로 표현하는 방식을 취한다. 이 방법은 그룹별 비중을 가중치로 추정하는 방식으로 직관적으로 각 그룹이 전체 평균 인과효과에 기여하는 정도를 해석할 수 있게 만든다.
- 여기서 auxiliary regression이란 코호트 x event-time interaction term을 먼저 추정하고, 이 계수를 코호트 비중을 사용해 재가중함을 의미한다.
- Callaway and Sant’Anna 방법론과 다른 점은 TWFE event-study를 적절하게 수정하는데 초점을 맞추고, never-treated 또는 last-treated(가장 마지막에 처치를 받는 유닛)만 사용하며, baseline을 pre-treatment 기간에도 수행시점 t-1으로 설정하는 경향이 있다는 점이다.
Imai et al.(2023)
- treatment unit에 대해서 동일한 treatment history를 공유하는 unit과 매칭하여 valid control group 구성한다.
분석 예시
- Overall ATT는 개별 $ATT_t$ 와 $ATT_{t+1...n}$의 평균으로 산출한다.
- $ATT_{t-1}$은 왜 구했을까? → DID의 기본 가정인 parallel trend assumption을 충족하려면 $ATT_{t-1}$가 0에 가까워야 한다(해당 예시는 pre-treatment parallel trend assumption을 위배하므로 DID 분석에 적절하지는 않다)

2. Imputation methods

never-treated group을 이용하여 counterfactual outcome을 예측하고 이를 기반으로 observed outcome과 비교하여 ATT를 추정하는 방법론
대표 방법론
- Borusyak et al.(2021)
- Liu et al.(2022)

CUPED - 더 빠르게 실험 결과를 얻는 방법

Experiments · 24 Nov 2025

실험을 하다보면 지표의 신뢰구간이 넓어 0을 포함할 때가 있다. 두 집단 간의 차이는 0과 꽤 떨어져 있는데 넓은 신뢰구간이 0을 포함하면 지표를 해석하는 것이 상당히 난감해진다. 지표의 분산을 줄이려면 어떻게 해야 할까? 가장 간단한 방법은 표본 크기를 늘리는 것이다. 전체 트래픽의 일부를 사용한 실험이라면 트래픽 비중을 최대 50%까지 높일 수 있다. 실험 기간을 연장하여 표본 크기를 늘리는 방법도 있다. 다만 실험 기간을 늘리는 것은 유저의 장기적인 행태에도 영향을 받을 수 있어 분산이 줄어들지 않을 가능성도 있다.

2013년 MS는 분산을 줄이기 위한 또다른 방법을 제안했는데 이것이 CUPED, Controlled experiment Using Pre-Experiment Data 이다. CUPED의 컨셉은 표준적인 delta 보다 분산이 더 작고, 더 효율적인 ATE 추정량을 사용하는 것이다.

먼저 통제변수 기법을 이해하고, CUPED가 통제변수 기법의 제약점을 어떻게 해소했는지 살펴본 후 실제 데이터에 적용하는 방식을 정리해보겠다. 이 글은 레퍼런스를 기반으로 세부 설명을 덧붙여 작성했고, CUPED의 근간이 되는 논문도 함께 읽어보는 것을 추천한다.

Control Variate

반복된 무작위 추출을 이용하여 수학적, 통계적 문제의 해를 근사적으로 구하는 몬테카를로 시뮬레이션도 두 집단의 차이인 delta를 추정하기 때문에 여기서도 분산을 줄이는 것이 관건이다.
Control variates(통제변수) 기법은 더 작은 분산을 갖는 대안적 몬테카를로 추정량을 제공한다. 이 때, 통제변수로 사용할, 기댓값 $\mu_x = \mathrm{E}(X)$을 알고 있는 확률변수 X가 필요하다.
통제변수가 어떻게 기댓값을 유지하면서도 분산을 줄여줄까? 먼저 임의의 $\theta$에 대해, 다음의 추정량 또한 $\mathrm{E}(Y)$의 불편추정량이 된다. 즉, 원래의 지표에 통제변수를 추가해도 기댓값은 변하지 않는다.
$$ \hat{Y}_{cv}:=\bar{Y}-\theta\bar{X}+\theta \mu_x $$

평균이 0인 것을 빼거나 더해도 기댓값은 변하지 않는다는 성질을 이용한다.
$X$라는 확률변수가 있고, $\mu_x = \mathrm{E}(X)$을 알고 있다면, $\mathrm{E}(X-\mu_x)=0$이다.
$$\mathrm{E}(X-\mu_x)=\mathrm{E}(X)-\mu_x=\mu_x-\mu_x=0$$
새로운 변수를 $Y_{cv}:=Y-\theta(X-\mu_x)$ 로 정의할 때, $Y_{cv}$의 기댓값은 다음과 같다.
$$ \mathrm{E}(Y_{cv})=\mathrm{E}(Y-\theta(X-\mu_x))=\mathrm{E}(Y)-\theta\mathrm{E}(X-\mu_x)=\mathrm{E}(Y) $$

$\theta$값에 관계없이 $Y_{cv}$는 항상 $\mathrm{E}(Y)$와 같은 기댓값을 갖는다.

새로운 변수에 대해 분산 $Var(\hat{Y}_{cv})$은 다음과 같이 정의된다.
$$ \begin{aligned} Var(\hat{Y}_{cv}) &= Var(\bar{Y}-\theta\bar{X})\\ &= \frac{Var(Y-\theta X)}{n}\\ &= \frac{1}{n}(Var(Y)+\theta^2 Var(X)-2\theta Cov(Y,X)) \end{aligned} $$

이 분산은 $\theta=Cov(Y,X)/Var(X)$일 때 최소가 된다.
이 최적의 $\theta$를 대입하면,
$$ Var(\hat{Y}_{cv})=\frac{1}{n}(Var(Y)-\frac{Cov(Y,X)^2}{Var(X)}) $$

이 때 상관계수 $\rho=\frac{Cov(Y,X)}{\sqrt{Var(Y)Var(X)}}$를 대입하면,
$$ \begin{aligned} Var(\hat{Y}_{cv})&=\frac{1}{n}(Var(Y)-Var(Y)\rho^2)\\ &=\frac{1}{n}(Var(Y)(1-\rho^2)\\ &=Var(\bar{Y})(1-\rho^2) \end{aligned} $$

즉, 새로 정의한 $\hat{Y}_{cv}$는 기댓값이 동일하면서도 분산이 $\rho^2$만큼 감소하게 된다. $\rho$가 커질수록, X와 Y의 상관성이 높을수록 분산 감소 효과는 커진다.
$$ \frac{Var(\hat{Y}_{cv})}{Var(\bar{Y})}=1-\rho^2 $$
단일 control variate 케이스를 여러 변수를 포함하는 형태로 쉽게 일반화 할 수 있다. 선형회귀와 연결하여 생각해보면, 최적의 $\theta$는 결국 OLS 회귀에서 중심화된 Y를 중심화된 X에 회귀시켰을 때의 해와 동일하며, 여러 개의 변수를 사용하는 다변량 회귀에서도 해당 추정량의 분산은 다음과 같이 된다.
$$ Var(\hat{Y}_{cv})=Var(\bar{Y})(1-R^2) $$

CUPED

그러나 실무에서는 Y와 상관성이 높으면서도 $\mu_x$를 알고 있는 X를 찾는 것이 쉽지 않다.
Alex Deng은 2013년 논문에서 랜덤화된 실험에서는 Control variate X의 $\mu_x$를 모르면 각 변형군의 평균은 구할 수 없지만 ATE는 구할 수 있음을 관찰했다.

$\Delta^*$을 변형된 $Y_{cv}$값으로 정의하면,
$$ \begin{aligned} \Delta^{*} &:= \bar{Y}_{cv}(t) - \bar{Y}_{cv}(c)\\ &= \bar{Y}^{(t)}-\theta\bar{X}^{(t)}+\theta\mathrm{E}(X^{(t)})-(\bar{Y}^{(c)}-\theta\bar{X}^{(c)}+\theta\mathrm{E}(X^{(c)}))\\ &= \bar{Y}^{(t)}-\bar{Y}^{(c)}-\theta(\bar{X}^{(t)}-\bar{X}^{(c)})+\theta(\mathrm{E}(X^{(t)})-\mathrm{E}(X^{(c)}))\\ &= \Delta(Y)-\theta\Delta(X)+\theta(\mathrm{E}(X^t)-\mathrm{E}(X^c)) \end{aligned} $$
따라서 $\mathrm{E}(X^t)=\mathrm{E}(X^c)$를 만족하는, 즉 처치가 X에 영향을 주지 않는 X를 찾으면 되는데, 랜덤화된 실험에서는 pre-experiment 지표들이 이에 해당한다. 여기서 CUPED의 이름이 유래되었다.

정확히는 처치 개입이 trigger 되기 전의 지표를 의미한다. 반드시 Pre-experiment 지표가 아니더라도 처치와 무관한 지표(유저가 실험에 최초 개입된 요일, 연령, 성별, 브라우저/디바이스 정보 등)면 이에 해당한다.

Alex Deng은 논문에서 CUPED를 적용했을 때 얼마나 분산이 감소하는지 보여준다.

그림 1. Variance reduction in action for a real experiment.
Top : p-value, Bottom : p-value when using only half the users for CUPED

p-value는 $T=\frac{difference\;in\;means}{standard\;errors}$ 통계량에 의해 결정된다. 즉, 델타의 분산에 직접적으로 영향을 받는다. 따라서 위의 그래프에서 p-value가 절반 정도 줄어드는 양상을 통해 CUPED가 분산 감소에 기여함을 확인할 수 있다.
아래 그래프에서도 절반 크기의 샘플을 사용하더라도 CUPED가 전체 샘플을 사용한 t-test보다 더 작은 분산으로 p-value를 만들어냄을 확인할 수 있다.

최적의 $\theta=\frac{Cov(Y,X)}{Var(X)}$를 얻을 때, treatment group와 control group 중 어떤 값을 사용해야 할까? 처치 효과가 아주 큰 경우가 아니라면 일반적으로 그룹별 최적의 $\theta$ 값이 거의 비슷하기 때문에 어떤 값을 사용해도 무방하다. 그럼에도 불구하고 최적의 $\theta$를 찾고 싶다면 아래의 수식을 활용하거나 pooled data(변형군 구분없이 전체 데이터)를 활용할 수 있다.
$$ \frac{Cov(\bar{Y^t}, \bar{X^t})+Cov(\bar{Y^c}, \bar{X^c})}{Var(\bar{X^t}+\bar{X^c})} $$
Pre-experiment 지표를 X로 취하는 경우, 실험 기간에 최초로 유입되는 유저는 지표 값이 존재하지 않는다. Alex Deng은 이런 경우 지표를 0으로 처리하되, pre-experiment에 유효한 값을 가지는지에 대한 여부를 binary indicator로 추가하는 방식을 권한다.

CUPED 적용해보기

Cov(Y,X)와 X의 평균, 분산을 연산하고, 이를 활용하여 최적의 $\theta$를 구한다.
각 사용자 별로 실험 이전 기간의 X 데이터를 계산한다.
전체 집단(population)의 통계값을 유저 레벨 데이터에 붙힌다.
유저별 변형된 지표를 생성한다. $Y_{cv}=Y-\theta X+\theta\mathrm{E}(X)$
변형된 지표로 기존의 통계 분석을 수행한다.

Reference

DID - 2. DID의 일반화 - TWFE 모델 (2)

Causal Inference · 30 Sep 2025

지난 글에서는 TWFE 모델의 기본 개념과 unit fixed effects와 time fixed effects가 교란 요인을 어떻게 통제하는지 살펴봤다. 이번 글에서는 Fixed effects 모델을 추정하는 방식 중 LSDV와 Within Estimator의 원리를 이해하고 이를 TWFE로 확장해본다. 또한 샘플 데이터를 활용해 각 방식으로 인과효과를 추정하는 과정을 코드와 함께 구체적으로 살펴보자.

Estimation

Fixed Effects Model

$ Y_{it}=\beta_i+\beta_1X_{it}+\epsilon_{it} $

단순 fixed effects model은 unit을 통제하는 기법으로 유닛 간의 변동(between-variation)을 제어한다. fixed effects를 통해 시간에 따라 변하지 않는(time-invariant) unit의 특성을 통제한다.
Fixed effects 모델은 unit 마다 개별 Intercept를 갖는다.
1. 직관적으로 unit 마다 개별 특성을 제어한다는 의미로 이는 unit 마다 binary variable을 더해주는 것과 같은 역할을 한다. 각 $\beta_i$는 ith binary variable의 efficient이다.
2. intercept가 분리됨으로써 unit 마다의 regression line이 분리된다.
개별 intercept로 regression line을 추정하는 방식은 2가지가 있다.
1. LSDV (Least Squares Dummy Variables)
  - unit의 특성을 이진 더미 변수로 처리하고 회귀분석을 진행하는 방식 (n개의 unit에 대해 n-1개의 더미변수 생성)
  - 추정해야 하는 파라미터가 너무 많아서 과적합 또는 자유도 감소 문제가 발생할 수 있다. 따라서 unit 수가 적고 unit 간의 특성 차이가 중요한 경우에 사용한다.
2. Within Estimator
  - unit 에서 시간에 걸친 평균값을 먼저 계산하고 원래 모형에서 평균값을 빼준다.
  - $Y_{it}-\bar{Y_i}=\beta_0+\beta_1(X_{it}-\bar{X_i})+\epsilon_{it}$
  - X가 단위 1만큼 높을 때 y가 $\beta_1$만큼 높다고 해석할 수 있다.
  - Fixed effects 모델의 $R^2$는 within $R^2$로, Y의 전체 변동성이 아닌 내부 변동성(within variation)에 비해 잔차가 얼마나 변동하는지를 측정한다. 고정효과 제거 후 시간에 따른 변동성을 얼마나 설명하는가?

Two-Way Fixed Effects model (TWFE)

\[Y_{it}=\beta_i+\beta_t+\beta_1X_{it}+\epsilon_{it}\]

TWFE 모델은 unit effects와 time effects를 모두 포함한다.

샘플 데이터로 살펴보기

샘플 데이터로 2가지 추정 방식을 수행하고 그 결과를 비교해보자. 데이터는 이전 글에서 사용했던 샘플을 일부 가공하였다.

customer_id	day	push_notification	purchase_amt	dummy1	dummy2	dummy3	dummy4	time1	time2	time3
1	20251014	0	50	1	0	0	0	1	0	0
1	20251015	1	70	1	0	0	0	0	1	0
1	20251016	1	70	1	0	0	0	0	0	1
2	20251014	0	10	0	1	0	0	1	0	0
2	20251015	1	30	0	1	0	0	0	1	0
2	20251016	1	50	0	1	0	0	0	0	1
3	20251014	0	30	0	0	1	0	1	0	0
3	20251015	0	20	0	0	1	0	0	1	0
3	20251016	0	10	0	0	1	0	0	0	1
4	20251014	0	60	0	0	0	1	1	0	0
4	20251015	0	40	0	0	0	1	0	1	0
4	20251016	0	60	0	0	0	1	0	0	1

LSDV

LSDV 방식은 unit 마다의 dummy variable(dummy1, 2, 3, 4)과 시점 마다의 dummy variable(time 1, 2, 3)을 생성한다.
회귀모델 결과를 보면 push_notification(x1)의 계수는 37.5. 즉 push 메세지 알림을 받은 경우 받지 않았을 때보다 평균 구매 수량이 37.5 증가한다고 해석할 수 있다.

import pandas as pd
import statsmodels.api as sm
import numpy as np

df = pd.read_csv('fixed_effects_exercise.csv')

# linear regression
col_x = ['push_notification', 'dummy1', 'dummy2', 'dummy3', 'time1', 'time2', 'time3']
col_y = 'purchase_amt'

X = df[col_x].to_numpy()
y = df[col_y].to_numpy()

X_const = sm.add_constant(X)
df_fit = sm.OLS(y, X_const).fit()

print(df_fit.summary())

Within Estimator

LSDV 방식은 직관적이지만 unit이 많을 때는 사용하기가 어렵다.
위와 동일하게 push_notification의 계수가 37.5로 추정되는 것을 볼 수 있다.

import linearmodels as lm
import pandas as pd

df = pd.read_csv('fixed_effects_exercise.csv')
df = df.set_index(['customer_id', 'day'])

mod = lm.PanelOLS.from_formula('''purchase_amt ~ push_notification + EntityEffects + TimeEffects''', df)
twfe = mod.fit()
print(twfe)

DID - 2. DID의 일반화 - TWFE 모델 (1)

Causal Inference · 29 Sep 2025

TWFE, Two-Way Fixed Effects model은 DID를 일반화한 형태이다. 고전적인 2x2 DID는 2개의 그룹(treatment/control)과 2개의 시점(처치 전후)을 비교하는 반면, TWFE는 여러 unit과 여러 시점을 동시에 다룰 수 있어 보다 복잡한 상황에 적용할 수 있다. 먼저 패널 데이터와 fixed effects가 무엇인지 살펴보고, TWFE가 어떻게 인과효과를 추정하는지 알아보자.

패널 데이터

여러 unit을 여러 시점에 걸쳐 반복적으로 관찰한 데이터
인과추론 관점에서 패널 데이터는 강점을 갖는다.
- 여러 unit의 데이터, Cross-sectional data는 treatment를 받지 않은 unit을 control group으로 활용해 counterfactual을 추정할 수 있다.
- 한편 여러 시점의 데이터, Time-series data는 pre-treatment period 데이터로 counterfactual로 추정한다.
- 즉 control group을 활용해 시간에 따라 변하는 특성(time-varying confounder)을 제어할 수 있고, pre-treatment period로 시간에 따라 변하지 않는 특성(time-invariant confounder)을 제어함으로써 인과추론이 가능한 형태를 갖는다.
패널 데이터를 분석할 때 전통적으로는 Hausman test를 통해 fixed effects를 사용할 지, random effects를 사용할 지 판단했으나, 현대 인과추론 프레임워크에서는 fixed effects를 사용하는 것이 디폴트에 가깝다.

Fixed Effects

unit fixed effects
- unit fixed effects는 time-invariant confounder(유저의 성별, 상품 카테고리 등)를 명시적으로 통제한다. 따라서 인과효과를 추정하기 위해서는 time-varying confounder에 대해서 비교 가능한 control group을 찾아야 한다.
- unit fixed effects는 within-group 비교(unit 내에서 비교)를 가능하게 하며, 매칭과 유사한 역할을 수행한다.
time fixed effects
- unit fixed effects를 적용한 상황에서 time fixed effects를 통해 pre-treatment 시점의 treatment 그룹과 control 그룹 간의 차이를 통해 time-varying confounder도 명시적으로 통제할 수 있다. 따라서 최소한 time trend에 대해서만 비교 가능한 control group을 찾으면 유효한 인과효과 추정이 가능하다.
- time fixed effects는 unit fixed effects와 유사하게 within-time 비교를 가능하게 한다.
TWFE (Two-Way Fixed Effects)
- 이처럼 unit fixed effects와 time fixed effects를 모두 사용하는 모델을 TWFE 모델이라고 한다.
- 패널 데이터 구조에서는 일반 회귀모델의 기본 가정 중 하나인 오차항의 i.i.d 가정을 충족하기 어렵다. 따라서 실무에서는 패널 단위로 clustered standard error를 구함으로써 한 unit에 대한 여러 시점의 residual 간에는 intercorrelation이 존재할 수 있음을 허용해준다.
  - 구체적으로는 회귀모델의 표준오차를 계산할 때 클러스터 특성을 가중치로 반영해준다.
- 만약 클러스터의 개수가 적다면(50개 이하) 이러한 방식이 유효하지 않을 수 있으므로 cluster-bootstrapped standard error를 사용하는 것이 보다 적절하다.

TWFE의 원리 이해하기

unit fixed effects를 고려하지 않고 treatment effect를 추정하는 경우
- 전체 데이터 중 treatment 그룹의 purchase amount 평균과 control 그룹의 평균값을 비교한다.
- treatment 그룹 평균(70+70+30+50 / 4) - control 그룹 평균(50+10+30+20+10 / 5) = 55 - 24 = 31
unit fixed effects를 고려하고 treatment effect를 추정하는 경우
- 각 unit 내에서 treatment 이전의 평균과 이후의 평균을 비교하여 효과를 추정한다.
  - customer 1 : (70+70 / 2) - 50 = 20
  - customer 2 : (30+50 / 2) - 10 = 30
  - (20+30 / 2) = 25
- control group은 비교군이 없기 때문에 효과 추정에 전혀 활용되지 않는다. 즉 customer 3를 제외해도 추정치는 동일하다.
- 이 때 treatment가 on → off → on을 반복하는 경우(reversible treatment), (treatment 적용 시점의 효과) - (treatment 미적용 시점의 효과)를 비교하여 각 unit의 효과를 추정하게 된다.
time fixed effects까지 함께 고려하여 treatment effect를 추정하는 경우
- treatment 그룹 내에서 한 unit의 treatment 전후 차이를 비교한 후 control 그룹 내 한 unit과의 시점별 차이를 평균낸다.
  - post-period 값에서 pre-period 값을 빼준 후 control 그룹과 동일한 시점별로 비교한다.
  - customer 1 : day2, 3의 평균값((20-(-20)+20-(-10)) / 2) - day1(0-0) = 35
  - customer 2 : day2, 3의 평균값((40-(-20)+20-(-10)) / 2) - day1(0-0) = 45
  - (45+35) / 2 = 40
- control group이 여러 개 있다면 각 control group의 unit과 모두 비교한 수치의 평균값으로 효과를 추정한다. - 즉, TWFE는 unit 내에서 treatment 미적용 기간 대비 적용 기간의 차이를 연산하고, 시점별 control 그룹과의 차이를 한 번 더 연산하여 해당 값의 평균으로 ATE(전체 평균 효과)를 추정한다.