A/B 테스트, 왜 필요할까?

Experiments · 14 Mar 2025

프로덕트를 런칭하거나 기존 기능을 개선할 때 어떤 선택이 더 좋은 결과를 가져올지 어떻게 판단할 수 있을까? 흔히 A/B 테스트로 불리는 온라인 통제 실험은 데이터에 기반한 객관적인 의사결정을 돕는 강력한 도구이다. 하지만 실험을 올바르게 설계하고 분석해야만 의미있는 인사이트를 얻을 수 있다. 이번 글에서는 온라인 통제 실험이 무엇인지, 그리고 왜 많은 조직에서 A/B 테스트를 중요하게 생각하는지 살펴보자.

1. 온라인 통제 실험이 무엇인가?

온라인 통제 실험(Online Controlled Experiments, OCEs)은 온라인 환경에서 새로운 요소나 변경된 요소가 사용자에게 미치는 영향을 측정하는 가장 강력한 방법론이다. 전체 사용자 그룹을 2개 또는 n개의 그룹으로 나누어 하나의 그룹에는 기존의 화면을, 나머지 그룹에는 새로운 화면을 보여준 후 각 그룹의 반응을 비교한다. 그룹 간의 결과를 비교했을 때 새로운 화면을 본 그룹이 더 좋은 성과를 보인다면 전체 적용을 고려해볼 수 있고, 만약 반대의 결과가 나온다면 기존 화면으로의 롤백을 고려한다.

예시를 통해 좀 더 자세히 살펴보자. 현재 사이트 상세 페이지는 왼쪽에 이미지를, 오른쪽에는 텍스트를 배치하여 정보를 더 많이 전달하는 방향으로 구성되어 있다. 그런데 상세 페이지가 복잡해서 탐색이 피로하다는 고객 VoC를 받게 되었고, 이에 화면 재배치를 고민하게 된다. 이미지를 가운데 배치하면 고객의 탐색 여정에 도움이 될까? 이 문제의 답은 실험을 통해서 얻을 수 있다.

상세 페이지를 방문하는 고객을 두 개의 그룹으로 나누고, 한 그룹에는 기존의 화면을, 다른 그룹에는 이미지가 가운데 위치한 새로운 화면을 노출한다. 이때 각 그룹을 변형군(Variant)이라고 하고, 이 중 기존 화면에 노출되는 그룹이 대조군(Control group), 새로운 화면에 노출되는 그룹이 실험군(Test group)이다. 예시처럼 2개의 변형군을 가진 실험은 A/B 테스트, 3개 이상의 변형군을 가진 실험은 A/B/N 테스트라 한다.

이번 실험의 목적은 화면을 변경해 고객이 페이지를 더 탐색하도록 만드는 것이므로, 두 그룹 간의 페이지 조회 수를 비교한다. 실험 결과 기존 화면을 봤던 대조군은 총 10만회, 실험군은 25만회의 조회 수를 기록했다. 이를 통해 이미지를 화면 가운데로 배치한 결정이 탐색 여정에 도움이 되었다는 정량적인 판단을 내릴 수 있다.

created with Flaticon icons

2. 온라인 통제 실험은 왜 필요할까?

그렇다면 왜 많은 사람들이 온라인 실험에 관심을 가질까? 결론부터 말하자면 온라인 통제 실험은 인과추론 방법론 중 가장 단순하면서도 가장 분명하게 인과효과를 측정할 수 있는 방법이기 때문이다.

글의 초반으로 돌아가서, 프로덕트의 변화에 따른 성과를 관찰한다는 것은 어떤 의미일까? 이는 프로덕트의 변화가 고객의 반응을 실제로 바꾸었는지 직접적인 “인과관계”를 알고자 하는 것이다. 굳이 실험이라는 복잡한 방법을 쓰지 않고 프로덕트 런칭 이전과 이후를 비교하여 그 효과를 평가할 수 있다고 생각할 수도 있다. 하지만 이런 방식의 비교에는 오류가 발생할 가능성이 있다.

첫 번째는 시간의 변화에 따른 오류다. 만약 프로덕트 런칭 이후에 연휴 기간이 있었다면 어떨까? 성과가 좋아졌다고 해서 이를 온전히 프로덕트의 성과라고 판단하기는 어렵다. 이벤트 효과를 보정하는 다양한 방법론이 존재하지만, 이를 완벽하게 제거하는 것은 쉽지 않다.

유저의 성향에 따른 오류도 발생할 수 있다. 구매력이 높은 고객이 프로덕트 런칭 이후에 우연히 많이 유입되었다면, 이번에도 성과 개선이 프로덕트 변화 때문인지, 아니면 구매력이 높은 고객이 많았기 때문인지 판단하기 어렵다. 이처럼 성과에 영향을 미치는 요인은 매우 다양하기 때문에 프로덕트 변화로부터 기인하는 순수한 효과를 측정하는 데에는 많은 제약이 따른다. 이러한 요인을 혼동요인(Confounder)이라고 한다.

많은 인과추론 문제는 이러한 혼동요인을 어떻게 제어할 것인가에 관심이 있다. 온라인 통제 실험에서 말하는 “통제”란 X와 Y의 인과관계를 파악하는 데 영향을 주는 다른 요인을 “제어”한다는 의미다. 혼동요인을 제어하는 가장 직관적인 방법은 다음 질문에서 출발한다. “만약 이 일이 벌어지지 않았다면 어땠을까?” 모든 조건이 동일한 상태에서 X가 그대로일 때와 달라졌을 때의 결과를 비교해본다면, X로 인한 인과적 효과를 명확하게 측정할 수 있다. 즉, 이미 벌어진 현실에 대해 그 반대를 상상해보는 반사실(Counterfactual) 자료만 있다면 인과효과를 비교적 쉽게 측정할 수 있다.

말 그대로 이미 벌어진 현실의 정반대되는 상황을 상상하는 것이기 때문에 counterfactual을 얻는 일은 쉽지 않다. 하지만 온라인 통제 실험의 힘은 여기서 빛을 발한다. 사용자 그룹을 나누어 한 그룹에는 새로운 화면을 보여주고, 다른 그룹에는 기존 화면을 보여주면 “만약 새로운 화면을 보지 않았다면 고객이 보여주었을 반응”을 관측할 수 있게 되고, 이를 통해 비교적 간단한 방식으로 프로덕트 변화의 효과를 정량화할 수 있다. 다양한 인과추론 기법을 인과추론의 수준에 따라 나열해보면 온라인 통제 실험이 상단에 위치해 있다. 상대적으로 단순한 방법으로 높은 수준의 인과추론이 가능하기 때문에 많은 기업에서 실험을 적극적으로 시도한다.