빠르고 성공적인 기능 출시를 위한 가설 검증

2022.04.05

|

1469
빠르고 성공적인 기능 출시를 위한 가설 검증

*잠깐, 이 글을 소개해드리는 위시켓은 2019년 시밀러웹 방문자 수 기준, 국내 1위 IT아웃소싱 플랫폼입니다.

현재 9만 이상의 개발업체, 개발 프리랜서들이 활동하고 있으며, 무료로 프로젝트 등록이 가능합니다. 프로젝트 등록 한 번으로 여러 개발업체의 견적, 포트폴리오 예상기간을 한 번에 비교해보세요📝

기능 개선을 위한 가설 검증

지금 여러분의 스마트폰을 꺼내 앱스토어나 플레이스토어에 들어가서 업데이트 내역을 살펴보면 대부분이 최근 일주일 사이에 새로운 버전이 올라왔다는 사실을 알게 될 것입니다. 같은 웹 사이트라도 몇 주 후에 방문하면 레이아웃이나 사용자, 혹은 카피 문구가 바뀌어 있을 수 있습니다.

오늘날 소프트웨어는 사용자에게 더 나은 제품 경험을 제공하는 것이 무엇인지 시도하고 검증하기 위해 지속적으로 업데이트됩니다. 제가 전에 일했던 부킹닷컴(booking.com)과 같은 회사는 이를 위해 자사의 웹사이트에서 수백 개의 A/B 테스트를 수행합니다.

인터넷 애플리케이션은 복잡한 패키징과 배송 과정이 없기 때문에 출시 1년 전부터 제품의 외관에 대해 고민하지 않아도 됩니다. 대신 개발을 진행하며 사용자에게 가치를 제공해 줄 수 있는 작은 기능들을 하나씩 배포할 수 있습니다. 이는 매우 효과적이고 실용적인 방식이며 사용자가 무엇을 선호하고 가장 이상적인 솔루션이 무엇인지 지레짐작하지 않아도 됩니다. 모든 가설이나 변경사항을 기존 서비스에 영향 없이 테스트할 수 있습니다.

또한, 기능 개선을 통해 지속적인 가치를 제공할 수 있으며 사용자로부터 꾸준히 피드백을 수집하고 필요에 따라 방향을 수정할 수 있습니다. 2-3주 마다 가설을 세우고 이를 ‘가설 검증’하는 과정을 반복함으로써 더 쉽고 비용 효율적으로 제품 가치를 창출할 수 있습니다.

‘가설 검증’이란?

새로운 기능을 사용자에게 제공하려면 그에 앞서 실제로 제품에 미치는 영향을 이해해야 합니다. 이때 필요한 것이 ‘가설 검증'(Hypothesis Testing) 입니다.

전통적인 ‘가설 검증’은 실험자가 변경 사항에 대한 가설을 설명하고 성공 요건을 정의하며 이를 확인하는 과정으로 이루어집니다. 예를 들어, 아마존의 한 데이터 프로덕트 매니저는 제품 사진의 크기를 늘리면 전환율이 높아진다는 가설을 가지고 있습니다. 이 경우 더 높은 전환율이 성공 요건이 됩니다.

‘가설 검증’의 중요한 부분 중 하나는, 성공 여부에 따라 제품의 변경 사항을 언제든지 되돌릴 수 있도록 다양한 변수를 분리해 놓는 것입니다. 예를 들어, 제품 이미지 바로 옆에 고객 리뷰를 표시하면 전환율이 높아진다는 새로운 가설이 있더라도 기존의 다른 가설과 함께 테스트하는 것은 불가능합니다. 두 가지 가설을 동시에 검증하려 하면 원인과 결과 사이의 인과관계를 찾기 힘들어지므로 두 가지 변경사항을 나누어 독립적으로 테스트해야 합니다.

따라서 제품에 추가될 기능을 결정하는 것은 항상 이러한 테스트를 통한 ‘가설 검증’이 뒷받침되어야 합니다.

다양한 유형의 가설 테스트

A/B 테스트 (A/B TEST)

A/B 테스트를 통한 가설 검증

가장 많이 사용하는 검증 방법으로서 무작위 표본에 대한 A/B 테스트를 수행합니다. 여기서 변경 사항이나 새로운 기능은 불특정 사용자 절반(A)에게 제공되고 나머지 절반(B)은 기존 사이트를 그대로 사용합니다. 앞서 언급했던 제품 사진이 더 크면 더 높은 전환율로 이어진다는 ‘가설 검증’할 경우, 절반의 사용자에게는 변경 사항을 보여주고 나머지 절반에게는 기존과 동일한 웹 사이트를 보여줍니다. 그런 다음 각 그룹별로 전환율을 측정하고 비교합니다. 더 큰 제품 사진을 본 사용자 그룹이 확연히 높은 전환율을 보인다면, 이는 옳은 가설이며 모든 사용자를 대상으로 변경 사항을 적용할 수 있다는 것을 의미합니다.

다변량 테스트(Multivariate Test)

다변량 테스트를 통한 가설 검증



이상적인 테스트라면 각 변수를 엄격하게 분리하고 개별적으로 테스트하여 결과가 항상 특정 변경 사항에 귀속되어야 합니다. 그러나 순차적인 테스트 접근 방식은 테스트할 버전이 여러 개라면 매우 느려집니다. 앞서 살펴본 더 큰 제품 사진이 더 높은 전환율로 이어진다는 가정에서, “더 큰 사진”은 주관적인 개념이고 여기에는 하나 이상의 버전(예: 1.1x, 1.3x 및 1.5x)이 존재할 수 있습니다.

이러한 경우 각 버전에 대한 테스트를 차례대로 진행하기보다, 사용자를 두 그룹이 아닌 여러 변수를 가진 복수의 그룹으로 나누는 다변량 테스트를 진행할 수 있습니다. 예를 들어, 4개의 그룹(A, B, C, D)은 각각 사용자의 25%로 구성되며, A 그룹에는 변경 사항이 적용되지 않습니다. 반면 B, C 및 D의 그룹에는 각각 1.1x, 1.3x 및 1.5x의 더 큰 제품 사진을 보여줍니다. 다변량 테스트는 이처럼 최상의 결과를 보이는 변수 그룹을 식별하기 위해, 기존 제품에 대한 여러 변형을 동시에 테스트합니다.

전/후 테스트 (Before/After Test)

네트워크 효과로 인해 사용자를 반 혹은 여러 그룹으로 나누기 힘들 수도 있습니다. 예를 들어, 우버에서 요금을 인상하는 것이 좋은 생각인지 검증하고 싶은 경우, 단순하게 드라이버를 특정한 변수 그룹으로 나눌 수 없습니다. 그룹마다 다른 요금을 적용하는 순간 수요와 공급의 불일치가 발생하기 때문입니다. 이러한 경우, 의미 있는 결론을 얻으려면 변경 전과 변경 후의 효과를 비교해야 합니다.

전/후 테스트를 통한 가설 검증

그러나 또 다른 단점은 변경 전후 기간에 따라 다른 영향을 줄 수 있는 계절성과 같은 외부 효과를 배제할 수 없다는 것입니다. 우버가 특정 시간 t를 기준으로 요금을 급격히 인상한다고 가정해 보겠습니다. 변경 전에 사용되던 과금 체계를 A , 변경 후를 B라고 부르겠습니다. 시간 t를 전후로 그 효과를 비교할 수 있지만 그 효과가 오직 과금 체계 변경에 따른 것이라는 보장이 없습니다. 과금 체계 외에도 두 기간 사이에 걸쳐서 나타난 수요의 변화나 기타 외부 요인이 영향을 미칠 수 있기 때문입니다.

시간 기반 온/오프 테스트 (Time-based On/Off Test)

온/오프 테스트를 통한 가설 검증



전/후 테스트의 단점은 시간 기반 온/오프 테스팅을 통해 보완할 수 있습니다. 동일한 변경 사항을 전체 사용자에게 일정 시간 적용하고, 다시 일정 시간 동안 이를 제거합니다. 그리고 이를 충분한 기간 교차 반복합니다.

위에서 살펴본 우버 예제에 적용해보면, 월요일에 요금 인상을 적용하고, 화요일에 원상복구하고, 수요일에 다시 인상하는 식입니다.

이러한 방법이 계절성과 외부요인을 완전히 제거해주는 것은 아니지만, 테스트의 신뢰도를 한 단계 높여줍니다.

테스트 설계



여러분의 가설을 가장 빠르고 확실하게 검증하려면 유스케이스에 적합한 테스트를 선택하는 것이 필수입니다. 어떤 테스트를 사용할지 선택했다면 이제 세부 사항을 설계할 때입니다.

테스트 설계는 일반적으로 다음을 포함입니다.

· 테스트할 가설: 사용자에게 더 큰 제품 사진을 보여주면 더 많은 제품을 구매할 것이다.

· 테스트의 성공 지표: 고객 전환율

· 테스트 결과 의사 결정 기준: 테스트는 실험 집단의 사용자가 통제 그룹의 사용자보다 전환율이 더 높을 것이라는 ‘가설 검증’한다.

· 테스트를 평가하기 위한 측정항목: 고객 전환율, 제품 이미지 클릭율

제품 사진이 클수록 전환율이 높아진다는 아마존 사례의 경우 성공 지표는 고객 전환율이고, 의사 결정 기준은 전환율의 향상입니다.

올바른 테스트를 선택하고 적절한 성공 지표와 측정항목을 설계했다면, 이제는 테스트 결과를 분석할 차례입니다. 이를 위해서는 몇 가지 통계적 개념에 대한 이해가 필요합니다.

올바른 테스트를 선택하고 적절한 성공 지표와 측정항목을 설계했다면, 이제는 테스트 결과를 분석할 차례입니다. 이를 위해서는 몇 가지 통계적 개념에 대한 이해가 필요합니다.

샘플링



테스트를 실행할 때 테스트를 위해 선택한 두 가지 변수(A와 B)가 성공 지표와 관련된 편향이 없는지 확인하는 것이 중요합니다. 예를 들어 더 큰 제품 사진을 보도록 분류된 그룹이 그렇지 않은 그룹에 비해 테스트 시작 전 이미 더 높은 전환율을 보이고 있다면 편향된 결과로 이어질 수 있습니다.

샘플링에 이러한 편향을 제거하려면 정의한 성공 지표에 대한 각 그룹의 평균과 분산을 관찰할 수 있습니다.

결과의 유의성과 검정력 (Significance & Power)



테스트 결과 두 집단 사이에 차이가 보인다면, 관찰된 변화가 무작위 효가가 아닌 실제로 의미 있는 결과임을 도출하는 것이 중요합니다. 이것은 성공 지표에 나타난 변화에 대한 유의성을 계산함으로써 도출할 수 있습니다.

여기서 말하는 유의성(significance)은, 테스트에서 큰 제품 사진을 본 사용자 그룹이 더 높은 전환율을 보였지만 실제로는 그렇지 않은 빈도를 의미합니다. 검정력(power)은 테스트에서 더 큰 제품 사진이 실제로 높은 전환율로 이어진다는 것을 나타내는 빈도입니다. 따라서 보다 정확한 결과를 얻으려면 유의성이 낮고 검정력이 높아야 합니다.

제품 가설 테스트와 관련된 통계적 개념은 여기에서 심도 있게 다루지는 않았지만 이러한 지식은 정확한 테스트를 위한 필수조건이며, 다음과 같은 노력을 통해 향상할 수 있습니다.

· 데이터 분석가와 데이터 엔지니어는 일반적으로 올바른 테스트 디자인을 식별하는데 능숙합니다. 프로덕트 매니저는 프로젝트 초반에 이러한 전문가의 도움을 받을 수 있습니다.

· UdemyUdacity 및 Coursera와 같은 온라인 플랫폼에서 가설 테스트와 A/B 테스트뿐만 아니라 관련된 통계 개념에 대한 수많은 강좌를 수강할 수 있습니다.

· 구글의 Firebase 및 Optimizely와 같은 도구는 고품질의 테스트를 수행하는데 필요한 많은 기능을 제공하며, 이를 사용하여 테스트 프로세스 전체를 쉽게 진행할 수 있습니다.

성공적인 제품 관리를 위한 가설 검증 사용



사용자에게 지속적인 가치를 전달하기 위해서는 ‘가설 검증’을 통해 제품에 대한 여러 가지 가설을 테스트 하는 것이 무엇보다 중요합니다. 각 가설의 옳고 그름을 검증하려면 위에서 설명한대로 올바른 테스트 설계가 필요합니다.

이러한 접근 방식은 새로운 변경 사항과 기능이 제공하는 가치를 수치화하고 가장 가치 있는 기능에 초점을 맞추며 제품의 점진적인 발전을 이룩하는데 큰 역할을 합니다.

출처: https://www.toptal.com/product-managers/data/product-hypothesis-testing



국내 1위 IT아웃소싱 플랫폼,

위시켓이 궁금하신가요?

앱 개발 비용 궁금하세요?
위시켓이 바로 알려드릴게요!

가설 검증가설 검증 방법가설 검증 설계가설 검증 종류가설 검증이란
다음 글

위시켓 블로그의 새로운 소식 받기