Study/GA4

[GA4를 의심하고 BigQuery를 열다] GA4를 진짜 이해하고 싶은 당신에게 - 시리즈를 연재하며

빵지빵 2025. 3. 24. 17:16

목차
1. 왜 연재하게 되었는가
2. 찾은 답 : BigQuery
3. 시리즈에 담을 내용
4. 예상되는 한계
5. 마무리

1. 왜 연재하게 되었는가

GA4를 다루다 보니 생긴 의문들과 탐색 보고서를 보면서 느낀 모호함과 불신

 GA4를 데이터 분석의 핵심 툴로 사용한 지 1년. 사용하면서 가장 많이 들었던 생각은 “이 데이터, 정말 믿어도 될까?”였다. GA4를 쓰다 보면 반복적으로 마주치는 의문들이 있다.

  • 데이터 샘플링은 어디까지 적용되는 걸까?
  • 유입경로 탐색 퍼널은 어떻게 구성된 걸까?
  • ‘언제든지’ 조건은 정확히 어떤 범위까지 포함하는 걸까?

오늘도 탐색보고서를 만드는 내 모습...

 GA4는 다양한 탐색 보고서와 기능을 제공하지만 그 기능들이 정확히 어떤 로직으로 작동하는지 명확히 이해하긴 어렵다.
(불친절한 애널리틱스 고객센터 가이드, 비공개된 구글의 ML 모델 등등…)

 그래서 GA4의 Raw 데이터가 적재되는 BigQuery를 직접 뜯어보기로 했다.탐색 보고서의 결과를 쿼리로 재현하고, GA4의 내부 구조와 집계 방식, 전환 흐름을 검증해보려 한다. 이를 통해 궁극적으로는 GA4의 목적성과 메커니즘을 더 정확히 이해하고, 사용자 행동 분석과 광고 성과 분석에 있어 이 툴이 정말 ‘적합한가’를 판단할 수 있는 시야를 갖고자 한다.

 이 시리즈에는 GA4를 사용하는 실무자(퍼포먼스 마케터, 데이터 분석가, PM 등)라면 누구나 한 번쯤 고민했을 법한 내용을 담아보려한다. 모쪼록 수치의 이면이 궁금했던 실무자에게 도움이 되었으면 좋겠다.


2. 찾은 답 : BigQuery

GA4 UI만으로는 알 수 없는 것들과 Raw 데이터의 필요성

 GA4의 데이터 신뢰성 문제는 대부분 '기타(other)'와 '샘플링'에서 시작된다.

 여러 지표를 함께 사용하면 차원 수가 많아지면서 *카디널리티(cardinality) 문제가 발생하고 결과적으로 많은 데이터가 *기타(other)로 뭉뚱그려진다. 또한 GA4 무료버전은 빈번한 샘플링으로 데이터를 100% 활용하지 못하는 경우가 생기기고, 탐색 보고서의 유형에 따라 활용할 수 있는 지표가 제한되는 경우도 많다. 즉, GA4를 사용하는 실무자라면 보고서를 구성하려 해도 보고서 유형 제약 때문에 원하는 분석이 막히는 경험을 할 수 밖에 없는 것이다.

그래서 찾은 답은 BigQuery의 Raw 데이터를 활용한 검증이다. 내가 원하는 목적과 흐름에 맞게 직접 쿼리를 구성하고, 그 결과를 GA4 탐색보고서와 비교해 "GA4가 실제로 어떻게 데이터를 집계하고 있는지를 확인"해보려 한다. 즉, BigQuery를 통해 GA4에서 데이터가 집계되는 흐름을 직접 따라가며, 그 로직을 이해하고 검증하는 도구로 활용하려고 한다. GA4가 ‘어떻게’ 데이터를 보여주는지를 이해하기 위해, ‘데이터가 처음 쌓이는 곳’부터 살펴보기로 한 것이다.

+) GA4의 카디널리티 : 차원의 고유한 값의 수. GA4에서 데이터가 어떻게 구조화되고 분석되는지에 중요한 영향을 미침. 특히 카디널리티 차원은 많은 고유한 값을 가질 수 있는 차원을 의미하며, 이는 데이터 처리와 보고서 생성에 영향을 미침.

+) GA4의 기타 행 : 테이블의 행 수가 테이블의 행 한도를 초과할 때 표시되는 행


3. 시리즈에 담을 내용

총 3편의 시리즈에 담을 내용과 예상되는 인사이트

 ‘GA4를 의심하고 BigQuery를 열다’ 시리즈는 소개 글을 포함해 총 4편으로 구성하려 한다. 각 글에서는 GA4 탐색 보고서를 실제 Raw 데이터를 통해 이해하고 검증해나가는 과정을 담을 예정이다.

  주제 내용 예상되는 인사이트
소개글 BigQuery를 통한 GA4 이해 GA4를 사용하며 느낀 한계점과 BigQuery를 활용한 검증 시 예상되는 기대효과 -
1편 GA4 지표와 유입 경로 탐색보고서 이해 - 지표 구조 이해(이탈률, 평균 세션 시간 등)
- 유입 경로 → 행동 → 전환 흐름을 쿼리로 재현
GA4 수치를 무작정 신뢰하기보다 지표에 대한 명확한 이해의 필요성으로 관점 전환
2편 경로 흐름 분석을 BigQuery로 재현 - 폐쇄형/개방형 경로 탐색 쿼리 구현
- ‘언제든지’ 조건 로직 해석
사용자 흐름 분석은 UI를 넘어서야 보인다. SQL로 그리는 사용자 여정
3편 전환 기여, 세그먼트, 이벤트 파라미터까지 GA4 핵심 기능 해부 - 세션 트래픽과 그에 따른 이벤트 결과값 확인
- 이벤트 파라미터 값 비교 및 누락 검증
GA4를 단순히 ‘보는 도구’에서 검증하고 해석하는 도구로 전환하는 경험

4. 예상되는 한계

예상되는 한계점 3가지

 물론 예상되는 한계점도 있다. GA4와 BigQuery는 각기 다른 구조와 특성을 갖고 있기 때문에 결과가 정확하게 일치하지 않을 것이다.

  • Attribution model 차이
    • GA4는 기본적으로 Google 내부의 데이터 기반 기여 모델(DDA)을 사용한다. 이 모델은 공개되지 않은 알고리즘 기반으로 작동하기 때문에 BigQuery에서 완전히 동일하게 재현하는 것은 사실상 불가능하다.
  • 쿼리 난이도
    • 사실 어느정도의 쿼리 난이도가 요구될지 가늠이 잘 되지 않는다. 그래도 일단 부딪혀보기!
  • 샘플링 및 Thresholding 영향
    • 내가 확인하려는 데이터 스트림의 데이터량은 많지 않아 샘플링 문제는 적을 것으로 보이지만, GA4 UI는 조건이나 보고서 유형에 따라 여전히 샘플링이나 기타 처리(Thresholding)가 적용될 수 있다. 이로 인해 GA4와 BigQuery 간 결과가 정확히 일치하지 않을 가능성도 존재한다.

5. 마무리

 BigQuery를 통해 GA4 데이터를 직접 꺼내보며, GA4 UI에 나타나는 수치들이 어떤 구조와 흐름으로 집계되는지 조금 더 정확히 이해해보려한다. 또 GA4와 BigQuery의 관계를 명확히 파악하고, 실무 분석에서 데이터를 더 깊이 해석하고 신뢰할 수 있는 기반을 마련하고자 한다. 이 글이 같은 고민을 가진 실무자들에게도 도움이 되면 좋겠다.