본문 바로가기

Study/ETC

Meridian을 위한 필수 통계 지식 정리 - 확률분포, 정규분포, 로그 정규 분포, 신뢰구간

목차
1. 확률 분포
2. 정규 분포(가우시간 분포)
3. 로그 정규 분포
4. 신뢰구간

1. 확률 분포

  • 정의 : 확률 변수가 가질 수 있는 값과 그 확률을 나타내는 함수
  • 범위 : 이산형(주사위 결과 등)과 연속형(키, 몸무게 등) 모두 포함
  • 특징
    • 모든 종류의 확률 분포를 포괄하는 가장 상위개념
    • Meridian 역시 광고 지출과 KPI(성과 지표) 간의 관계를 추정할 때 확률 분포를 전제로 함

2. 정규 분포(가우시간 분포, Normal 분포)

  • 정의 : 평균(μ)과 표준편차(σ)로 결정되는 종 모양의 대칭적 분포
  • 특징
    • 평균, 중앙값, 최빈값이 모두 동일
    • 좌우가 대칭인 종모양(bell shape)
    • 첨도(kurtosis)와 왜도(skewness)는 0
    • 평균에서 ±1σ 내에 68.26%, ±2σ 내에 95.44%, ±3σ 내에 99.73%의 데이터가 분포
    • -∞부터 +∞까지의 값 가능
    • 중심극한정리로 인해 자연현상에 자주 등장
      • 중심극한정리 : 표본의 크기가 충분히 크다면, 어떤 분포라도 표본 평균은 정규 분포를 따른다.
        → 이 때문에 자연현상과 경제 데이터 분석에 자주 사용된다.
    • 확률 분포의 한 종류
    • Meridian과의 연관성
      • 일부 내부 매개변수의 prior(사전 분포)는 정규분포 기반을 가정할 수 있다.
      • 다만, KPI나 ROI처럼 항상 양수여야 하는 데이터에는 별도 분포를 쓴다.

출처 : 나무위키 / 세상은 정규분포~


3. 로그 정규 분포

  • 정의 : 확률변수의 로그값이 정규 분포를 따르는 분포
  • 표기법 : X ~ LogNormal(μ, σ) 또는 LN(μ, σ)
  • 매개변수
    • μ (location parameter): ln(X)의 평균
    • σ (scale parameter): ln(X)의 표준편차
  • 해석 예시
    • LogNormal(3.0, 0.5)라면,
      X의 ln(X) 값들은 평균 3.0, 표준편차 0.5인 정규분포를 따른다는 의미를 가짐
  • 특징
    • 값은 항상 0보다 크다 (음수 불가)
    • 오른쪽으로 긴 꼬리를 가진 비대칭적 형태 (Right-skewed)
    • 소득, 자산 가치, 광고 ROI 등 양수 데이터를 설명할 때 매우 유용
  • Meridian과의 연관성
    • 광고 채널의 ROI, ROAS prior를 LogNormal 분포로 가정한다.
    • 이는 광고 효과가 "평균 이상 크게 튈 수도 있지만 0보다 작을 수는 없는" 데이터 특성과 일치한다.

5. 신뢰구간(Credible Interval, Bayesian)

  • 정의 : 베이지안 추론에서, 파라미터가 특정 구간에 존재할 확률을 나타내는 범위
  • 특징
    • ex.ROI는 95% 확률로 [2.5, 5.1] 사이에 있다 -> 신뢰구간
    • 단일 값이 아니라 구간으로 불확실성을 표현
    • 빈도주의의 'confidence interval(신뢰구간)'과 개념은 비슷하지만 해석이 다름
  • Meridian에서 중요성
    • 광고 채널 효과를 단일 수치로 예측하지 않고, 신뢰구간으로 제공한다
    • 따라서 결과를 해석할 때도 구간 단위로 신뢰성을 판단해야 한다.