Study/ETC
Meridian을 위한 필수 통계 지식 정리 - 확률분포, 정규분포, 로그 정규 분포, 신뢰구간
빵지빵
2025. 4. 29.
목차
1. 확률 분포
2. 정규 분포(가우시간 분포)
3. 로그 정규 분포
4. 신뢰구간
1. 확률 분포
- 정의 : 확률 변수가 가질 수 있는 값과 그 확률을 나타내는 함수
- 범위 : 이산형(주사위 결과 등)과 연속형(키, 몸무게 등) 모두 포함
- 특징
- 모든 종류의 확률 분포를 포괄하는 가장 상위개념
- Meridian 역시 광고 지출과 KPI(성과 지표) 간의 관계를 추정할 때 확률 분포를 전제로 함
2. 정규 분포(가우시간 분포, Normal 분포)
- 정의 : 평균(μ)과 표준편차(σ)로 결정되는 종 모양의 대칭적 분포
- 특징
- 평균, 중앙값, 최빈값이 모두 동일
- 좌우가 대칭인 종모양(bell shape)
- 첨도(kurtosis)와 왜도(skewness)는 0
- 평균에서 ±1σ 내에 68.26%, ±2σ 내에 95.44%, ±3σ 내에 99.73%의 데이터가 분포
- -∞부터 +∞까지의 값 가능
- 중심극한정리로 인해 자연현상에 자주 등장
- 중심극한정리 : 표본의 크기가 충분히 크다면, 어떤 분포라도 표본 평균은 정규 분포를 따른다.
→ 이 때문에 자연현상과 경제 데이터 분석에 자주 사용된다.
- 확률 분포의 한 종류
- Meridian과의 연관성
- 일부 내부 매개변수의 prior(사전 분포)는 정규분포 기반을 가정할 수 있다.
- 다만, KPI나 ROI처럼 항상 양수여야 하는 데이터에는 별도 분포를 쓴다.
출처 : 나무위키 / 세상은 정규분포~
3. 로그 정규 분포
- 정의 : 확률변수의 로그값이 정규 분포를 따르는 분포
- 표기법 : X ~ LogNormal(μ, σ) 또는 LN(μ, σ)
- 매개변수
- μ (location parameter): ln(X)의 평균
- σ (scale parameter): ln(X)의 표준편차
- 해석 예시
- LogNormal(3.0, 0.5)라면,
X의 ln(X) 값들은 평균 3.0, 표준편차 0.5인 정규분포를 따른다는 의미를 가짐
- 특징
- 값은 항상 0보다 크다 (음수 불가)
- 오른쪽으로 긴 꼬리를 가진 비대칭적 형태 (Right-skewed)
- 소득, 자산 가치, 광고 ROI 등 양수 데이터를 설명할 때 매우 유용
- Meridian과의 연관성
- 광고 채널의 ROI, ROAS prior를 LogNormal 분포로 가정한다.
- 이는 광고 효과가 "평균 이상 크게 튈 수도 있지만 0보다 작을 수는 없는" 데이터 특성과 일치한다.
5. 신뢰구간(Credible Interval, Bayesian)
- 정의 : 베이지안 추론에서, 파라미터가 특정 구간에 존재할 확률을 나타내는 범위
- 특징
- ex.ROI는 95% 확률로 [2.5, 5.1] 사이에 있다 -> 신뢰구간
- 단일 값이 아니라 구간으로 불확실성을 표현
- 빈도주의의 'confidence interval(신뢰구간)'과 개념은 비슷하지만 해석이 다름
- Meridian에서 중요성
- 광고 채널 효과를 단일 수치로 예측하지 않고, 신뢰구간으로 제공한다
- 따라서 결과를 해석할 때도 구간 단위로 신뢰성을 판단해야 한다.