오하이오의 분포

이 글은 아래 두 링크를 참조하여 작성했습니다.

첫 번째 글을 읽으면 “결론적으로 통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference) 하는 것이 목표입니다. 이는 머신러닝이든 통계학이든 공통적으로 추구하는 목표입니다”라는 말이 나옵니다. 그리고 이렇게 확률분포를 추정하기 위한 모델들을 몇 가지 소개합니다(아래).

figure

평소 각종 확률 분포의 모양과 쓰임을 고민했었기 때문에 이렇게 발견한 글이 도움이 됐습니다. 이 포스팅은 윗 글의 번역으로 차후에 이해를 돕기 위해 작성했습니다.

베르누이, 유니폼 분포

동전을 던진다고 생각해보자. 동전은 뒷면과 앞면이 나온다. 만약 이 동전의 앞 뒷면이 나올 확률이 동일하다면 유니폼(Uniform) 분포가 될 것이다. 베르누이 분포(Bernoulli)는 동전 던지기의 결과가 균등하지 않을 때 발생한다. 이때 앞면이 나올 확률이 p라면, 뒷면이 나올 확률은 1-p가 될 것이다. 만약 베르누이 분포를 생각할 일이 있다면, 불공평한 동전을 생각해보자.

유니폼 분포는 어떤 선택지에 있어서도 동일한 가능성을 가지고 있다. 유니폼 분포는 “동등하고 공평한 주사위”를 떠올리자.

이진, 하이퍼지오매트릭 분포

이진 분포는 베르누이 분포의 누적(sum of outcomes of the things that follow Bernoulli distribution)을 상상하면 된다. 공평한 동전을 20번 던진다고 생각해보자. 이때 앞면이 나올 가능성이 몇 번이나 될까? 이 결과가 이진 분포라고 한다. 파라베터는 n(시도의 수), 그리고 p(앞면이 나올 확률)이다. 각 시행은 베르누이 분포를 따르는 결과(또는 시행)라고 부른다.

어떤 항아리 안에 동일한 숫자의 흰, 검은 공들이 있다. 눈을 감고 공을 하나 뽑았을 때 그 공이 검을 때를 기록하자. 그리고 그 공을 다시 집어넣는다. 눈을 감고 아무 공을 하나 꺼낸다. 검은 공인가 기록한다 반복한다. 시행 대비 얼마나 많은 검은 공을 뽑았는가? 이 숫자가 이진 분포에 해당한다.

이번에는 이제 항아리에서 공을 꺼내는 대신, 그 공을 버린다고 생각해보자. 이 분포가 하이퍼지오매트릭 분포(Hypergeometric)다. 이 시행은 공을 복원하지 않는다. 그러나 의심할 일 것 없이 이진 분포의 사촌이다. 그리고 검은 공을 뽑을 확률은 매 시행마다 달라질 것이다. 만약 시행에 비해 항아리에 공이 대단히 많다면, 하이퍼지오매트릭 분포는 이진 분포와 모양새가 비섯해질 것이다. 왜냐하면 전체 비율이 단 몇 회의 추첨(draw)으로도 달라지지 않기 때문이다.

비복원 추출이나 시행에 대해 이야기 할 때 대다수는 하이퍼지오매트릭 분포에 해당한다. 항아리는 채워지지 않으며, 비워질 뿐이기 때문이다. 이것은 광범위하게는, 특정 집단으로부터 샘플을 추출하고 분포를 계산하는 문제에도 해당됩니다.

푸아송 분포

매 분마다 고객 상담 전화가 누적되는 횟수는 몇 회일까? 이 결과 분포는 단순히 들었을 때 이진 분포처럼 들린다. 그렇지만 만약 한 발전소에서 전기가 나간다면 무슨 일이 일어날까? 수백명의 사람이 몇 초만에 상담 전화를 건다! 그러니까 몇 초안에 사람이 몰리고 빠지는 것은 베르누이 시행이라고 보기 어렵다. 그러나 이 시행과 확률 분포를 특정 그래프에 근사해야 한다면 어떻게 할까? 시간을 무한대로 밀고, 전화를 걸 확률 p를 0으로 근사하여 np를 일치시킨다. 즉, np = k 라고 가정하고, 각 타임 슬라이스마다 p를 조정하는 분포를 만든다. 이 결과를 푸아송 분포라고 한다.

이진 분포처럼, 푸아송 분포 또한 ‘횟수’에 관심을 둔다. 어떤 일이 일어난 횟수 말이다. 따라서 이 분포의 파라메터는 확률 p와 시행 n이 아니라 평균 발생 비율 람다다. 앞서 np = k에서 k가 람다인 것이다. 푸아송 분포에서 이벤트는 연속적으로 발생한다고 가정한다.

패킷이 라우터에 도달할 가능성, 손님이 상점에 몰릴 가능성, 특정 시간에 줄을 서는 가능성을 고려해야 할 때, ‘푸아송 분포’를 떠올리도록 하자.

지오매트릭과 음이항분포

두 분포는 베르누이 시행에서 나온 또 다른 분포다. 만약 바로 직전 동전을 던진 결과가 앞면일 때 뒷면이 나온 횟수는 몇 번일까? 이때 뒷면의 횟수의 분포가 지오매트릭 분포(Geometric)를 따른다. 이항 분포와 마찬가지로, 이 파라메터는 p(마침내 뒷면이 나올 가능성)이다. 이 시행은 n(시행변수)을 갖지 않는데, 그 이유는 x축이 실패한 시도 수 이기 때문이다. 즉 n은 변수 p에 영향을 받는 종속변수다.

만약 이항 분포에서 “얼마나 많이 성공하느냐?”대신, “몇 번의 시행 끝에 성공하느냐?”라는 질문이 나온다면 지오매트릭 분포를 떠올려보자.

음이항 분포(Negative Binomial)은 r 번의 성공을 하기까지 실패한 횟수에 대한 분포다. 지오매트릭이 오로지 한 번의 실패만을 허용했다면, 이번에는 실패 횟수(r)를 변수화 한 것이다. 이것은 p를 뒤집으면 r 번 실패할때까지 성공한 횟수 분포가 된다.

지수와 베이블 분포

고객 상담 전화 사례로 다시 돌아가본다. 다음 고객의 전화가 오기까지 얼마나 걸릴까? 다음 전화를 받기까지 대기 시간은 지오매트릭 분포처럼 들린다. 왜냐하면 누구도 전화를 하지 않는다면 매 초 동안 실패한 것이기 때문이다. 맞다. 이렇게 생각할 수 있다. 그러나 이것으로는 부족하다. 지오매트릭 분포는 전화를 대기하는 일 회성 이벤트만을 생각하지만 고객이 마침내 전화를 걸었을 때 다음 대기시간까지 걸리는 시간을 표기할 수 없기 때문이다.

따라서 지오매트릭 분포의 초 단위를 매우 많은 숫자의 시간과 통화 수로(연속적이게) 분해한다. 이 결과가 지수 분포다. 이 분포가 전화 한 통이 올 때까지 대기시간을 표시한다. 이 확률 분포는 연속적이며, 결과의 총 합이 전체 대기 시간일 필요가 없다. 이 분포는 빈도(rate) 파라메터 람다로 구성할 수 있다.

이항-지오매트릭 관계에서 푸아송 추종자는 “시간이 흐를 때마다 얼마나 많은 사건이 발생하냐”고 묻고, 지수 분포 추종자는 “사건 발생까지 걸리는 시간 텀이 얼마냐”고 묻는다. 매 시간 별 이벤트 발생 빈도는 푸아송 분포를 따르고, 이 이벤트 사이 사이의 시간은 지수 분포를 따른다. 그리고 이 둘은 같은 파라메터 람다(rate)를 사용한다.

지수 분포에서 “사건 발생까지 걸리는 시간”은 어쩌면 “사건 발생 이후 대기하는 시간(실패하는 시간)”라고 생각할 수도 있다. 즉, 실패를 어느 정도까지 해야 이벤트가 발생하는가를 고민할 수도 있다. 이 분포를 베이블 분포(Weibull)라고 한다. 지수 분포가 성공 빈도(이벤트 발생)에 종속됐던 것에 반해, 베이블 분포는 실패 횟수(이벤트 발생 안함)에 관심을 가진다. 쉽게 말하면 베이블 분포는 실패할 시간에 대한 빈도다.

정규, 로그-정규, 스튜던트-t, 그리고 카이제곱 분포

정규분포 또는 가우시안(Normal or Gaussian distribution)은 종형 곡선으로 매우 흔하게 본 것일 껏이다. 자연상수 e 처럼 흔한 것이다. 어떤 일이든 분포가 있고, 이것을 히스토그램화 해 보라. 이렇게 하면 각 구간별 합이 대부분 정규 분포에 근사할 것이다.

이항분포의 시행 횟수가 많아질 수록 정규분포에 가까워질 것이다. 푸아송 분포(이항 분포의 극단적 형태)는 rate parameter 람다가 커질 수록 정규 분포에 가까워진다.

로그-정규 분포(Log-Normal distribution)도 있다. 이것은 정규 분포에 로그 성질이 있을 때 발생한다.

스튜던트-t 분포는 t-검정을 기반으로 등장한 분포다. 그리고 이 테스트는 통계학이 아닌(non-statistics) 분야를 검정하는 방법이다. t-검정은 정규 분포의 평균을 추론하는 분포이며, 파라메터가 커질수록 정규분포에 가까워진다. 정규분포와 스튜던트-t 분포의 차이점이 있다면, 파라메터가 커지더라도 스튜던트-t 분포의 양 끝단이 정규분포보다 뚱뚱하다는 것이다(fat-tails).

아래는 스튜던트-t 분포의 유래다.

프리드리히 로베르트 헬메르트(독일어: Friedrich Robert Helmert)가 1875년에 도입하였다.[2][3][4][5] 이듬해 야코프 뤼로트(독일어: Jacob Lüroth)도 같은 분포를 재발견하였다.[6][7] 그러나 헬메르트와 뤼로트의 논문은 영문 학계에 널리 알려지지 않았다.

1908년에 윌리엄 고셋이 “스튜던트”(영어: Student, ‘학생’)라는 필명으로 1908년 재발견하였다.[8] 고셋은 기네스 양조 공장에서 일했고, 맥주에 사용되는 보리의 질을 시험하기 위해 이 분포를 도입하였고, 경쟁사들에게 기네스의 획기적인 통계 기법을 숨기기 위해 필명을 사용하였다고 한다.[9]:326 이후 저명한 통계학자인 로널드 피셔는 이 분포를 “스튜던트 분포”라고 불렀고, t라는 기호를 사용하였다.[10] 피셔 이후 이 분포는 고셋의 필명을 따 “스튜던트 t 분포”로 알려지게 되었다.

마지막으로 카이제곱 분포(Chi-squared distribution)은 구간별 총 합에 제곱근을 씌운 것이다. 즉, 로그-정규 분포와 유사하게 특정 분포 성질이 제곱근 형태를띌때 사용할 수 있다. 이 분포는 카이제곱 테스트에 사용되는데, 이때는 두 정규분포의 차를 제곱근을 취해 정규화 할 일이 있기 때문이고, 이 차의 형태를 카이제곱에 근사한 다음 다시 역정규화 할 때 카이제곱 분포 변수를 통해 정규 분포 변수로 모 분포를 추론할때 사용된다.

감마와 베타 분포

이 시점에서, 당신이 카이 제곱에 대해 이야기하고 있다면, 그 대화는 진지해졌을 것이다. 당신은 실제 통계 학자와 대화 하고 있을 가능성이 높다. 당신의 실험에서 감마 분포와 같은 것들이 나타날 수 있기 때문에 당신은 이 시점에서 감마 분포(gamma distribution)에 대하여 궁금해 할 것이다.
감마 분포는 지수 및 카이 제곱 분포의 일반화 버전이다. 감마 분포는 지수 분포와 마찬가지로 대기 시간의 정교한 모델로써 사용된다. 예를 들어, 감마 분포는 다음 n 개의 이벤트가 발생할 때까지 시간을 모델링 할 때 사용한다. 또한 감마 분포는 기계 학습에서 몇몇 확률 분포의 “켤레 사전확률분포(conjugate prior)”로써 사용된다.

*켤레 사전확률 분포: 어떤 사건의 사후 확률 분포가 특정 사전 확률 분포와 같은 족에 속할 때, 이것을 켤레 사전확률 분포라고 부른다. 자세한 내용은 아래 링크를 참조( https://freshrimpsushi.tistory.com/712 )

켤레 사전확률 분포란 용어에 빠지지 말자. 만약 그럼에도 불구하고 이것에 대하여 이야기 해야겠다면, 우리는 베타 분포(beta distribution)을 이해해야 한다. 왜냐하면 베타 분포야 말로 다른 확률분포의 켤레 사전확률 분포로 우선 언급되기 때문이다. 데이터 과학자들이 자주 사용하는 분포기도 하다.

마치며

모든 분포를 이해하고 있을 필요는 없다. 그러나 여기까지 읽은 독자 분들이 다른 분포에 대하여 관심이 생겼다면 이 링크를 따라가보자.

끝.

  • 참고: 원문에서는 재밌는 농담과 자조가 셀 수 없이 등장했으나 개념의 올바른 이해를 위해 추가로 번역하지 않았다.
  • 저자 신 오웬(Sean Owen)은 런던의 클라우데라에서 데이터 과학 담당 이사입니다. 그는 클라우데라 이전에 하둡에서 대규모 실시간 추천 시스템을 상용화하기 위해 Myrrix Ltd. (현재 Oryx 프로젝트)를 설립했습니다. 그는 Apache Spark 커미터이자 O’Reilly Media의 Spark with Advanced Analytics 공동 저자입니다.
광고
소고

장미라는 이름을 바꾸어 불러도 향기는 그대로 남는다

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중