이산 확률 분포 중 하나인 푸아송 분포(Poisson Distribution)에 대해 알아보겠습니다. 



  푸아송 분포란 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 확률 분포입니다. 이항 분포 등의 다른 이산 확률 분포들과는 달리 실험의 전체 시도 횟수 중 실패 횟수를 알 필요가 없습니다.



  즉, 일정한 시간과 공간에서 발생하는 사건의 발생횟수와 평균만 안다면 푸아송 분포를 구할 수 있습니다. 이 때 실험의 총 시험횟수는 필요 없습니다. 그래서 푸아송 분포에서는 일어나는 사건이 독립적이고 무작위적입니다.



제가 최근에 했던 프로젝트를 예로 들어보자면,


페이스북의 페이지에서 특정 키워드가 단위 시간(시간)동안 언급된 횟수(발생횟수)가 있겠습니다. (이 때 페이지는 미리 정해져 있습니다.)


이 외에도 어떤 공장(공간)에서 제작된 불량품 수(발생횟수) 등이 있습니다.



푸아송 분포의 공식은 다음과 같습니다.



여기서 e는 자연상수이고 λ는 람다라고 부르는 기호로 평균과 분산에 해당합니다.




▶참고 링크


https://ko.wikipedia.org/wiki/%ED%91%B8%EC%95%84%EC%86%A1_%EB%B6%84%ED%8F%AC


http://math7.tistory.com/37

블로그 이미지

NCookie

,

https://brunch.co.kr/@lifidea

http://www.hellodatascience.com/


[헬로 데이터 과학]이라는 책도 쓰신 분인데 brunch의 글들을 보며 많은 도움을 받고 있습니다.


페이스북 그룹도 있으니 가입해보시는 것도 좋을 듯 합니다.



http://www.statedu.com/


통계 관련 커뮤니티인 것 같은데 강좌도 있고 질문을 할 수도 있어서 좋은 것 같습니다.



몇 개 더 있었던 것 같은데 나머지는 다음에 올리겠습니다.

블로그 이미지

NCookie

,

  머신러닝 강좌 중 Gradient Descent 에서 Feature Scailing 의 방법 중 하나인 Mean Normalization 이라는 것을 알게 되었습니다. 해석하면 '평균 정규화'라고 되는데... 통계학적인 의미로는 데이터를 이용할 수 있도록 데이터의 범위를 일치시키거나 분포를 유사하게 만들어주는 것이다. 여기에는 평균값이나 중간값을 이용한 것이 있습니다.


  그런데 통계를 공부하지 않은지 반 년 정도 밖에 안 되었는데 헷갈려서 검색하다보니 유클리디안 거리(Euclidean Distance)와 마할라노비스 거리(Mahalanobis Distance)라는 것을 알게 되었습니다. 기억이 가물가물한 것을 되찾기 위해 표준편차부터 이야기 해보겠습니다.


  간단한 예시를 들어 설명해보자면 어느 블로그에 하루 접속자 수를 1년 동안 집계한 데이터가 있다고 하겠습니다. 이 데이터는 평균이 100이고 표준편차가 5라고 합시다. 이 말은 하루에 블로그에 방문하는 사람이 평균과의 오차가 평균이 5라는 것입니다. 어느 날 200명의 사람이 방문할 수도 있지만 평소에는 101명, 103명, 99명... 이렇게 방문한다는 것입니다. 


  저는 이제 여기서 언제 블로그에 들어오는 사람이 갑자기 많아졌는지, 그리고 그 이유를 알기 위해서 데이터를 분석하고 싶습니다. 이 때 사용할 수 있는 것이 마할라노비스 거리라는 것입니다. 이것은 어떤 값이 평균값과 비교했을 때 얼마나 발생하기 힘든 값인지, 얼마나 이상한지를 수치화한 것이라고 볼 수 있습니다. 그렇기 때문에 블로그 방문자 수가 200명일 때는 마할라노비스 거리의 값이 커지겠지요. 마할라노비스 거리는 '평균과의 거리가 표준편차의 몇 배' 인지 나타내는 값이라고 합니다.


  그리고 우리가 일반적으로 평균값과 표본의 차이, 점과 점 사이의 거리를 유클리디안 거리라고 합니다. 좌표평면 상에서 피타고라스의 정리로 점과 점 사이의 거리를 구하는 것을 생각하시면 되겠습니다.


  

  일단 나중에 다시 보기 위해서 써놓기는 하였지만 아직 행렬도 배우지 않았고 이해도 잘 안되서 증명까지는 적지 못하였고 대충 어떤 개념인지만 작성했습니다. 다음에 좀 더 공부를 한다면 이 글을 수정할 예정입니다.


  아래는 제가 참고한 링크들입니다. 이 분들 보면 좀 더 분발해야겠다는 생각이 드네요. 부족한 글 읽어주셔서 감사합니다.


http://darkpgmr.tistory.com/41

http://yeunhwa.tistory.com/entry/%EA%B1%B0%EB%A6%AC-%EC%B2%99%EB%8F%84%EC%97%90-%EB%8C%80%ED%95%B4%EC%9C%A0%ED%81%B4%EB%A6%AC%EB%94%94%EC%95%88-%EA%B1%B0%EB%A6%AC-%EB%A7%88%ED%95%A0%EB%9D%BC%EB%85%B8%EB%B9%84%EC%8A%A4-%EA%B1%B0%EB%A6%AC-%ED%99%94%EC%9D%B4%ED%8A%B8%EB%8B%9D-%EB%B3%80%ED%99%98

http://adnoctum.tistory.com/184

'확률과 통계' 카테고리의 다른 글

[통계] 푸아송 분포  (0) 2016.11.10
[통계] 공부할 때 참고할만한 사이트들  (0) 2016.10.21
블로그 이미지

NCookie

,