머신러닝 강좌 중 Gradient Descent 에서 Feature Scailing 의 방법 중 하나인 Mean Normalization 이라는 것을 알게 되었습니다. 해석하면 '평균 정규화'라고 되는데... 통계학적인 의미로는 데이터를 이용할 수 있도록 데이터의 범위를 일치시키거나 분포를 유사하게 만들어주는 것이다. 여기에는 평균값이나 중간값을 이용한 것이 있습니다.
그런데 통계를 공부하지 않은지 반 년 정도 밖에 안 되었는데 헷갈려서 검색하다보니 유클리디안 거리(Euclidean Distance)와 마할라노비스 거리(Mahalanobis Distance)라는 것을 알게 되었습니다. 기억이 가물가물한 것을 되찾기 위해 표준편차부터 이야기 해보겠습니다.
간단한 예시를 들어 설명해보자면 어느 블로그에 하루 접속자 수를 1년 동안 집계한 데이터가 있다고 하겠습니다. 이 데이터는 평균이 100이고 표준편차가 5라고 합시다. 이 말은 하루에 블로그에 방문하는 사람이 평균과의 오차가 평균이 5라는 것입니다. 어느 날 200명의 사람이 방문할 수도 있지만 평소에는 101명, 103명, 99명... 이렇게 방문한다는 것입니다.
저는 이제 여기서 언제 블로그에 들어오는 사람이 갑자기 많아졌는지, 그리고 그 이유를 알기 위해서 데이터를 분석하고 싶습니다. 이 때 사용할 수 있는 것이 마할라노비스 거리라는 것입니다. 이것은 어떤 값이 평균값과 비교했을 때 얼마나 발생하기 힘든 값인지, 얼마나 이상한지를 수치화한 것이라고 볼 수 있습니다. 그렇기 때문에 블로그 방문자 수가 200명일 때는 마할라노비스 거리의 값이 커지겠지요. 마할라노비스 거리는 '평균과의 거리가 표준편차의 몇 배' 인지 나타내는 값이라고 합니다.
그리고 우리가 일반적으로 평균값과 표본의 차이, 점과 점 사이의 거리를 유클리디안 거리라고 합니다. 좌표평면 상에서 피타고라스의 정리로 점과 점 사이의 거리를 구하는 것을 생각하시면 되겠습니다.
일단 나중에 다시 보기 위해서 써놓기는 하였지만 아직 행렬도 배우지 않았고 이해도 잘 안되서 증명까지는 적지 못하였고 대충 어떤 개념인지만 작성했습니다. 다음에 좀 더 공부를 한다면 이 글을 수정할 예정입니다.
아래는 제가 참고한 링크들입니다. 이 분들 보면 좀 더 분발해야겠다는 생각이 드네요. 부족한 글 읽어주셔서 감사합니다.
'확률과 통계' 카테고리의 다른 글
[통계] 푸아송 분포 (0) | 2016.11.10 |
---|---|
[통계] 공부할 때 참고할만한 사이트들 (0) | 2016.10.21 |