Simpson’s paradox and how to avoid it.
Simpson’s paradox
- simpson’s paradox(심슨의 역설)는 영국의 통계학자인 Edward simpson이 정리한 역설로 대략 다음의 형태로 표현된다.
a1/A1 < b1/B1 => True a2/A2 < b2/B2 => True
- 라고 해서 아래가 참이 아닐 수 있다는 것. 을 바로 심슨 패러독스라고 하죠.
(a1+a2)/(A1+A2) < (b1+b2)/(B1+B2)
UC Berkeley Gender bias
- 사실, 이렇게 쓰고 보면 ‘당연한 거 아냐?’ 싶지만 은근히 이 역설에 빠지는 경우가 많습니다. UC Bekeley의 대학원 진학률이 이러한 함정에 빠진 경우인데요.
- 남자의 경우 대학원에 8442명이 지원하여, 44%가 합격하였고, 여자는 4321명이 지원하여, 35%가 합격하였죠. 이 사실만을 보면, UC 버클리는 매우 ‘남자에게 편향적으로 합격을 한 것’처럼 보이게 됩니다.
- 하지만, 아래의 표처럼, 학과별로 구분하여 볼 경우 오히려 여성에게 유리하게 합격된 것이 더 높은 것을 알 수 있죠. 즉, 전체로 데이터를 합쳤을 때 나온 경향성과 이를 부분 데이터세트로 나누었을때의 경향성이 완전히 다르다는 것을 알 수 있습니다.
- 이는 남학생의 경우 상대적으로 합격률이 높은 학과(A, B 학과)에 여학생이 비해 훨씬 많은 지원자들이 지원하였으며, 여학생의 경우 반대로, 합격률이 매우 낮은 학과(D, E, F)등에 많이 지원한 것을 알 수 있습니다.
- 즉, 학과별로 샘플들의 크기가 다른데도 가중치를 주지 않고 똑같이 결과를 도출했으며, 이 때문에, 전체 합격률과 부분의 합격률에 차이가 있는 것이죠.
Department Men Women
Applicants Admitted Applicants Admitted
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 373 6% 341 7%
- 이는 마치, 특정한 야구팀의 승률을 고등학교 팀을 대상으로 한 승률(A)과 프로 팀을 대상으로 한 승률(B)을 합쳐서, 계산하는 것과 유사하다고도 볼 수 있습니다. 현재 조절하지 못하고 있는 변수가 명확하게 존재하는데도, 이를 고려하지 못하였기 때문에, 데이터의 결과가 완전히 왜곡될 수 있다는 것이죠.
- 또한, 사실 데이터를 그대로 합쳐두니까, 이 데이터들이 마치 homogeneous data set로 보일 수도 있지만, 사실은 학과별로 구분해서 봐야 각각이 homogeneous data set이 됩니다. 이를 합친 것은 그냥 confounding variable에 따라서 합격률에 영향을 미치는 heterogeneous data set이 되는 것이죠.
how to avoid it?
- simpson’s paradox를 알고 나면, 많은 사람들이 혼동스럽고 어려워집니다. 이 역설이 지적하고 있는 것은 ‘당신이 통계에 따라 내린 결론이 정확하다고 어떻게 확신할 수 있느냐?’ 같은 것이니까요.
- 수집된 데이터세트가 얼마나 homogeneous하게 수집되어 있는가?, 과연, 우리는 ‘학과별 차이’와 같은 변수들을 충분히 인지하고 있는가? 어떤 데이터세트에 대해서 유효하다고 생각하는 패턴이, 오히려 그 데이터세트를 분리하여, 볼 경우, 유효하지 않다거나, 혹은 그 반대로 나타나거나 하는 것이 일어난다면, 우리는 데이터로부터 내린 어떤 결론도 확신하기 어려워진다. 매번 모든 데이터들에 대해서 일일이 그것을 파악하는 것은 가능하지 않으니까.
- 그렇다면, 우리는 어떻게 simpson’s paradox를 피할 수 있을까요? 사실 완벽히 파악할 수 있는 방법이 있다고 하기는 어렵습니다. 그저 연구자가 면밀하게 고민하여 ‘결과에 영향을 미칠 수 있는 모든 요소를 고려했는가?’에 대해서 스스로 답을 내릴 수 밖에 없는 것 같아요.
- 그래도, 데이터세트에 비교적 다양한 카테고리 값들이 존재한다면(학과명과 같은), 이를 바탕으로 sub-set에서도 비슷한 결과가 나오는지, 그리고 각 카테고리별로 비슷한 수의 샘플들이 존재하는지 등에 대해서 볼 수도 있겠죠. 만약 샘플들이 서로 다르게 존재한다면, 그 비율에 맞춰서 sampling을 evenly하게 하는 것이 필요하기도 합니다.
wrap-up
- 분명히 과거에 보았던 개념인데, 최근에 우연히 다시 보게 되니 새로운 관점을 가지게 되는 것 같습니다. 너무 쉽고 뻔한 이야기지만, 아는 만큼 보이니까요. 결론적으로는, 지금 수집한 데이터들에 일관성(homogeneousity), “데이터들이 서로 공통된 성질을 가지고 있다고 확신하는가?”를 계속 고민하라는 이야기로 보입니다.
- 늘 그렇지만, 통계라는 것은 ‘과학’처럼 보이지만, 필요한 데이터를 어떻게 수집하느냐에 따라서 그 결과는 전혀 다르게 보여질 수 있습니다. 앞서 본 UC Berkely의 대학원 합격률도 마찬가지로 ‘학과별 차이’라는 Confounding variable이 통제되지 못했지만, 이를 언급하지 않으면, 특정 진영에게 유리하게 보여질 수 있는 지표인 셈이죠. 즉, 통계의 함정 혹은 통계의 거짓말이죠. 앞서 언급한 사례와 반대로, 전체에게서는 두드러지지 않는 패턴을 부분 데이터세트에서만 파악하여 ‘통계가 이렇다’라는 식으로 거짓말을 할 수 도 있죠.
- 그리고 생각해보면, 요즘의 저도 심슨 패러독스에 빠져 있는 것 같습니다(정확히는 overfitting에 유사하지만). 저는 다른 사람들보다는 지적인 호기심이 많고, 늘 새로운 지식들을 찾아서 헤매는 편입니다. 따라서 거의 대부분의 시간을 구글에서 보내고, 다른 천재들이 만들어둔 뛰어난 글과 지식을 읽게 되죠. 그러면서 ‘와 세상에 정말 똑똑한 사람이 많다’라는 생각을 하게 되는데, 이 결론 자체도 (공부를 열심히 해서 블로그에 글을 작성해두는 사람들)의 글만 찾아서 읽고 내린 결론이라는 말이죠. 즉, 저보다 뛰어난 사람의 글들만으로 표본이 편향되어 있기 때문에 이 집단에서만 유효한 분석 패턴이라는 것입니다. 부분이 아니라, 이를 전체로 확장하면, 결론이 판이하게 달라질 수 있다는 이야기죠. 즉, 맨날 똑똑한 사람들만 보면서, 편향된 데이터 세트에서 스스로를 비하하지 말고, 본인이 이미 편향되어 있다는 것을 아는 게 중요하지 않나. 싶습니다.
댓글남기기