통계

From Hidden Wiki
Jump to navigation Jump to search

파일:external/www.ahrinet.org/canstockphoto7351376-landingpage.jpg

||<:><-2><#dddddd> 언어별 명칭 || ||한문 ||統計 || ||영어 ||statistics, stats || ||프랑스어 ||statistique || ||독일어 ||Statistik || ||러시아어 ||статистика ||

[목차]

개요

|| [youtube(YbGzs3RwDsc)] || ||<bgcolor=#E9ECEF> 대한민국 통계청, 통계자료 한번에 꿰뚫기.wmv || 국어사전에서는 통계를 '한 곳에 몰아서 어림잡아 계산함'이라고 정의하고 있다.[* [[1]] ] 또한 국어사전에서는 통계에 대하여 현상을 보기 쉽게 일정체계에 의해 숫자로 나타낸다고 정의하고 있다. 이와 달리 통계학은 학문적으로 더 자세히 정의된다. 통계학은 수량적인 비교를 기초로 많은 사실을 다양한 방법으로 관찰, 처리를 연구하는 학문이라고 정의되고 있다.

함정

자세한 내용은 통계의 함정 문서 참고.

> 거짓말에는 세 가지 부류가 있다. 거짓말, 새빨간 거짓말, 그리고 통계 > (There are three kinds of lies: lies, damned lies, and statistics.) >---- > - 벤저민 디즈레일리

> 당신이 직접 조작한 통계가 아니라면, 어떤 통계도 믿지 말라. >---- > - 윈스턴 처칠

통계의 특성을 악용함으로 통계를 왜곡해서 사람들에게 보여주는 사례들을 주변에서 심심치 않게 볼 수 있으며, 셀 수 없이 많은 광고와 기사가 자신의 억측을 사실이라고 주장하기 위해 통계를 견강부회식으로 사용한다. 가장 흔한 것은 상관관계의 사건을 마치 인과관계인 것 처럼 서술하는 것. '운전중 커피 소모량과 고속도로 교통사고 사망률이 비례하더라'라는 주장은 마치 '커피가 교통사고의 주범이다'라고 들리지만, 실은 커피를 대량으로 마셔가며 잠을 쫒아 운전하는 사람은 졸음 운전의 위험성이 있는 사람이고, 따라서 교통사고율이 높은 것이다.

이 사례가 우습게 들리는가? 당장 당신이 보게 될 광고나 각종 기사들을 곰곰히 분석해보자. 이 사례보다도 얼토당토 않은 주장들이 난무하고 있다는 것을 알 수 있을 것이다.

특히나 이러한 왜곡이 난무하는 분야가 바로 성 격차와 관련된 통계들인데, 이쪽은 페미니스트들의 자의적 통계 해석과 왜곡이 극에 달해 있다는 것을 알수 있다. 페미니스트들이 통계를 들고 와서 하는 주장들이 거진 대부분 저런 식이다.[* 오죽하면 통계청에서 주관한 통계 바로쓰기 공모전에서 1등, 3등 3개가 이 문제와 관련된 부분이다. [참조.] ]

예를 들면 여성계에서 지속적으로 주장하는 임금 격차와 고용률 차이가 있다. 물론 먼저 짚고 넘어가야 할 것은 절대로 현재 성차별이 존재하지 않는다는게 아니다. 문제는 여성계가 자기 입맛에 맞는 통계로 실제보다 좀 더 성차별을 부풀리려고 시도한다는 것. 이를테면 현재 20대는 여성이 남성보다 더 많이 벌고 더 많이 고용된다.[[2]] 다만 현재 30대 후반 이상의 여성들이 20대 때 겪었던 성차별 등으로 인하여 사회진출이 곤란했기 때문에, 이들의 존재로 인하여 전체를 평균내서 보면 고용률이 낮은 것. 즉, 현재의 여성은 남성보다 더 사회진출이 어렵거나 고용이 힘들거나 하지 않는다.

그럼에도 불구하고 고용률이 현저하게 낮게 측정되는 것은, 물론 경력 단절 등 현재의 성차별도 영향을 미치긴 하지만, 인식개선 등으로 사라지거나 대폭 완화된 과거의 성차별까지 통계에 뒤죽박죽 섞어버려서 발생하는 착시현상이란 것이다.

이해하기 쉽게 예를 들어서 설명해보자. A라는 국가에서 여성은 절대 고용하지 않는 B라는 이름의 관습이 존재했었지만, 사라진지 20년이 흘렀다고 가정하자. 현재 A국의 여성은 B로 인해 불이익을 전혀 받지 않는다. 그러나 B가 사라진지 20년 밖에 지나지 않았으므로 20대, 30대는 남녀 격차가 존재하지 않겠지만 40대 이상은 남성만 고용되어 있고 여성은 한명도 없을 것이다. 이 때 모든 세대를 평균 내보면 당연히 남성 측이 여성 측보다 압도적으로 고용률이 높게 측정될 것이다. 이를 두고 여성계는 봐라! B라고 불리는 이 성차별은 사라지지 않았다! 여성에게 더 많은 정부 지원을 해줘야 한다! 라고 외치는 꼴. 임금격차도 이런식으로 부풀려져있다. 참고로 A국의 여성계가 말하는 격차가 사라지려면 B로 인해 차별받았던 여성들이 전부 늙어 죽고 B를 겪지 않은 여성들로 세대교체 될 때까지 기다리거나, 남성보다 여성을 더 많이 고용하는 C라는 새로운 정책을 통과시켜야 한다.

다시 한번 말하지만, 성차별이 존재하지 않는다는게 절대로 아니다. 그런데 여성계는 현재의 성차별을 부풀리기 위해서 지금은 사라졌거나 대폭 완화된 성차별까지 무차별적으로 끌고 와 버리는 엉망진창 통계를 밥 먹듯이 쓴다는게 문제. 여성계가 원동력을 받으려면 이슈가 있어야 하기 때문에 발생한 촌극이다.

제대로된 위키러, 특히 전문분야에서 일하게 될 사람이라면 저런식의 주장에 낚이지도 말고, 하지도 말자.

왜곡과는 별도로 통계는 예측 혹은 거짓말 에서 못 벗어난다. 통계를 하는 이유가 전수조사, 즉 전부 검사하기 힘들고 돈이 많이 깨지기 때문이다. 즉 일부만 검사해서 전체를 추론한다. 반대로 얘기하면 전수조사 결과는 일단은 100% 확실한 진실이다. 이 일부 조사를 누가 언제 어떻게 무슨 방법으로 하느냐에 따라 결과가 바뀌니 결국 딱 나오는 건 숫자 뿐이다. 물론 어떤 자료던지 그걸 어떻게 해석하는 가는 사람이 하는 일이니 결국 예측 혹은 거짓말에서 못 벗어난다. 사실 이게 통계에서 가장 잘 범하는 오류 중 하나이며, 미국 대통령 선거 예측이 완전히 뒤집어 진 일도 있었다. 정확하게는 1936년 재선때, 리터러리 다이제스트라는 잡지사에서 전화명부, 자동차 소유주 명단 등을 이용하여 표본을 간추린 뒤 여론조사를 한것으로 랜든의 압승을 예측했는데 문제는 이게 부자 위주(랜든 지지자 편중)의 표본이었다는 것이다.(대공황 당시었으니 전화기 있고 자동차있는 사람의 상당수는 돈있는 사람인 상황) 결국 서민층이 대부분인 실제선거에서 역관광당했고, 리터러리 다이제스트는 1938년에 망해서 타임지에 흡수되었다.

비슷한 사례로 20대 총선 당시 여론조사상 새누리당(자유한국당의 전신)이 크게 우세하고 더불어민주당이 참패를 면치 못할 것으로 보였으나, 이 여론조사에 문제가 있었던 것이 국회의원 선거의 경우는 지역구마다 각각의 조사를 해야 하는 특성상 평일 오전에 100% 유선전화에 무선표집(Random Sampling)을 할 수밖에 없었고[* 보통 대한민국의 선거의 경우에는 세대 격차가 상당히 큰데다가, 무선전화에 비하여 유선전화의 경우는 젊은 층이 이용할 일이 적거나 없으므로 할당표집(Quota Sampling)을 통하여 표본을 정하고 설령 약간 오차가 있다 하더라도 가중갑 배율을 곱하는 방식으로 여론조사를 시행하는 편이다. 갤럽리얼미터는 물론이고 전국 정례조사를 하는 여론조사 기관 모두가 이 방식을 택한다.], 이러한 이유로 인하여 새누리당 지지세가 높은 노년층이 주로 여론조사에 참여한 덕에 새누리당의 지지율이 뻥튀기되어 나타난 적이 있었다. 물론 실제 결과는 여론조사와 달랐으며 결국 민주당이 승리하였다.

게다가 이 표본에는 표본이 되는 대상 뿐만 아니라 조사 기준 자체도 포함되는지라 어떤 기준을 표본으로 설정하느냐에 따라 결과 및 해석이 천차만별로 나올 수 있다.

심각한 문제로 넘어가면, 게임규제 항목의 수출액 관련 통계가 규제 반대론의 근본적인 이유가 되지 못하는 것도 이 때문. 게다가 애초에 사람이 조사하는 것이니 심리적인 편중도 배제할 수 없고, 조사가 자동화되거나 자연현상 조사 같은 비교적 객관적인 것마저 지역적 편중을 배제할 수 없다. 대표적인 편중의 예가 대형마트 규제 논란 관련 통계.[* 어떤 통계는 대형마트 안에서 조사되기도 했는데, 대형마트 안에 있는 사람은 대형마트를 자주 이용하는 사람이겠는가? 아니면 자주 이용하지 않는 사람이겠는가? 실제로 대형마트 규제에 반대한다는 결과가 나왔다. 대표적인 심리적 편중 + 지역적 편중의 예.] 게다가 표본 자체가 거짓말을 하면 이를 거를 수 있는 방법이 없기에, [여론조사는 믿을 게 못된다]는 자조 섞인 목소리가 나오기도 한다. 이런 통계의 특성을 극도로 악용한 사례가 바로 타겟맵 같은 몇몇 쓰레기 사이트.

또한 통계 자체가 얼마나 신빙성 있느냐도 문제가 있다. 이를테면 적은 표본은 단순 퍼센트 비교 보다는 개별 표본을 분석해 인과관계 등을 찾는 게 오히려 신빙성이 높다.

애초에 이론이 한계가 있는 점도 있다. 볼린저 밴드 역시 이론적으로는 신뢰성이 상당히 높으나 실제로는 그냥 평이한 수준이다. 사실 이론을 현실에 적용하다 보면 이론적으로는 95%, 99% 신뢰할 수 있는데 실제로는 그렇지 않은 경우가 더 많다.

통계 소프트웨어

통계학#s-6 문서 참조.

관련 문서

* 통계 관련 정보
* 2012 여수 엑스포/관람객 통계
* 결혼/통계
* 나무위키:통계
* 대한민국/범죄통계
* 대한민국/인구
* 대한민국/출산율
* 미적분과 통계 기본
* 범죄/통계
* 살인마/통계
* 애니메이션의 통계
* 우울장애/통계
* 자살/통계
* 적분과 통계
* 죽음/통계
* 통계청
* 통계학
* 한류/게임산업 통계
* 한류/음악산업 통계
* 한류/통계
* 확률과 통계
* --블로그 순위 통계--
* Opta
* 소년탐정 김전일/통계

분류:통계