통계학

From Hidden Wiki
Revision as of 18:44, 26 August 2018 by Xiao (talk | contribs) (Created page with "width=400 이미지 출처: 와이어드. "왜 통계...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

width=400 [출처: 와이어드]. "왜 통계를 배워야 하는가?"에 대한 좋은 글이다. [include(틀:과학의 범위)] [include(틀:형식과학)]

{{{+1 統計學}}} Statistics

[목차]

개요

통계학은 자료(data)의 학문이다. 적절한 관찰실험을 계획하고, 여기서 얻어진 자료에서 질 좋은 정보(information)를 적출하기 위한 학문이다. 이를 위해 통계에서는 야생의 데이터를 어떻게 얻어내는지, 그 데이터를 어떻게 길들이는지, 전체에서 뽑아낸 몇 개의 자료만으로 전체에 대한 정보를 완전히 알아내는 것을 배우는 학문이다. 문과, 이과를 불문하고 쓰이는 공통적인 도구이기도 한데, 오늘날 모든 학문의 결과는 그 끝이 통계적 증명으로 매듭지어지기 때문이다.

통계학의 목적은 얻어진 자료를 단순히 설명 또는 묘사하려는 것(기술 통계학)과, 얻어진 자료의 결과를 일반화(generalization)하는 것(추론 통계학)이다. 일부 표본(sample)의 결과를 가지고 모집단(population)에 대해 추론하여 전체 집단에 대해 일반화하는 것이므로 추론 통계학이다.

통계라는 이름에서 알 수 있듯이 귀납논증의 학문이다. 항상 반례 가능성을 가지고 있다. 설령 통계적으로는 99%라도 반례가 존재할 가능성을 완전히 배제할 수는 없다. 반면 너무 자명하게 100% 혹은 0%인 경우도 통계적인 의미가 없다. 애초에 조사의 필요성이 없기 때문. "150세 이상 인간의 사망률은 100%다." 같은 명제가 여기 해당한다. 또한 일반적으로 봤을 때 가장 무의미한 수치는 50%이다. 특정한 결론을 내릴 수가 없기 때문. 물론 여론조사처럼 수치 자체를 구하는 것이 중요한 일일 수도 있고, 일정 비율 이상이기만 하면 되는 통계 등에서는 얘기가 다르다.

실질적인 통계학 활용 방법은 통계적 방법 문서 참고.

용어

모집단(population)은 관측 대상이 되는 전체 집단이다. 표본(sample)은 모 집단에서 일부만 조사한 것이다.

모 평균(population mean) μ는 모 집단의 평균이다. 모두 더한 후 전체 데이터 수 n으로 나눈다. 확률 변수기댓값이다. 표본 평균(sample mean) <math> \bar{X} </math>는 표본의 평균이다. 모두 더한 후 n으로 나눈다.

모 분산(population variance) σ^^2^^은 모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다. 표본 분산(sample variance) s^^2^^은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

모 표준 편차(population standard deviation) σ는 모 집단의 표준 편차이다. 모 분산 σ^^2^^에 제곱근을 씌워서 구한다. 표본 표준 편차(sample standard deviation) s는 표본의 표준 편차이다. 표본 분산 s^^2^^에 제곱근을 씌워서 구한다.

평균 절대 편차(average absolute deviation 또는 mean absolute deviation)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 갯수로 나눠준 것이다. 절대값 편차의 평균이라고 생각하면 된다. 중앙값 절대 편차(median absolute deviation)는 관측값에서 중앙값을 빼고, 그 차이에 절댓값을 취한 값들의 중앙값을 구한다. 최소 절대 편차(least absolute deviation)는 회귀 분석(regression analysis)에 사용된다.

공분산(covariance): 2개의 확률 변수의 상관정도를 나타내는 값이다. 확률 변수 X의 증감에 따른 확률 변수 Y의 증감의 경향에 대한 측도이다. 상관 계수(correlation coefficient): 두 변인간의 관계를 나타내는 측도이다. 피어슨 상관 계수(Pearson correlation coefficient 또는 Pearson's r)를 가장 많이 사용한다. 공분산은 X와 Y의 단위에 의존하는 양이므로 단위와는 무관한 측도를 얻기 위하여 공분산을 X와 Y의 표준 편차의 곱으로 나누어서 얻은 값이 상관 계수이다. 상관 계수 X와 Y의 선형 관계의 강도에 대한 측도이다. 왜도(skewness) 또는 왜곡도: 그래프가 왼쪽이나 오른쪽으로 치우친 정도이다. 첨도(kurtosis): 그래프가 위로 뾰족한 정도이다.

확률 변수(random variable): 표본 공간에서 정의된 실수 값 함수이다. 확률 분포(probability distribution): 확률 변수 X의 발생 가능성의 정도이다. 이산 확률 분포연속 확률 분포가 있다. 이산 확률 변수(random variable of discrete type): 확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산 확률 변수라고 한다. 확률 질량 함수(probability mass function): 이산 확률 변수 X가 취할 수 있는 값 x1, x2, x3, ... 의 각각에 대해서 확률 P(X=x1), P(X=x2), P(X=x3), ... 을 대응시켜주는 관계이다. 연속 확률 변수(random variable of continuous type): 적절한 구간 내의 모든 값을 취하는 확률 변수이다. 확률 밀도 함수(probability density function): 연속 확률 변수 X에 관한 확률을 결정하는 함수 f(x)이다. 표본 분포(sampling distribution 또는 finite-sample distribution): 크기 n의 확률 표본(random sample)의 확률 변수(random variable)의 분포(distribution)이다.

기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다. 확률 변수 X의 평균으로 보통 E(X)라고 쓴다.

자유도(degrees of freedom): "변인의 수 빼기 제약"이다.

베이즈 정리(Bayes' theorem): 조건부 확률을 구할 때 쓴다.


대푯값

대푯값(representative value)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다. 평균(mean)은 데이터를 모두 더한 후 데이터의 갯수로 나눈 값이다. 중앙값(median)은 전체 데이터 중 가운데에 있는 수이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4,851만원이 된다. 이처럼 극단적인 값이 있는 경우 중앙값이 평균값보다 유용하다. 최빈값(mode)은 가장 자주 나오는 값이다. 사분위수(quartile): 자료를 크기순으로 나열했을 때 4등분하는 관측값이다. 백분위수(percentile): 자료를 크기순으로 나열했을 때 x%인 관측값을 말한다. 이상점(극단값, outlier): 다른 자료와는 극단적으로 다른 값. 너무 크거나 작다. 절사 평균(trimmed mean): 관측값의 양쪽에서 일정 비율 α의 이상점을 버리고, 나머지 관측값들만으로 낸 평균을 100α% 절사 평균이라고 한다.


산포도

산포도(degree of scattering)는 자료가 흩어져 있는 정도를 나타낸다. 범위(range): 최대값에서 최소값을 뺀 것이다. 사분위간 범위(interquartile range): 3 사분위수(quartile)에서 1 사분위수를 뺀 값이다. 편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다. 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 갯수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다. 확률 분포의 흩어진 정도를 말하며 확률 변수 X의 평균을 μ라고 할 때 X의 분포가 중심 위치의 측도인 μ로부터 떨어진 정도를 나타낸다. 표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다. 절대 편차(absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절대값을 취하고 그 값들의 대푯값을 구한 것이다.


기술 통계학

기술 통계학(descriptive statistics): 자료를 수집하고 정리해서 , 도표를 만들거나 요약하여 변동의 크기나 대푯값, 분산, 평균 등을 구하는 것이다. 히스토그램(histogram): 자료를 구간별로 나누어서 구간별로 상대 도수에 해당되는 만큼 막대를 그린 도표이다. 도수 분포표(frequency table): 계급 구간별로 도수(갯수)가 몇개인가 적은 이다. 줄기 잎 그림(stem-and-leaf plot, stem-and-leaf display): 히스토그램과 비슷하지만 도수만 쓰는 게 아니라 자료값도 입력하여 정보의 손실이 없다.

다섯 숫자 요약(five-number summary): 최소값, 제1사분위수(Q1), 중앙값, 제3사분위수(Q3), 최대값으로 전체 자료를 요약한 것이다.

상자 수염 그림(box-and-whisker plot, box-and-whisker diagram) 또는 상자 그림(box plot, boxplot)은 다섯 숫자 요약으로 그린, 자료의 특성을 요약하는 그래프이다.


추론 통계학

추론 통계학(inferential statistics 또는 inductive statistics) 또는 추측 통계학 또는 통계적 추론(statistical inference): 자료에 내포되어 있는 정보를 분석해서 불확실한 사실에 대해서 추론하여 검정, 추정, 예측 등을 하는 것이다. 모수(parameter): 모 평균, 모 표준 편차, 모 분산모집단(population)의 데이터이다. 통계량(statistic): 표본 평균, 표본 표준 편차, 표본 표준 편차표본(sample)에서 나온 데이터이다.

점 추정(point estimation): 표본의 통계량으로 모수를 추정하는 것이다. 구간 추정(interval estimation): 점 추정만으로는 모수가 얼마나 정확하게 추정되었는지 모르므로 모 평균이 존재할 구간을 확률적으로 추정하는 것이다.

유의 수준(significance level): 제1종 오류를 범할 확률의 최대 허용 한계이다. 보통 α로 표시한다. 95%의 신뢰도를 기준으로 하면 1-0.95인 0.05가 유의 수준 값이다. 제2종 오류를 범할 확률의 최대 허용 한계는 β라고 한다.

신뢰 구간(confidence interval, CI): 실제로 모수가 존재할 것으로 예측되는 구간이다. 보통 신뢰도 95%의 신뢰 구간을 쓰지만 99%도 많이 쓰고, 가끔 90%도 쓴다. (a, b)라고 써놓으면 a는 구간의 시작, b는 구간의 끝을 의미한다. 100(1-α)%의 신뢰 구간이라고 부른다. 반복적으로 모 평균 μ에 대한 구간 추정을 시행하면 이들 중 95%에 해당하는 신뢰 구간이 참값 μ를 포함한다는 의미이다.

신뢰 수준(confidence interval level) 또는 신뢰도(reliability): 해당 구간에 모 평균이 있을 확률이 95%라는 뜻이다. 1-α나 100(1-α)%로 적는다. '신뢰도 95%의 신뢰 구간'과 같은 식으로 쓴다.

p-값(p-value, probability value) 또는 유의 확률(significance probability, asymptotic significance): 귀무 가설 H,,0,,를 기각할 수 있는 최소한의 유의 수준(α)이다. 제1종 오류가 발생할 확률이다. 즉, H,,1,,을 선택했을 때 틀릴 확률이다.

임계 값(critical value, threshold value): 검정 통계량의 분포에서 유의 수준 α에 해당하는 선 위의 값이다.

확률(probability): 모집단으로부터 특정 표본이 관측될 가능성이다. 우도(likelyhood): 특정 표본에 대해 가장 가능성이 모집단을 가장 우도가 높은 모집단이라고 한다.

독립 변수(independent variable) 또는 설명 변수(explanatory variable): 다른 변수에 영향을 주는 변수이다. 종속 변수(dependent variable) 또는 반응 변수(responsible variable): 다른 변수에 의해 영향을 받는 변수이다. 교란변수 또는 혼란변수(confounder): 인과관계상관관계를 혼동시킬 수 잇는 변수이다. 교회가 많으면 범죄율도 높지만 그건 교회 숫자가 원인이고 범죄율이 결과가 아니라 인구가 많으면 교회도 많고, 범죄율도 높다는 의미이다. 교호작용(interaction): 독립변수 사이에 상호 작용을 하여 서로의 작용에 영향을 주는 것을 말한다.

연속 확률 분포(continuous probability distribution): z-분포, t-분포, 카이-제곱 분포, F-분포 등.

표준 정규 분포(z-분포, standard normal distribution): σ^^2^^을 아는 경우 μ를 구할 때 사용한다.

스튜던츠 t-분포(t-분포, Student's t-distribution): σ^^2^^을 모를 때 표본 분산 s^^2^^으로 대체하여 μ를 구할 때 사용한다. 즉, 모 평균 검정에 사용한다. z-분포t-분포에서 귀무 가설 H,,0,,는 μ=0이나 μ,,1,,=μ,,2,, 등이고, 대립 가설 H,,1,,은 μ≠0나 μ,,1,,≠μ,,2,,같은 것이다. μ,,1,,=μ,,2,,처럼 변수가 2개인 경우 μ,,1,,-μ,,2,,=0으로 바꾸고 μ,,1,,-μ,,2,,를 d로 치환하면 d=0과 같은 변수가 하나인 식으로 바꿀 수 있다.

카이-제곱 분포(χ^^2^^ 분포, chi-squared distribution): σ^^2^^을 구할 때 사용한다. 모 분산 검정, 적합도 검정, 독립성/동질성 검정 등에 사용한다. 귀무 가설 H,,0,,는 σ^^2^^=1같은 것이고, 대립 가설 H,,1,,은 σ^^2^^≠1같은 것이다. 또는 H,,0,,는 μ,,1,,=μ,,2,,이고, H,,1,,은 μ,,1,,≠μ,,2,,와 같은 것으로 H,,0,,는 "μ,,1,,과 μ,,2,,의 약효가 비슷하다", H,,1,,은 "μ,,1,,과 μ,,2,,의 약효에 차이가 있다"와 같은 것이다.

F-분포(F-distribution): σ,,1,,^^2^^ / σ,,2,,^^2^^ 을 구할 때 사용한다. 카이-제곱 분포를 따르는 두 확률 변수들의 비를 구한다. 분산 비 검정, 분산 분석, 회귀 분석 등에 사용한다.

분산 분석: 분산 분석의 귀무 가설 H,,0,,는 "μ,,1,,=μ,,2,,=μ,,3,,"같은 것이고, 대립 가설 H,,1,,은 "H,,0,,가 아니다"와 같은 것이다. 구체적인 예를 들자면, H,,0,,는 "약품 세 가지가 효과 차이가 없다"와 같은 것이고, H,,1,,은 "효과 차이가 있다"와 같은 것이다.

회귀 분석: 회귀 분석의 귀무 가설 H,,0,,는 "기울기 β,,1,,=0이다"같은 것이고, 대립 가설 H,,1,,은 "기울기 β,,1,,≠0이다"와 같은 것이다. 구체적인 예를 들자면, H,,0,,는 "약이 효과가 있다"이고, H,,1,,은 "약이 효과가 없다"이다. 회귀 분석에서 절편은 β,,0,,라고 하고, 기울기는 β,,1,,이라고 한다.

다른 학문과의 관계

사회과학

대규모의 자료를 다루어야 하는 심리학사회과학은 통계학에 의존하지 않고 존재할 수 없다. 통계학의 탄생 자체가 사회과학자 방대한 데이터를 분석하기 위해 만들어낸 학문이다. 영어이름부터가 State의 학문으로, 국가에 관한 특성을 연구하기 위해 만들어졌다. 몇천만에서 몇십억을 다루는 통계를 연구하는 통계학은 태생적으로 사회과학과 떼어놓을 수 없다.

실험분석이나 자료해석이 필요한 연구분야에서 논문을 쓰려면 통계 지식이 필요하다. 대부분의 논문은 통계 분석을 거쳐 논문의 결론을 제시하는 구조다. 따라서 대학원 진학시에는 기본적인 테이블 결과 해석 정도는 할 줄 알아야 하며, 최소한 기초통계학과 회귀분석에 대한 지식을 마련하는 것이 연구에 직/간접적인 도움이 될 것이다. 또한 자기 연구에 통계를 직접 써먹고 싶다면 SPSS, SAS, Stata, R, MATLAB 등 통계 분석 프로그램을 다루는 법도 배울 필요가 있다. ~~변수가 매우 적다면 엑셀로도 버텨볼 만하지만 최소 독립변수가 대여섯 개인 다중회귀분석만 들어가도 엑셀로는 답이 없다.~~ 엑셀 함수(trend, slope, linest 등) 및 데이터분석 메뉴에서 다중회귀분석을 지원한다.

경제학

경제학에서도 통계학이 빠질 수 없다. 물론 학술적인 분야에서도 많이 쓰이지만, 실무에서는 필수적이다.

경제학 중 통계학을 많이 쓰는 과목으로는 계량경제학(Econometrics) 문서 참조.

자연과학과 공학

복잡계, 카오스 이론, 네트워크, 머신러닝, 빅 데이터 등의 용어가 사용된다면 통계학과 연관된 분야다. 현대 자연과학은 정적인 연구주제가 고갈되었기 때문에 동적이고 예측불가능한 연구주제를 파고있다. 이런 문제들을 해결하기 위해 쓰이는 도구가 바로 통계학이다. 현대 자연과학은 전통적인 실험에서 벗어나, 통계학으로 대량의 데이터를 분석해 근사치를 구한 뒤, 이것을 수학적으로 추론하는 방식이다.

의학, 약학

의학제약회사약학에서도 통계학이 필수적이다.

수학

흔히 수학은 연역의 학문이고 통계학은 귀납의 학문으로 여겨진다. 그러나 사실 수학에는 확률, 퍼지이론 등 통계와 마찬가지로 연역보단 귀납스러운 논리체계가 많다. 그리고 통계의 이론들은 수학 이론에 근거하고 있어서 칼같이 수학은 연역이고 통계는 귀납이니까 둘은 다른 학문이라고 볼 수 만은 없다. 게다가 학술적으로나 둘을 구분하지, 실질적으로는 둘을 구분하지 않고 통계를 수학의 하위분야로 간주하는 경우가 더 많다. 즉, 연역 외엔 수학으로 인정하지 않는 수학 원리주의 학자가 아니라면 통계를 수학 분과로 여긴다고 보면 된다.

세부 분야

수리적인 견지에서 통계학을 연구하는 수리통계학은 확률분포의 성질, 통계량의 충분성(sufficient statistics), 통계검정의 효용성(most powerful test) 등에 대한 증명, 확률과정(stochastic process)의 수리적 성질에 초점을 맞추는 반면, 응용통계학적인 견지에서는 통계적 모형에 대한 추정방법 개발과 구현, 분석결과의 해석 등에 방점이 놓여있다.

기초 분야

아래의 분야들은 어느 대학을 가든 '통계이론', '응용통계' 등의 이름으로 묶여 학부의 경우 전공 필수로 지정되고, 대학원의 경우 1년차에 수강을 마치는 것이 필수로 되어 있는 경우가 대부분이다. 이후 각론으로 들어가기 위한 기초를 공부한다.

* 수리통계학(이론통계)
'수리통계학'이라는 이름과 '이론통계'라는 이름이 혼용되는 경우가 많다. 확률변수의 분포, 조건부 확률과 독립성, 몇 가지의 특수한 분포(정규분포, 이항분포, 다항분포, 감마분포, 카이제곱분포, 포아송 분포, 다변량 정규분포), 확률변수의 함수 분포, 중심극한정리를 포함한 극한분포, 추정, 통계적 가설과 검정, 비모수적인 방법을 이용한 검정과 각종 통계량 등을 배운다.[* 서울대학교 통계학과 홈페이지] 요약하면 통계학의 기초개념을 수리적인 관점에서 포괄적으로 다루는 분야.
* 확률론: 확률론 문서 참고.
* 통계계산
컴퓨터 기술이 발달하면서 통계적 자료분석 방법은 점차 고도화되고 복잡해졌다. 특히 최근에는 분석해야할 데이터가 매우 커지고 방대해짐에 따라, 어떻게 하면 더 빠른 알고리즘을 이용하여 분석할 수 있을 지가 중요한 문제로 대두되었다. 이 분야에서는 통계에 사용되는 계산 방법, 즉 컴퓨팅 기술을 주로 다루며, 빅 데이터 분석, 이미지 및 영상 처리, 기계 학습(머신 러닝) 등에 요긴하게 응용된다.
* 회귀 분석(regression analysis): 회귀 분석 문서 참고.
* 실험계획법
어떤 주장을 통계적으로 검증하기 위해 자료를 수집할 때, 어떤 단계를 통하여 자료를 모을 지 실험을 계획하여야 한다. 이와 같은 실험을 계획하고 결과를 분석하는 법을 다룬다. 일반적으로 t-검정, 분산 분석(analysis of variance; ANOVA)이라 불리는 기법이 이 맥락에서 다뤄진다.

데이터의 형태에 따른 각론

다루게 되는 데이터의 형태에 따라, 여기에 접근하기 위한 이론적 관점이나 통계적 기법 등이 달라지게 된다.

* 다변량자료분석
말 그대로 둘 이상의 측정 변수(다변량 자료)를 다루는 분야이다. 상세히 말하면, 단순히 각 사람들의 키만을 조사해 분석하는 게 아니라, 각 사람들의 키, 몸무게, 허리둘레, 성별 등등 많은 변수를 조사하여, 그 변수들이 가지고 있는 분포를 종합적으로 고려하여 데이터를 분석하기 위한 방법이다. 변수가 많기 때문에 시각화가 어렵고, 많은 변수를 한 번에 다루기 위해 행렬 이론 등이 많이 사용된다. 차원을 줄이고 정보를 요약하는 방법을 많이 다룬다. 학부 수준에서는 몇 개의 주성분을 뽑아내어 차원을 축소하는 주성분분석, 숨겨진 요인을 찾는 요인분석(인자분석), 자료를 분류 및 군집화하는 판별분석 및 군집분석 등을 다룬다. 
* 범주형자료분석
우리가 관심 대상으로 하는 자료는 키, 몸무게 등 수치적, 연속적으로 나오는 자료도 있지만, 성별 등 범주가 나누어져 있는 자료들이 있다. 이러한 범주형 자료를 분석하는 방법을 다룬다.
* 생존자료분석
불완전한 데이터 중 특수한 형태를 다루는 분야이다. 예를 들어 어떤 병에 대한 신약의 효과를 검증하기 위해 환자들을 모아 그 수명 시간을 조사하고자 하는 상황을 생각해보자. 이 때, 병이 악화되어 이미 수명이 다 한 사람은 수명을 정확히 알고 있지만, 아직 생존한 환자는 그 수명을 정확히 알지 못하고 '현 시점보다는 오래 산다'는 사실만 알게 되며 따라서 데이터가 불완전해진다. 이와 같은 불완전 자료를 분석하는 방법을 다루며 의학통계에 주로 응용된다.
* 확률과정론
많은 현상은 이전의 상태가 이후의 상태에 영향을 미치며, 그 상태가 결정되어있지 않고 랜덤하다. 따라서 이를 시간에 대한 함수로서의 확률변수열이라고 생각할 수 있는데, 이를 확률 과정(stochastic process)이라고 한다. 쉽게 말하면 매 시간마다 그 상태가 랜덤한 확률 변수라는 것이다. 확률과정론은 현상을 확률 과정으로 해석하여 모형을 세우고, 그 확률 과정의 여러 성질을 연구하는 분야이다.
* 시계열 분석: 시계열 분석(time-series analysis) 문서 참고.
시계열 자료, 즉 시간이 흐르며 관측된 자료를 다루는 분야이다. 주가 지수, 물가 지수, 월별/연별 강수량 등의 자료가 모두 시계열자료이다. 이러한 시계열자료의 두드러지는 특징은 한 시점에 여러 개의 데이터를 얻기 힘들다는 점과(시간이 흘러 버리므로), 관측치끼리 서로 연관이 있다(예를 들어, 오늘의 주가 지수는 어제의 주가 지수에 영향을 받을 수밖에 없다)는 점이다. 실생활의 수많은 자료가 시계열자료이므로 자료를 분석하고자 할 때 매우 중요한 분야 중 하나이다.

기타 각론

* 비모수통계학
'비모수(nonparametric)'는 기본적으로는 통계적인 추론을 모수(parameter)에 의존하지 않는다는 뜻이다. 모수는 우리가 가지고 있는 자료를 통해 추정하고자 하는 모집단(population)의 특징을 표현하는 대표값을 말한다. 만약 어떤 집단의 특징이 정규 분포를 따른다고 가정된다면, 그 집단의 특성은 정규 분포의 두 가지 모수인 평균과 표준편차로 표현되는 식이다.
일반적으로 학부 수준에서 '비모수통계학'이나 '비모수 통계분석'이라는 이름으로 배우게 되는 맥락에서의 '비모수'는 (1) 데이터가 모수로 표현 가능한 확률분포로부터 나오지 않았거나, (2) 통계적 추론을 모수로 표현 가능한 확률분포에 의존하지 않는다는 의미이다. 통상적으로 사용되는 많은 통계적 기법의 경우 데이터가 정규분포를 따른다는 가정을 하는데, 실제로 데이터가 정규분포를 따른다고 보기 힘든 경우에 이를 무시하고 통상적인 방법을 사용하여 분석하면 데이터에 대해 잘못된 해석을 하게 될 가능성이 커진다. 이 문제를 해결하기 위해, 데이터가 특정 분포에만 의존하지 않고, 통계적 추론 역시 모수 기반의 확률분포에 의존하지 않는 방식이 연구되게 된 것이다. 많은 경우, 비모수 통계학에서는 통계적 추론을 위해 자료의 랭크(rank)를 사용하며, 평균보다도 중앙값(median)이 더 많이 쓰인다.
'비모수'라는 말이 사용되는 또 다른 맥락은 변수들 사이의 관계가 제한된 수의 모수로 표현 가능하다는 가정을 할 수 없게 될 경우이다. 예를 들어, 두 변수 사이의 상관관계를 알아내고자 회귀분석을 실시한다고 하자. 이 때 두 변수 사이의 관계가 선형이라거나, 지수함수라거나 등 가정을 하게 되는데, 이 경우 (선형을 예로 들면) y절편과 기울기만을 알아내면 관계를 추정할 수 있다. 이 때 y절편, 기울기 등을 모수라 하며 이 경우 모수만을 추정하면 된다. 그러나 두 변수 사이의 관계를 특정하지 않고 예를 들어 '어떤 연속함수'라고만 정하게 된다면 모수 추정이 불가능해진다. 이 때 두 변수의 관계를 추정하기 위해 사용되는 방법 역시 '비모수'적인 방법이라 불린다.
* 베이즈 통계학 (베이지언 통계학, 베이지안 통계학)
토머스 베이즈베이즈 정리에 바탕을 두고 정립된 통계학의 흐름.
소위 '빈도주의(frequentist)'라 불리는 전통적인 통계학의 관점에서는, 모수를 상수이지만 알려져 있지 않은 것으로 보고, 값이 알려져 있지만 랜덤한 확률변수인 관측치를 이용하여 모수를 추정하는 데에 초점이 맞춰져 있었다. 그러나 베이즈주의자(Bayesian)의 관점은 약간 다르다. 우리가 모수를 직접 알지 못하므로, 이 불확실성을 확률분포로 표현하여, 모수가 어떤 확률분포에서 얻어진 값인 것으로 여긴다.
이러한 관점에서는 확률 역시 사건에 대한 믿음의 정도로 해석되고, 자료를 관찰하기 전의 '믿음의 정도'는 자료를 관찰한 후 이 자료에 따라 업데이트된다고 본다. 즉, 자료를 관찰하기 전에 가지고 있었던 모수에 대한 불확실성(=정보, 믿음의 부족)은 자료를 관찰함으로써 업데이트되게 되고, 이 업데이트의 과정은 베이즈 정리에 의해 이루어지게 된다.
여기서 데이터를 관찰하기 전에 가지고 있던 '불확실성에 대한 믿음'을 사전분포(prior distribution)라 하며, 이는 사전에 내가 알고 있는 정보에 의해 결정된다. 이후 관측치를 얻어 관측치를 보고 모수에 대해 알고 있는 정보를 업데이트하는데, 데이터로부터 오는 모수에 대한 정보를 가능도 또는 우도(likelihood)라고 부른다. 결과적으로 사전분포와 가능도를 모두 고려하여 모수에 대한 새로운 분포를 계산하게 되는데, 이를 사후분포(posterior distribution)라 한다.[* 사전에 알고 있는 정보를 사전분포라는 이름으로 분석에 활용하기 때문에, 아무런 자료가 없는 경우에는 자료를 분석하는 사람이 생각하는 '주관적 확률' 역시도 필요한 경우에는 분석에 포함시킬 수 있다. 물론 이런 경우는 있을 수 있는 모든 경우의 수에 대해 동일하거나 아주 미세한 차이만 있는 사전분포를 사용하여, 모든 가능성이 동등하게 고려될 수 있도록 한다. 만약 특정한 경향성을 가지고 있는 '주관적 확률'을 사용하고자 한다면, 여기에 대해서 정당화를 할 수 있어야 한다.]
모든 것을 손으로 계산해야 했던 시절에서는 사전분포와 사후분포의 관계를 깔끔하게 도출할 수 있는 문제가 제한적이었기 때문에, 그다지 많이 사용되지 못했다. 그러나 컴퓨터 기술의 발달로 인하여, 특히 마코프 체인 몬테 카를로 방법의 개발에 의해 사후분포를 도출할 수 있는 방법이 개발되면서 급성장하게 되었다.

관련 시험과 자격증

* 보험계리사
* 사회조사분석사
* 공무원 시험 - 5급 통계학(재경직) / 7급 통계학/ 9급 통계학개론이 출제되며, 7~9급에서는 통계직 시험이 따로 있다.
* 대학수학능력시험 - 수학 가, 나형 공통 영역 중 한 과목 확률과 통계.
* 일부 대학 경제학과 대학원 입학시험에서 수리통계학
* 품질경영기사. 단, 통계학과는 응시자격이 없어서 정보처리기사를 통해야 딸 수 있다.
* 농촌진흥청 농업연구사 연구직 공무원 시험과목 '실험통계학'.
* 임용시험 수학교사 채용 시험 확률 및 통계 파트
* 실용수학자격시험 3급 이상

관련 저널

4대 저널로는 JASA(Journal of the American Statistical Association), JRSSB(Journal of the Royal Statistical Society: Series B), Biometrika, The Annals of Statistics이 있다.

통계 소프트웨어

파일:top10-analytics-data-science-software-2016.jpg

width=600

* 상용 소프트웨어: 스프레드 시트를 제외한 통계처리용 소프트웨어의 경우, 그 가격이 매우 비싸 개인이 구매하기는 쉽지 않다. 대학교, 연구기관, 회사 등에 있는 경우 해당 기관에 소속되어 있다는 것을 전제로 발급되는 라이센스를 이용하여 쓰게 되는 경우가 많다.
 * Excel, Calc: 모두 기본적으로는 통계 처리용 소프트웨어라기보다는 스프레드 시트다. 하지만 데이터의 숫자가 그리 많지 않은 경우에는, 간단한 통계분석 (z-분포, t-분포, 카이-제곱 분포, F-분포, 회귀 분석 등)은 수행할 수 있다.
 * SPSS
 * SAS
 * STATA
* 오픈 소스 소프트웨어
 * R: 'S'라는 통계 프로그래밍 언어의 발전형.([[1]]) 오픈 소스 소프트웨어이기 때문에 무료로 이용이 가능하고, 통계 연구자들이 '라이브러리(library)'라 불리는 확장기능을 끊임없이 개발, 발표하고 있어 폭넓은 용도로 활용이 가능하다. 초기에는 '오픈 소스 소프트웨어를 어떻게 신뢰하느냐' 하는 불안감으로 인해 사용을 꺼리는 곳도 있었지만, 반대로 회사의 이익 때문에 소스 코드를 공개하지 않는 상용 소프트웨어에 비하면 투명한 개발/유지 보수가 가능하다는 이해방식도 널리 퍼지고 있다.
 * Python: 엄밀히 말하면 통계 소프트웨어가 아니라 범용 프로그래밍 언어이다. 하지만 pandas라는 패키지를 이용하면 R과 비슷한 통계 분석이 가능하다.
 * JASP: SPSS를 대체할 목적으로 만들어진 무료 오픈 소스 소프트웨어로, 베이즈 통계학에 기반을 둔 분석을 SPSS와 유사한 인터페이스를 통해 수행할 수 있도록 만든 것이 최대의 특징이다.
 * PSPP: SPSS를 대체할 목적으로 GNU에서 만든 무료 오픈 소스 소프트웨어
 * gretl: 무료 오픈 소스 소프트웨어이며 회귀 분석, 계량경제학, 시계열 분석에 특화되어있는 라이브러리이다.

관련 문서

* 통계
* 연구방법론 관련 정보
* 통계학과
* 통계의 함정
* 확률
* 확률변수
* 통계역학
* 큰 수의 법칙
* 여론조사
* 오차범위
* 도수분포
* 데이터 마이닝
* 빅 데이터 프로세싱
* p-해킹
* 정규 분포
* 통계 관련 정보
* 확률론
* 경우의 수
 * 순열
 * 조합

분류:통계학