생활정보: 할인정보,시험,아르바이트,잡다한정보

통계학에서 데이터보고 데이터 이해하기

purplebreeze 2018. 1. 27. 01:30
반응형

 

 

숫자로된 변수를 숫자로 나타내는 방법은 무엇이 있을까?

 


즉, 숫자로 된 데이터를 보고 이 데이터가 어떤 형태, 분포로 어떤 성질을 갖는지 알 수 있는 방법은 무엇이 있을까?

 

▣ 데이터 요약 :
–데이터의 분포가 가지고 있는 중요한 특성을 수치로 나타내는 것으로, 분포의 특성은 중심경향도(central tendency), 산포도(dispersion), 비대칭도(skewness)로 요약 표시한다.


※ 중심경향도 : 데이터가 어느 위치를 중심으로 분포되어 있는지를 나타낸다.

※ 산포도 : 데이터가 그 중심점을 중심으로 얼마나 흩어져 있나 하는 정도를 나타낸다.

※ 비대칭도 : 데이터가 대칭상태를 기준으로 왼쪽이나 오른쪽으로 얼마나 치우쳐 있는지를 나타낸다.

 

1. central tendency(중심 경향도)측정

공통적으로 모이는 속성이 있다. 그것을 대표로 잡아서 그 집단을 표시해준다.

중앙으로 모이려는 경향이 있음. ex) 키, 몸무게..

평균(Average), 중앙치(Median), 최빈치(Mode),


평균

-평균을 많이 사용하는 이유는 민주적임. 정보의 손실이 적다.

예를 들어서 100명 몸무게가 있을 경우 모든사람들의 몸무게를 재서 나눈 값이 평균이면, 중앙값은 일렬로 세워서 중앙에 오는 사람의 몸무게만을 대푯값으로 사용하는 것이다.

한사람 한사람의 정보를 모두 이용하기 때문에 민주적이라 할 수 있다.

-이상값에 큰 영향을 받는다.


중앙값

-자료의 손실이 많다. 가운데값 이외에서는 순서정보만 이용한다.

-극단값에 영향을 받지 않는다.

 

2. variability 변동성

변동성(Variability)의 측정

• 중심위치의 측정은 자료의 분포(distribution), 즉 변수값들이 평균(중심위치)를 중심으로 얼마만큼 산포되어 있는지에 대해서는 어떤 특성이나 정보를 제공하지 못한다.

비록 두 자료가 같은 평균값(50)을 가지고 있으나 빨간색의 자료가 파란색의 자료 보다 변동성이 크다

-분산(variance), 표준편차(Standard Deviation), 범위(Range), 사분위수(IQR:InterQuartile Range)

 

분산(Variance) 또는 표준편차(Standard Deviation)

분산 또는 표준편차는 퍼짐의 정도를 나타내는데, 가장 중요한 척도이다. 분산은 각 표본값에서 표본평균을 뺀 것을 제곱하여 평균한 것인데,  로 나눈다. 즉, 표준편차란 분산의 제곱근을 말한다. 여기서, 각 표본값에서 표본평균을 뺀 것을 편차(deviation)라고 부르는데, 편차들의 평균은 항상 0이 된다. 그러므로 분산이란 편차들을 제곱하여 평균을 한 결과로써 퍼짐의 정도를 나타내고자 하는 것이다.

그러나 분산의 단위가 측정단위의 제곱으로 나타나므로 측정단위와 같도록 하여야만 크기나 길이로 표시될 수 있을 것이다. 따라서 분산의 제곱근을 표준편차라고 정의하여 의 측정단위와 같은 단위의 퍼짐의 정도를 얻게 되는 것이다. 다시 말하면, 분산이나 표준편차 모두 퍼짐의 정도를 나타내는 척도인데 그 단위만 다르다고 할 수 있다.

 

범위(Range)

범위란 자료들이 퍼져있는 구간의 크기를 말한다. 학생들의 시험성적이 15점에서 90점 사이에 분포되어 있다면 90-15=75점의 범위에 자료들이 퍼져있다고 표현할 것이다. 그러므로, 범위(R)은 다음과 같이 정의된다.

최대값 - 최소값

범위(range)

범위 = 최대치 - 최소치 (R = Xmax - Xmin)


관측치의 분포와 상관이 없다.

계산하기 쉽고, 이해하기 쉽다.

지나치게 크거나 작은 관측치의 영향을 크게 받는다.

범위내의 개체들이 어떻게 분포하는지 알 수 없다.

극단치에 영향을 받는 문제를 해결하기 위하여 사분위수범위 사용.

 

사분위편차(Quartile Deviation)

Q1 = 제1사분위수 = 자료를 작은 것부터 크기 순서대로 25%에 위치한 값

Q2 = 제2사분위수 = 자료를 작은 것부터 크기 순서대로 50%에 위치한 값

Q3= 제3사분위수 = 자료를 작은 것부터 크기 순서대로 75%에 위치한 값

이때, 사분위편차란 작은 값들 25%, 큰 값들 25%를 제외한 가운데 쪽 50% 자료들의 범위 (Q3-Q1) 를 2로 나눈 값이다. 즉, 사분위편차란 자료들이 얼마나 중간부분에 집중되어 있는가를 나타내주는 퍼짐의 정도이다

 


3. shape

shape를 알면 더 정확하게 분포를 알 수 있다.

-로 기울어져있으면 엉뚱하게 작은사람이 몇사람 있다.

+로 기울어져 있으면 엉뚱하게 큰사람이 몇 사람 있다.


Skewness,(왜도)

kurtosis(첨도)

왜도와 첨도


왜도(skewness)란 자료의 분포가 대칭인지 아닌지를 측정해주는 값으로 다음과 같이 정의된다.

왜도 :

자료들이 중심으로부터 좌우 대칭일 경우에는 왜도의 값이 0이고, 오른쪽으로 왜곡되어 있는 (skewed to the right) 경우에는 양(+)의 값, 그리고 왼쪽으로 왜곡되어 있는(skewed to the left) 경우는 음(-)의 값을 갖는다. <그림 1.4-1 참조>

첨도(kurtosis)란 자료들의 분포가 어느 정도 뾰족한지를 나타내는 측도로 다음과 같이 정의된다.

첨도 :

자료들의 분포가 정규분포보다 뾰족할 경우에는 첨도의 값이 양(+)의 값으로 나타나고, 그렇지 않을 경우에는 음(-)의 값으로 나타난다. 여기서 정규분포란 뒤에서 설명하게 되지만, 통계학에서 매우 중요한 (이론적)분포이고 실제로 많은 자료들이 정규분포의 형태를 갖는 분포를 하기 때문에 첨도도 정규분포를 기준으로 뾰족한지 아닌지를 판단하게 되는 것이다.

첨도K = 0 : 표준정규분포와 뾰족한 정도가 같다.

첨도K < 0 : 표준정규분포보다 납작하다.

첨도K > 0 : 표준정규분포보다 뾰족하다.


표준편차의 응용: 경험적 법칙(Empirical Rule)

• 표준편차는 서로다른 분포형태를 가진 자료들의 변동성을 비교하는데 이용되며, 아울러 자료의 분포특성을 파악하는데 사용된다.


• 만일 자료의 분포형태를 나타내는 히스토그램이 대칭적 형태

(종모양의 형태:bell shape)일 경우 , 경험적 법칙(EmpiricalRule)을 적용할 수 있다.

 


1) 모든 변수값들 중 약 65%가 평균±표준편차의 범위내에 존재한다.

2) 모든 변수값들 중 약 95%가 평균±(2*표준편차)의 범위내에 존재한다.

3) 모든 변수값들 중 약 99.7%가 평균±(3*표준편차)의 범위내에 존재한다.

 

 

1. 표준 정규분포 (Standard Normal Distribution)

ㅇ 다양한 종(Bell) 모양의 정규분포를 평균이 0 이고 표준편차가 1 로 규격화시킨 것


2. 표준 정규분포로의 변환

ㅇ 정규분포(가우시안 분포)의 불편함

- 평균 및 표준편차 값에 따라 중심 위치 및 전체 모양이 달라진다.

. 2 이상의 정규분포를 서로 비교할 때 또는 확률값 계산할 때에 매우 불편하다.

ㅇ 따라서, 모든 정규분포를 다음과 같이 표준적인 정규분포로 변환하여 사용이 바람직하다.

- 즉, 평균이 0 이고, 표준편차가 1로 변환된 정규화된 분포 => 표준정규분포

. 어떤 관찰값이 평균으로부터 표준편차의 몇 배 만큼 떨어져 있는가의 척도


ㅇ 표준정규분포 및 정규분포 공통점

- 평균을 중심으로 좌우대칭이고 종 모양을 하는 점이 똑같으며,

- 또한, 전체 면적이 1 이고, 각 σ 만큼의 면적이 변환 전후에도 같음


3. 표준정규분포 확률값 구하기

ㅇ 면적 계산 => 대부분의 통계책 부록에 있는 표준정규분포표(Z table)을 이용

- 표준정규분포표(Z-table) : 특정 Z 값에서의 면적 수치를 표로 보여줌

 

4. 정규 확률변수의 표준화 (Standardized Random Variable)

ㅇ 정규분포의 확률변수 X를 변환시켜, 평균 μ= 0, 분산 σ2= 1 이 되도록 표준화시킨 확률변수

- 이러한 표준화/정규화 변환을 `Z 변환`이라고도 함 ☞ z 값 참조

. 확률변수 X를 Z로 변환시킴


5. 표준 정규분포 특성

ㅇ X ~ N(0,1)

- 평균이 0 이며, 분산이 1 로써 표준화된 정규분포

ㅇ 일반 정규분포의 확률값

 


1. Empirical Rule (경험적인 규칙)

- 통계학에서 68-95-99.7 규칙은 정규 분포를 나타내는 규칙으로, 경험적인 규칙이라고도 한다. 3시그마 규칙(three-sigma rule) 이라고도 하는데 이 때는 평균에서 양쪽으로 3 표준편차의 범위에 거의 모든 값들(99.7%)이 들어간다는 것을 나타낸다. total 6개 standard deviation 안에 100%가 들어간다.

 

어림짐작으로 range 나누기 6하면 근사치가 나옴

 

약 68%의 값들이 평균에서 양쪽으로 1 표준편차 범위(μ±σ)에 존재한다. 34.13% -> 68%

약 95%의 값들이 평균에서 양쪽으로 2 표준편차 범위(μ±2σ)에 존재한다. 47.72% ->95%

거의 모든 값들(실제로는 99.7%)이 평균에서 양쪽으로 3표준편차 범위(μ±3σ)에 존재한다.49.90%-> 99.7

 

반응형