- 데이터는 수량 데이터와 범주형 데이터로 나눌수 있다. 물론 나누는 방식은 더 여러가지가 있다.
- 수량 데이터를 양적 데이터라고도 부른다.
- 범주형 데이터를 질적 데이터라고도 부른다.
데이터가 흩어진 정도를 수치화해 보자
- 데이터가 표에만 들어있으면 어쩌다 눈에 들어온 수치에만 주목하는 경향이 생기게 된다.
- 평균은 수량 데이터의 분위기를 파악할 떄 쓰는 기본 중의 기본인 방법이다.
- 제곱합, 분산, 표준편차는 '데이터가 흩어진 정도'를 나타내준다.
- 제곱합과 분산, 표준편차의 최솟값은 모두 0이다.
- 제곱합은 평균을 기준점으로 삼은 후 데이터가 흩어진 정도를 수치화한 것
- (각 데이터의 평균)^2을 더한 것
- 데이터의 개수가 많아질수록 값도 커지는 치명적인 단점이 존재.
- 제곱합의 약점을 해결해주는 '분산'
- 분산은 제곱합을 데이터 개수로 나눈 것
- 분산은 루트로 나타낸 '표준편차'
- 원래 데이터의 단위와 맞춰주기 위해서
- 불편분산
- 제곱합 / (데이터 개수 - 1)
- 평균의 약점을 해결하는 '중앙값'
- 평균은 일부 데이터가 너무 크거나 작다면 거기에 끌려다니는 성질이 존재한다.
- 데이터를 작은 순서로 나열했을 때 딱 가운데 오는 값이 중앙값이다.
데이터의 기준화
- 단위가 다르거나 만점이 다른 변수의 규격을 통일하기 위한 변환. 표준화라고도 한다.
- 기준화 : (각 데이터 - 평균) / 표준편차
- 기준화된 데이터를 '기준값', '표준점수' 등으로 부른다.
- 만점이 몇 점의 변수이든, 그 기준값의 평균은 0이고 표준편차는 1이다.
- 어떤 단위의 변수이든, 예를 들어 cm이든 kg이든 상관없이 그 기준값의 평균은 0이고 표준편차는 1이다.
📌 정리
- 데이터는 '수량 데이터(양적 데이터)'와 '범주형 데이터(질적 데이터)'의 2가지로 나눌 수 있다.
- 데이터가 흩어진 정도를 나타내는 지표로는 '제곱합'과 '분산'과 '표준편차'가 있다.
- 분산에는 '불편분산'이라는 종류도 있다.
- 데이터를 작은 순서로 나열했을 때, 정확히 한가운데에 오는 값을 '중앙값'이라고 한다.
- 평균보다 중앙값이 지나치게 크거나 작은 데이터가 있는 경우에 도움이 된다.
- '기준화'는 단위가 다르거나 만점이 다른 등 변수의 규격을 통일시켜주는 데이터 변환이다. '표준화'라고도 한다.
- 기준화된 데이터를 '기준값' 또는 '표준 점수'라고 한다.
'Math > Statistics' 카테고리의 다른 글
모집단의 비율 추정해보기 (0) | 2023.03.25 |
---|---|
데이터 가시화 - 정규 분포 (0) | 2023.03.25 |
데이터 분위기 파악하기 - 범주형 데이터 (0) | 2023.03.25 |
'무늬만 조사'에 휘둘리지 않는 무작위 추출법 (0) | 2023.03.23 |
통계학이란? (0) | 2023.03.23 |