데이터의 분위기를 한눈에 알 수 있다! - 히스토그램과 확률 밀도 함수
- 도수분포표 -> 히스토그램
- 키에서 120이상 130미만 이런것들을 계급이라고 한다.
- 각 계급의 길이를 계급폭이라고 한다.
- 계급값이라는 건 계급의 중간 값을 말한다.
- 도수는 각 계급에 해당하는 데이터의 개수를 의미한다.
- 각 계급의 도수가 전체의 몇 퍼센트에 해당하는가가 상대도수이다.
- 가로축을 계급으로 갖고 세로축을 상대도수로 그린 그래프를 히스토그램 이라고 한다.
- 이 계급폭을 좁히면 최종적으로 도달하는 곡선의식 이것이 확률 밀도 함수이다.
- 확률 밀도 함수 그래프와 가로축 사이에 낀 부분의 면적은 1이 된다.
정규분포
- t-분포(모집단의 평균에 관해 추론할 때 쓰임), F분포
- 정규 분포는 평균을 경계로 좌우대칭이다.
- 평균과 표준편차의 영향을 받는다.
- 정규 분포 중에서 평균이 0이고 표준편차가 1인 정규 분포를 특별히 표준 정규 분포라고 한다.
- 기준화
- 만점이 몇 점의 변수이든 상관없이 기준화하면 그 기준값의 평균은 0이고 표준편차는 1이 된다.
- 어떤 단위의 변수도 기준화하면 그 기준값의 평균은 0이고 표준편차는 1이 된다.
- 기준화로 인해 보통의 정규 분포를 표준 정규 분포로 변환할 수 있다.
- 표준 정규 분포에서
- 그래프와 가로축 사이에 끼어 있고, -1.96 <= x <= 1.96인 부분의 면적은 0.95이다.
- 그래프와 가로축 사이에 끼어 있고, -2.58 <= x <= 2.58인 부분의 면적은 0.99이다.
- 확률 밀도 함수의 면적 = 비율 = 확률
- 확률 밀도 함수의 정의
- f(x)의 그래프가 위치하는 곳은 아무리 구불구불한 형상이어도 가로축과 같거나 그보다 위이다.
- $f(x) \geq 0$
- f(x)의 그래프와 가로축 사이에 낀 부분의 면적은 1이다.
- $\int_{-\inf}^{\inf}f(x)dx = 1 $
- x가 a이상 b이하일 확률을 a로부터 b까지의 f(x)의 정적분과 같다.
- $P(a\leq x\leq b) = \int_{a}^{b}f(x)dx$
- f(x)의 그래프가 위치하는 곳은 아무리 구불구불한 형상이어도 가로축과 같거나 그보다 위이다.
📌 정리
- '확률 밀도 함수'는 히스토그램 계급폭을 좁혀나가 최종적으로 도달하는 곡선의 식이다.
- 확률 밀도 함수 그래프와 가로축 사이에 낀 부분의 면적은 1이다.
- 확률 밀도 함수의 그래프와 가로축 사이에 낀 부분의 면적은 비율 또는 확률과 동일시할 수 있다.
- 학술적으로 중시되는 확률 밀도 함수의 종류로는 't분포', 'F분포', '정규 분포'등이 있다.
- 정규 분포 그래프의 모양은 평균을 경계로 좌우대칭을 이루며 평균과 표준편차의 영향을 받는다.
- 평균이 0이고 표준편차가 1인 정규 분포를 '표준 정규 분포'라고 한다.
'Math > Statistics' 카테고리의 다른 글
통계적 가설검정이란? (0) | 2023.03.25 |
---|---|
모집단의 비율 추정해보기 (0) | 2023.03.25 |
데이터 분위기 파악하기 - 범주형 데이터 (0) | 2023.03.25 |
수량 데이터 (0) | 2023.03.25 |
'무늬만 조사'에 휘둘리지 않는 무작위 추출법 (0) | 2023.03.23 |