'Math/Statistics' 카테고리의 글 목록

Math/Statistics

통계적 가설검정이란?

2023.03.25

모집단에 관해 분석자가 세운 가설이 올바른지 추론하는 분석기법 과정 통계적 가설검정의 종류별로 정해져 있는 공식에 표본 데이터를 대입해 하나의 값으로 변환한다. 위 과정으로 변환된 값과 비교해야 할 기준이 정해져 있다하면 기준이 더 작다 = 대립 가설은 옳다 기준이 더 크다 = 귀무 가설은 틀렸다고 할 수 없다. = 귀무 가설은 맞을수도 있고 틀릴 수도 있다. 예) 도쿄도와 오사카부와 후코오카현의 사립대학에 재헉하는 하숙생의 한 달 평균 생활비 송금액은 차이가 있지 않을까? 라는 가설이 옳은지 아닌지 추론해 보고 싶다. 귀무 가설 : 세 모집단의 평균은 같다. 대립 가설 : '세 모집단의 평균은 동일하다' 는 아니다 p값 0.05보다 작으면 '대립 가설은 올바르다' 0.05보다 크면 '귀무 가설은 틀렸다..

Math/Statistics

모집단의 비율 추정해보기

2023.03.25

표본 데이터에서 모집단의 비율을 추정해보자 OO이상 OO이하 라는 범위를 추정하는 행위를 '구간 추정'이라고 하고 추정된 범위를 '신뢰 구간'이라고 한다. '틀림없을 것이다'라고 생각하는 정도를 '신뢰율'이라고 한다. 모집단에서 무작위로 표본을 추출했다 되돌리는 행위를 끝없이 반복하면 그 히스토그램의 계급폭을 좁힌 최종 모습은 정규 분포 그래프로 간주할 수 있다. 평균은 모집단의 비율(평균)인 $\mu $와 비슷하다. 표준편차는 모집단의 표준편차를 표본 인원수의 루트로 나눈 $\frac{\sigma}{\sqrt{n}} $와 비슷하다. $-1.96 \leq \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}\leq 1.96$ 모집단에서 무작위로 표본을 추출한 뒤 되돌리는 행위..

Math/Statistics

데이터 가시화 - 정규 분포

2023.03.25

데이터의 분위기를 한눈에 알 수 있다! - 히스토그램과 확률 밀도 함수 도수분포표 -> 히스토그램 키에서 120이상 130미만 이런것들을 계급이라고 한다. 각 계급의 길이를 계급폭이라고 한다. 계급값이라는 건 계급의 중간 값을 말한다. 도수는 각 계급에 해당하는 데이터의 개수를 의미한다. 각 계급의 도수가 전체의 몇 퍼센트에 해당하는가가 상대도수이다. 가로축을 계급으로 갖고 세로축을 상대도수로 그린 그래프를 히스토그램 이라고 한다. 이 계급폭을 좁히면 최종적으로 도달하는 곡선의식 이것이 확률 밀도 함수이다. 확률 밀도 함수 그래프와 가로축 사이에 낀 부분의 면적은 1이 된다. 정규분포 t-분포(모집단의 평균에 관해 추론할 때 쓰임), F분포 정규 분포는 평균을 경계로 좌우대칭이다. 평균과 표준편차의 영향..

Math/Statistics

데이터 분위기 파악하기 - 범주형 데이터

2023.03.25

범주형 데이터 - '비율'로 파악하기 알파벳 위에 가로선이 있다면 평균을 말한다고 생각하면 된다.($\overline{X}$) 제곱합은 Sum of squares라고 해서 $S_{xx}$라고 표현한다. 2진 데이터는 수량 데이터로 취급할 수 있다. 범주의 개수가 2개인 범주형 데이터를 '2진 데이터(Binary data)'라고 한다. 단계적 평가(1. 매우 나쁨, 2.다소 나쁨, 3.다소 좋음, 4.매우 좋음)는 데이터를 더하거나 뺴거나 곱하거나 나누는 행위를 하면 안된다.

Math/Statistics

수량 데이터

2023.03.25

데이터는 수량 데이터와 범주형 데이터로 나눌수 있다. 물론 나누는 방식은 더 여러가지가 있다. 수량 데이터를 양적 데이터라고도 부른다. 범주형 데이터를 질적 데이터라고도 부른다. 데이터가 흩어진 정도를 수치화해 보자 데이터가 표에만 들어있으면 어쩌다 눈에 들어온 수치에만 주목하는 경향이 생기게 된다. 평균은 수량 데이터의 분위기를 파악할 떄 쓰는 기본 중의 기본인 방법이다. 제곱합, 분산, 표준편차는 '데이터가 흩어진 정도'를 나타내준다. 제곱합과 분산, 표준편차의 최솟값은 모두 0이다. 제곱합은 평균을 기준점으로 삼은 후 데이터가 흩어진 정도를 수치화한 것 (각 데이터의 평균)^2을 더한 것 데이터의 개수가 많아질수록 값도 커지는 치명적인 단점이 존재. 제곱합의 약점을 해결해주는 '분산' 분산은 제곱합..

Math/Statistics

'무늬만 조사'에 휘둘리지 않는 무작위 추출법

2023.03.23

조사의 신뢰성은 '무작위 추출법'으로 결정된다! 대부분 조사의 타겟 집단은 모집단에서 무작위로 추출한게 아니다. 일단 모집단의 정의가 불분명 하다. 추리 통계학의 근간을 이루는 중요한 개념이다. 표본이 모집단의 정교한 미너어처가 되어야 한다. 무작위 추출법은 모집단에 속하는 사람들이 똑같은 확률로 뽑히는 걸 목표로 한다. 📌원형 차트로 나타내기 좋은 경우 질문의 선택지가 3개 이상이고 순서성이 있는 경우 질문의 선택지가 두개인 경우 무작위 추출법 이해하기 '모든 국민 중에서 1000명을 추출하는' 상황을 예시로 들면 단순 무작위 추출법 모든 국민 중 무작위로 1000명을 추출하는 것 모집단의 수가 많지 않다면 적용가능한 방법 층별 추출법 모집단을 여러 층으로 나눈 다음 각 층에서 단순 무작위 추출법을 시..

Math/Statistics

통계학이란?

2023.03.23

통계학은 어떤 학문일까? 기업과 공공기관은 기술 발전 덕분에 다양한 종류의 데이터를 엄청나게 많이 수집할 수 있게 됬다. 이걸 활용하기 위해 통계학이 주목받고 있다. 통계학 활용 비즈니스에서 대응 분석(correspondence-analysis)에 활용됨. 의학, 심리학 등에서 통계적 가설 검정에 사용됨. 인과관계를 모색하고 검증하기 위해 통계학이 사용됨. 다른 사람을 설득할때 효과적으로 사용될 수 있다. 통계학은 표본데이터에서 모집단의 상황을 예측하는 학문이다. 데이터 리터러시를 높이자(Data literacy) 추리통계학, 기술통계학 두가지로 나뉘어진다. 기술통계학 : 데이터를 정리함으로써 집단의 상황을 최대한 간결하게 표현하는 것이 목적인 통계학 베이즈 통계학: 개인적 신념의 정도를 확률이라고 해석..

티스토리툴바