Re:제로부터 시작하는 갓생
[Statistics] 본문
- 소개
- 통계학의 정의와 중요성: 통계학이란 무엇인가? 왜 중요한가?
- 실생활 속 통계학: 통계학이 어떻게 사용되는지 예시
- 기초 개념
- 데이터의 정의: 정성 데이터와 정량 데이터
- 모집단과 표본: 차이점과 중요성
- 귀류법과 반증법: 기초 논리학 개념
- 귀류법
어떤 명제가 '참'임을 증명하기 위해 그 명제가 거짓이라고 가정 후 모순을 이끌어내는 방법
특정 주장이 거짓이라고 가정했을 때 발생하는 모순을 통해 해당 주장이 '참'임을 증명
- 반증법
과학적 이론이 검증될 수 있는가를 판단하는 기준
이론이 틀렸음을 입증할 수 있는 가능성이 존재해야 한다는 원칙
어떤 이론이 과학적이라면 그 이론이 틀렸음을 실험이나 관찰을 통해 입증할 수 있어야함
- 데이터 수집
- 수집 방법: 설문조사, 실험, 관찰 등
- 표본 추출 방법: 랜덤 샘플링, 층화 샘플링 등
- 기초 통계량
- 중심경향치: 평균(mean), 중앙값, 최빈값의 정의와 계산
평균 - 산포도: 범위, 분산, 표준편차의 개념
- 정규분포: 개념과 활용 예시
- 자료의 시각화
- 그래프와 차트의 종류와 용도 (막대그래프, 원그래프, 히스토그램 등)
- 각 그래프의 활용 사례와 장단점
- 확률 기초
- 확률의 개념: 기본 규칙과 개념
- 독립사건과 종속사건: 차이점
- 중심극한정리: 개념과 중요성
- 중심극한정리(Central Limit Theory, CLT)
표본 크기가 충분히 크면, 원래 분포가 어떤 형태이든 표본 평균의 분포는 정규 분포에 가까워진다는 이론
다양한 분포에서 얻은 표본들의 평균을 구하면 그 평균들의 분포는 정규 분포 형태를 띠게됨
- 통계적 추정
- 점 추정과 구간 추정: 차이점과 계산 방법
- t분포와 자유도: 개념과 활용
- t분포(T-distribution)
모집단 표준편차가 알려지지 않았고, 표본 크기가 작을 때 사용하는 통계 분포
모집단이 정규분포를 따를때 사용되며, 표본 크기가 커질수록 정규분포에 가까워짐
- 자유도(Degree of Freedom)
자유롭게 쓸 수 있는 data 자유도. 통계적 계산에서 독립적으로 변할 수 있는 변수의 수 - 신뢰구간의 개념과 계산 방법
- 기초 가설검정
- 가설검정: 기본 개념과 유의수준
- 귀무가설(null, H₀): 기존에 믿고있는 가설
- 대립가설(H₁): 새롭게 주장하는 가설 - 유의수준과 검정통계량
- 표준값이 클 수록 오차가 줄어든다
- 샘플 갯수를 늘리면 정보가 더 정확해짐
- 검정통계량: 표본집단을 보정하는 과정
- 유의수준:먼저 기준을 세우고-측정-판단-결론 - p-value의 의미: 가설 검정에서의 역할
- P-value: 귀무가설이 '참'일때 지지하는 정도
- 낮을 경우: 0.05보다 작다-> 귀무가설을 기각&대립가설을 채댁할 가능성 크다. 실험결과 or 데이터가 통계적으로 유의미함을 의미
- 높을 경우: 0.05보다 크다-> 귀무가설을 기각하지 않고 그대로 유지할 가능성 크다. 실험결과 or 데이터가 통계적으로 무의미함을 의미 - t-test와 p-value
- t-검정(t-test): 두 그룹의 평균이 다르다는 것을 비교하는 통계 방법
- t-검정 공식: $t = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$
- p-값(p-value): 두 그룹의 차이가 우연히 발생할 확률을 나타내는 값
https://www.investopedia.com/terms/t/t-test.asp
- z검정: 개념과 예시
- Z검정(Z-test): 모집단의 분산이 알려져 있거나 표본 크기가 클 때(일반적으로 n ≥ 30) 모집단 평균에 대한 가설을 검정하는 통계 방법 - 이표본 t-검정: 개념과 예시
- A/B 테스트: 실전 활용 예시
- 데이터가 2개이면서 적을때? 소규모 데이터셋을 다룰 때의 통계적 방법과 주의사항
- 통계학의 응용
- 실제 사례를 통한 통계학의 응용: 스포츠, 경제, 의학 등에서의 통계학 활용
- 미래의 통계학: 통계학이 어떻게 활용될 수 있는지 예측
- 결론
* 참고자료
250109 통계학 라이브 세션