* 산점도 그리기 조건
X, Y가 두 연속형 변수가 되어야 한다.
seaborn line plot 활용하기(https://seaborn.pydata.org/generated/seaborn.lineplot.html)
문제 1.
- 기존 시각화를 16개 그래프를 4 x 4 형태로 변형해서 시각화를 그리세요
* 데이터 불러오기
import gdown
gdown.download('https://bit.ly/3pK7iuu', 'ns_book7.csv', quiet=False)
4x4 시각화
# 좀더 간결하게 코드 작성
* 코드 Tip : ns_book7.loc "" .reset_index(drop=True).shape
판다스(pandas)는 데이터 분석 라이브러리다. 팬더스는 수치형 테이블과 시계열 테이블이 있다.
통계적으로 추론하기 : 가설검정, 순열검정
모수검정 : 모집단에 대한 파라미터를 추정하는 방법
정규분포 : 평균을 중심으로 대칭인 분포
표본(SAMPLE) : 모집단에서 선택한 일부 샘플
표준점수 : 데이터가 정규분포를 따른다고 가정할 때, 각 값이 평균에서 얼마나 떨어져 있는지 표준편차를 사용해 변환한 점수
손코드 예시)
import numpy as np
x = [0. 3. 5. 7. 10]
s = np.std(x)
m = np.mean(x)
z = (7-m) / s
print(z)
z값 = x-모집단의 평균/모집단의 표준편차
손코드 예시)
from scipy import stats
stats.zscore(x)
누적분포 이해하기
표준 정규분포 : 평균이 0이고 표준편차가 1일 정규분포
손코드 예시)
stats.norm.cdf(0)
stats.norm.cdf(1,0) - stats.norm.cdf(-1,0)
norm.ppf()
중심극한정리
샘플 표본이 31개면, 표본이 정규분포를 이루고 있지 않더라도, 중심극한정리에 의해서 그냥 정규분포로 인식하기로 통계학자 합의를 했다고 생각한다.