카테고리 없음

Digital Training 10일차(시각화, 추론, 예측)

JHONJOE7 2024. 7. 5. 13:00

 

 

 

 

 

 

* 산점도 그리기 조건

 

X, Y가 두 연속형 변수가 되어야 한다.

 

 

 

seaborn line plot 활용하기(https://seaborn.pydata.org/generated/seaborn.lineplot.html)

 

 

 

문제 1.

  • 기존 시각화를 16개 그래프를 4 x 4 형태로 변형해서 시각화를 그리세요

* 데이터 불러오기

import gdown
gdown.download('https://bit.ly/3pK7iuu', 'ns_book7.csv', quiet=False)

 

4x4 시각화

 

# 좀더 간결하게 코드 작성

 

 

* 코드 Tip : ns_book7.loc    ""  .reset_index(drop=True).shape

 

 

판다스(pandas)는  데이터 분석 라이브러리다. 팬더스는 수치형 테이블과 시계열 테이블이 있다.

 

통계적으로 추론하기 : 가설검정, 순열검정

 

모수검정 : 모집단에 대한 파라미터를 추정하는 방법

정규분포 : 평균을 중심으로 대칭인 분포

표본(SAMPLE) : 모집단에서 선택한 일부 샘플

표준점수 : 데이터가 정규분포를 따른다고 가정할 때, 각 값이 평균에서 얼마나 떨어져 있는지 표준편차를 사용해 변환한 점수

손코드 예시)

import numpy as np

 

x = [0. 3. 5. 7. 10]

 

s = np.std(x)

m = np.mean(x)

z = (7-m) / s

print(z)

 

z값 = x-모집단의 평균/모집단의 표준편차

손코드 예시)

from scipy import stats

stats.zscore(x)

 

누적분포 이해하기

표준 정규분포 : 평균이 0이고 표준편차가 1일 정규분포

 

손코드 예시)

stats.norm.cdf(0)

stats.norm.cdf(1,0) - stats.norm.cdf(-1,0)

norm.ppf() 

 

중심극한정리

샘플 표본이 31개면, 표본이 정규분포를 이루고 있지 않더라도, 중심극한정리에 의해서 그냥 정규분포로 인식하기로 통계학자 합의를 했다고 생각한다.