탐색적 자료분석 2019년 1학기
강의평가 방법 : 강의시간 제출리포트(+homework) 70%, 최종결과물 30% | on-going
강의노트 강의 내용
개요 탐색적 데이터 분석 개념
확률모형 이산형, 연속형 모형, 적합성 검증
확률분포함수_모수추정 PDF, CDF, 생존함수, 모수, 지수족, 유명 분포함수, 모수 추정법(적률법, MLE, 비선형 최소자승법)| myclt2.py
가정_방법_추론 확률표본가정 + 독립성, 변수종류, EDA기법, 통계적추론(신뢰구간, 가설검정)
EDA_정량기법 정량적 기법 - 일변량, 이변량
EDA_그래프기법 그래프 기법 - 일변량(히스토그램 시간도표), 이변량(산점도, box-cox 변환), 다변량(주성분, 판별분석, 군집분석)
사례분석 import pandas as pd; import io; import requests
url = 'http://wolfpack.hnu.ac.kr/Stat_Notes/example_data/미세먼지/2015년1분기.csv'
s = requests.get(url).content
pd.read_csv(io.StringIO(s.decode('utf-8')))
Data: |cancer.csv|불량개수.csv|콜회수.csv| |퀴즈문제 | | 미세먼지2018Q1

import pandas as pd
mise=pd.read_excel('url_address')

mise.info()

# dropping null value columns to avoid errors
mise.dropna(inplace=True)

# new data frame with split value columns
new = mise['지역'].str.split(' ', n = 1, expand = True)
mise['시도'] = new[0]

date = mise['측정일시'].astype(str)
mise['연도'] = date.str.slice(start=0, stop=4).astype(str)
mise['월'] = date.str.slice(start=4, stop=6).astype(str)
mise['일'] = date.str.slice(start=6, stop=8).astype(str)

mise0=mise.groupby(by=['시도','월','일']).max()
mise0.info()