경영경제데이터 2019년 2학기
강의평가 방법 : 중간고사 20%, In-class work 60% 기말 20%) [구글드라이브 계정 http://drive.google.com] '경영경제19_울프팩' 폴더공유 rkdckdwns6275@gmail.com | on_going
Bulletin Board : 9월23일(월)~27일(금) Noclass (out of Office)
강의노트 강의 내용
통계방법 | 데이터 | 표본추출  
확률 | 확률변수_기대값  
추론개념 일변량추론파이썬
실증 데이터 활용 : World Bank Data | Education | Poverty | Development | Population | Gender |(2018년)
데이터변환 | 정규변환  
일변량 - 모평균 | 모비율  
두집단 차이 - 평균 | 비율  
교차분석  
일원분산분석 | 이원분산분석  
산점도 | 상관분석 | 단순회귀분석  
선형모형(추정) | 변수선택 | 로지스틱회귀  
은행_내용 | 은행데이터 | ambulance.csv | Bank2.csv | /baseball.csv | baseball2.csv | cereal.csv | Crime.csv | diet.csv | ear_infection.csv | University.csv | Fastfoods_Drivethrough | Jobs
mba | mba2 | Milk | mutual | newspaper | package | RIM | shop Sport | TVAD | vote| just_in_time

import rpy2
%load_ext rpy2.ipython

from google.colab import drive
drive.mount('/content/drive')

df=pd.read_csv('/content/drive/My Drive/csv예제파일이름.csv')

import pandas as pd
education=pd.read_excel('http://wolfpack.hnu.ac.kr/Big_Data/data/WorldBank/Education_Statistics.xlsx')

education_index=education.set_index('Series') #행인덱스 이름 변경 as Series(측정항목)
education_transpose=education_index.transpose() #행열 전환 <- 행 인덱스가 열 이름(columns)으로
education_clean=education_transpose.drop(['Time','Time Code','Series Code']) #필요없는 행 제거

결측치 제거 함수(강창준조교)

def nan_del(aa,k) :
aa=aa.replace('..',np.nan) #결측치 제거하는 함수
name=[] #아래 열이름을 넣기위한 리스트
for i in range(0,aa.shape[1]): #데이터의 열개수만큼 반복
if (aa.isnull().sum()[i]>k): #결측치가 k개 이상일경우
name.append(aa.columns[i]) #결측치가 100이상인 columns를 name에 저장
for j in range(0,len(name)): #name의 길이만큼 반복
del aa[name[j]] #데이터 columns중 name의 j번째에있는 열을 제거
new=aa #클린징된 데이터프레임를 새로운 이름으로 저장
return new