빅데이터 블로그 R(텍스트마이너) Python (파이썬) 2019.03
빅데이터 개념 | R활용예제 포함 Twitter_텍스트마이닝(남북회담, 청와대트윗)

PANDAS 데이터

만들기 (난수생성, txt, csv, excel url PANDAS 데이터프레임) || 기초 Series-DataFrame(열-변수 이름 재설정, 행-개체, 열-변수인덱스 subset 문자열 처리, 날짜변수) 새변수 만들기(*) || 변형 (행-개체, 열-변수 조건 subset, 열(변수) 인덱스-PS.loc, PS.iloc, PS.ix, 단일데이터프레임 melt(), pivot(), 정렬DF.sort_values(), 빈도 DF.value_counts(), 기초통계량 DF.groupby.통계량()) || 합치기 (열-P=pd.concat, 행-pd.merge, 예제-2018기상청데이터, 관측지점데이터 합치기 by 시도)

설치하기(주피터 포함) 저장하기, 모듈 설치하기, 개념, 클래스와 객체
(주피터 설치문제 해결방법)

제어문 (논리연산자, if 조건문, for, while 반복문) Built-in함수[Boolen연산자, Sequence, 문자열(string), print()]
빅데이터 언어 R, Python, Hadoop 워드_클라우드(PDF_영어) (예제: 영어성경) 입출력(키보드입력 input, print) 선형대수(행렬계산, 연립방정식, 방정식, 미분, 적분, 고유값, 행렬분해,회귀분석OLS추정치) 파이썬_그래프 한글깨짐 문제해결[맥용, 윈도우용]
연구방법in빅데이터(HNU세미나) 워드_클라우드(PDF_한글) (예제: 신약성경) 품사셋 이용 데이터만들기 (변수, 문자열, 자료구조, 파일읽기&쓰기,배열및데이터프레임 pandas 모듈, 외부데이터_csv, excel, sas, url 가져오기) 함수만들기(사용자정의함수, 모듈 만들기, 주피터에서 불러오기) 구글코랩(Colaboratory)
(구글 드라이브에서 파이썬, R이용하기, 구글드라이브 데이터 파일 읽기, 저장하기)
    기초분석 (요약통계량, 집단변수, 그래프요약-히스토그램, 상자그림, 1집단-모평균, 모비율, 2집단-(독립, 짝진)모평균차이, 독립모비율차이, McNemar(짝진 모비율)) 연산과함(연산자, 수학함수, 통계함수 및 모듈 random모듈, numpy모듈, scipy.stats모듈, (누적)확률분포함수,백분위값)

 

Python CHEAT Sheet : 파이썬 QUICK 사용 설명서(출처 - DataCamp)

| 파이썬초보 | 파이썬기초 | NUMPY기초 | scipy선형대수 | 데이터가져오기 | pandas기초 | pandas데이터변환1 | pandas데이터변환2 | matplotLIB그래프 | seaborn데이터시각화 | bokeh데이터시각화 | keras_인공망 | pyspark머신러닝RDD | pysparkSQL | scikit머신러닝 | spacy자연어처리

[OPEN Data for Big Data Examples]

시군구지오코드 읍면동지오코드 시도지오코드 영어성경(PDF) 영어성경(txt) 한글성경(PDF) 한글성경(txt) 한글신약(PDF)    
기후데이터 2016년 | 2017년 | 2018년 (csv 포멧) 기상청 관측지점코드
미세먼지

CSV 포멧 | 2016Q1 | 2016Q2 | 2016Q3 | 2016Q4 |2017Q1 | 2017Q2 | 2017Q3 | 2017Q4 | 2018Q1 | 2018Q2 | 2018Q3 | 2018Q4 | 2019Q1 (에어코리아)

4차 산업 시대가 접어들면서 통계는 빅데이터의 부분집합으로 인식되고 있다. 이유는 뭘까? 빅데이터는 통계학의 수집-데이터정제(요약)-분석-표현 4 단계를 시스템화 한 결과이다. 시스템을 구축하는데는 구축 로직과 작성 툴이 있는데, 로직은 통계이고 툴은 빅 데이터 관련 소프트웨어(하드웨어는 컴퓨터이다. 우리가 명령하지 않으면 아무 것도 하지 못하는...)이다. 통계가 로직인 이상 이제 통계학의 응용학문이 아닌 사이언스(기초 과학)이 되어야 한다. 통계 방법론에 대한 이해가 필요하고 그를 실현할 수 있는 툴을 다룰 수 있어야 한다. 하여, 코딩이 초등학교 필수 교육과정으로 자리 잡게 된다.
코딩 기술을 알더라도 "로직"을 이해하지 못하면 시스템을 완성하지 못한다. 로직을 알면 알고리즘을 완성할 수 있어 코딩 작업을 맡기면(통계소프트웨어 역할) 된다. 기존 통계학은 이렇게 생존해 왔다. 이제는 통계학의 최초 뿌리인 (응용)수학으로 돌아가야 한다. 통계학이 0, 1만을 인식하는 컴퓨터를 이해하고 여기에 통계 방법론을 적용해야 한다(코딩 능력이 필요하다). 수학적, 과학적 사고로 통계 방법론을 이해하고 그것을 컴퓨터에 적용할 수 있어야 한다. 적용 도구들은 이미 우리 앞에 있다. 이전의 통계학은 통계분석을 잘하기 위하여 (통계 소프트웨어)를 활용하였다면 빅데이터의 통계학은 (1) 연구문제를 구조화(알고리즘) (2) 이를 (자바, C언어, Python) 코딩을 통하여 컴퓨터에 명령하고 (3) 정보를 출력할 수 있는 능력(R, SAS)이 있어야 한다. 빅데이터는 시스템이고 개발자는 데이터 과학(+컴퓨터 사이언스)이다. 통계학은 데이터 과학(응용수학)으로 돌아가야 한다.
내용 통계학 빅데이터
데이터 수집 연구목적에 맞는 데이터를 실험설계, 표본설계를 통하여 수집 - 연구자 직접 Garbage In, Gabage out 실시간, 대용량 데이터 자동 수집, Data Warehousing, Oracle DB - Garbage in, Value out - 실시간(주가, 메신저 내용) 혹은 저장된 데이터(통계청 마이크로 데이터) 제공되고 있음 (이를 가져올 수 있는 능력 필요)
데이터 전처리(정제) 관측된 표본 데이터의 이상치 클린징, 연구방법에 맞는 변수 변환 - 통계의 오용 가능성 있음. 통계학 전공자의 안목 데이터 분석에 맞도록 처리(Python), 대용량 데이터를 처리하는 분산처리 시스템 구축 (Hadoop)
데이터 분석 통계 소프트웨어 활용 능력 필요 - SAS, SPSS, Minitab, R 빅데이터 통계 소프트웨어 활용 : R, SAS
정보 표현 분석 결과 리포팅 작성 - 필드(비즈니스, 경제, 공학, 농학) 관련 지식 필요 결과 출력 및 Visualization(시각화) 실제 빅데이터는 예측, 군집 등 연구 목적에 맞게 데이터 수집부터 표현까지 일련의 과정을 구축하고 있음 - (기업, 국가 빅데이터 시스템) - 통계학 전공자는 "데이터 전처리-맞츰형 정보 표현"까지 시스템 구축에 관여해야 함