빅데이터 블로그 R Python (파이썬)
빅데이터 개념 | R활용예제 포함   Twitter_텍스트마이닝(남북회담, 청와대트윗)      
빅데이터 언어 R, Python, Hadoop   워드_클라우드(PDF_영어) (예제: 영어성경)      
연구방법in빅데이터(HNU세미나)   워드_클라우드(PDF_한글) (예제: 신약성경) 품사셋 이용      
           

시군구지오코드 읍면동지오코드 시도지오코드 영어성경(PDF) 영어성경(txt) 한글성경(PDF) 한글성경(txt) 한글신약(PDF)    
                   
 

4차 산업 시대가 접어들면서 통계는 빅데이터의 부분집합으로 인식되고 있다. 이유는 뭘까? 빅데이터는 통계학의 수집-데이터정제(요약)-분석-표현 4 단계를 시스템화 한 결과이다. 시스템을 구축하는데는 구축 로직과 작성 툴이 있는데, 로직은 통계이고 툴은 빅 데이터 관련 소프트웨어(하드웨어는 컴퓨터이다. 우리가 명령하지 않으면 아무 것도 하지 못하는...)이다. 통계가 로직인 이상 이제 통계학의 응용학문이 아닌 사이언스(기초 과학)이 되어야 한다. 통계 방법론에 대한 이해가 필요하고 그를 실현할 수 있는 툴을 다룰 수 있어야 한다. 하여, 코딩이 초등학교 필수 교육과정으로 자리 잡게 된다.
코딩 기술을 알더라도 "로직"을 이해하지 못하면 시스템을 완성하지 못한다. 로직을 알면 알고리즘을 완성할 수 있어 코딩 작업을 맡기면(통계소프트웨어 역할) 된다. 기존 통계학은 이렇게 생존해 왔다. 이제는 통계학의 최초 뿌리인 (응용)수학으로 돌아가야 한다. 통계학이 0, 1만을 인식하는 컴퓨터를 이해하고 여기에 통계 방법론을 적용해야 한다(코딩 능력이 필요하다). 수학적, 과학적 사고로 통계 방법론을 이해하고 그것을 컴퓨터에 적용할 수 있어야 한다. 적용 도구들은 이미 우리 앞에 있다. 이전의 통계학은 통계분석을 잘하기 위하여 (통계 소프트웨어)를 활용하였다면 빅데이터의 통계학은 (1) 연구문제를 구조화(알고리즘) (2) 이를 (자바, C언어, Python) 코딩을 통하여 컴퓨터에 명령하고 (3) 정보를 출력할 수 있는 능력(R, SAS)이 있어야 한다. 빅데이터는 시스템이고 개발자는 데이터 과학(+컴퓨터 사이언스)이다. 통계학은 데이터 과학(응용수학)으로 돌아가야 한다.
내용 통계학 빅데이터
데이터 수집 연구목적에 맞는 데이터를 실험설계, 표본설계를 통하여 수집 - 연구자 직접 Garbage In, Gabage out 실시간, 대용량 데이터 자동 수집, Data Warehousing, Oracle DB - Garbage in, Value out - 실시간(주가, 메신저 내용) 혹은 저장된 데이터(통계청 마이크로 데이터) 제공되고 있음 (이를 가져올 수 있는 능력 필요)
데이터 전처리(정제) 관측된 표본 데이터의 이상치 클린징, 연구방법에 맞는 변수 변환 - 통계의 오용 가능성 있음. 통계학 전공자의 안목 데이터 분석에 맞도록 처리(Python), 대용량 데이터를 처리하는 분산처리 시스템 구축 (Hadoop)
데이터 분석 통계 소프트웨어 활용 능력 필요 - SAS, SPSS, Minitab, R 빅데이터 통계 소프트웨어 활용 : R, SAS
정보 표현 분석 결과 리포팅 작성 - 필드(비즈니스, 경제, 공학, 농학) 관련 지식 필요 결과 출력 및 Visualization(시각화) 실제 빅데이터는 예측, 군집 등 연구 목적에 맞게 데이터 수집부터 표현까지 일련의 과정을 구축하고 있음 - (기업, 국가 빅데이터 시스템) - 통계학 전공자는 "데이터 전처리-맞츰형 정보 표현"까지 시스템 구축에 관여해야 함