빅데이터 블로그 | python (파이썬) 2019.03 | Google CoLab 구글코렙 2019.09 | |||
빅데이터 개념 | R활용예제 포함 | pandas 데이터 |
설치하기(주피터 포함) 저장하기, 모듈 설치하기, 개념, 클래스와 객체 (주피터 설치문제 해결방법) |
데이터만들기 (변수, 문자열, 자료구조, 파일읽기&쓰기,배열및데이터프레임 pandas 모듈, 외부데이터_csv, excel, sas, url 가져오기) |
구글코랩(Colaboratory) (구글 드라이브에서 파이썬, R이용하기, 구글드라이브 데이터 파일 읽기, 저장하기) |
구글코렙 개인모듈 만들고 사용하기 |
|| 만들기 (난수생성, txt, csv, excel url pandas 데이터프레임) | |||||
|| 기초 Series-DataFrame(열-변수 이름 재설정, 행-개체, 열-변수인덱스 subset 문자열 처리, 날짜변수) 새변수 만들기(*) | 입출력(키보드입력 input, print) | 선형대수(행렬계산, 연립방정식, 방정식, 미분, 적분, 고유값, 행렬분해,회귀분석OLS추정치) | 구글코렙 코드는 강의노트 예제 활용하여 작성된 것임 [강의노트- 클릭보기] 파이썬코드는 구글코렙레서 작성되어 PDF 변환하여 설명과 함께 제공] |
||
빅데이터 언어 R, python, Hadoop | || 변형 (행-개체, 열-변수 조건 subset, 열(변수) 인덱스-PS.loc, PS.iloc, PS.ix, 단일데이터프레임 melt(), pivot(), 정렬DF.sort_values(), 빈도 DF.value_counts(), 기초통계량 DF.groupby.통계량()) | Built-in함수[Boolen연산자, Sequence, 문자열(string), print()] | 일변량 분석 - 교차표 포함 | 다변량 | |
제어문 (논리연산자, if 조건문, for, while 반복문) | 일집단_추론 (평균_비율) [강의노트] 이집단_추론[평균비율|독립|짝진] -[강의노트] 분산분석[일원,이원,공분산]-[강의노트_일원]-[이원_공변량] |
주성분분석 [강의노트] |
|||
연구방법in빅데이터(HNU세미나) | || 합치기 (열-P=pd.concat, 행-pd.merge, 예제-2018기상청데이터, 관측지점데이터 합치기 by 시도) | 연산과함수(연산자, 수학함수, 통계함수 및 모듈 random모듈, numpy모듈, scipy.stats모듈, (누적)확률분포함수,백분위값) | |||
R(텍스트마이너) | || 기초분석 (요약통계량, 집단변수, 그래프요약-히스토그램, 상자그림, 1집단-모평균, 모비율, 2집단-(독립, 짝진)모평균차이, 독립모비율차이, McNemar(짝진 모비율)) | 함수만들기(사용자정의함수, 모듈 만들기, 주피터에서 불러오기) | 파이썬_그래프 한글깨짐 문제해결[맥용, 윈도우용] | 선형모형 | 그래프 |
Twitter_텍스트마이닝(남북회담, 청와대트윗) | |||||
워드_클라우드(PDF_영어) (예제: 영어성경) | ML | AI | |||
워드_클라우드(PDF_한글) (예제: 신약성경) 품사셋 이용 |
python CHEAT Sheet : 파이썬 QUICK 사용 설명서(출처 - DataCamp)
| 파이썬초보 | 파이썬기초 | NUMPY기초 | scipy선형대수 | 데이터가져오기 | pandas기초 | pandas데이터변환1 | pandas데이터변환2 | matplotLIB그래프 | seaborn데이터시각화 | bokeh데이터시각화 | keras_인공망 | pyspark머신러닝RDD | pysparkSQL | scikit머신러닝 | spacy자연어처리 |
[OPEN Data for Big Data Examples]
MLB데이터 | SeanLahman.com 사이트 (1871~2019) -> csv포멧 :데이터 설명| TeamsHalf | AllstarFull | Appearances | AwardsManagers | AwardsPlayers | AwardsShareManagers | AwardsSharePlayers | Batting | BattingPost | CollegePlaying | Fielding | FieldingOF | FieldingOFsplit | FieldingPost | HallOfFame | HomeGames | Managers | ManagersHalf | meta_MLB | Parks | People | Pitching | PitchingPost | Salaries | Schools | SeriesPost | Teams | TeamsFranchises | MLB_최저연봉 |
|
(빅데이터 관련) | GitHUB - https://vincentarelbundock.github.io/Rdatasets/datasets.html | 머신러닝(Kaggle - https://www.kaggle.com/datasets| (csv_titanicData) |
국가 데이터 포탈 https://www.data.go.kr/ | ||
https://www.ecdc.europa.eu/en/publications-data/download-todays-data-geographic-distribution-covid-19-cases-worldwide - 코로나 | 월드뱅크 : - https://databank.worldbank.org/databases |