본문 바로가기

학습 log (이론)91

'웹 크롤링' 기본 웹 페이지 호출 #pip install requests import requests page = requests.get("https://www.naver.com") #url 주소 page 가져오기 page.text #해당 page 구성정보 가져오기 CSS 기본 li{ color:red; font-size: 14px; } #green-tea{ color:green; font-size: 14px; } 녹차 .favorite{ color:red; font-size: 14px; } .important{ color:red; font-size: 15px; } 아이스 아메리카노 아포카토 [alt='green-tea']{ width: 300px; } .two, .three{ color:red; } .one.two{ c.. 2020. 3. 15.
'데이터 분석 2' 완결성 (Complteness) 필수적 데이터는 모두 채워져있어야 함 결측값(NaN, Not a Number) 확인, 채워져있어야 할 값의 누락을 확인 결측값이 존재하는게 의미가 있을 수 있음 아래와 같이 결측값을 제거함으로 완결성을 이룸 import pandas as pd df = pd.read_csv('nan.csv', index_col=0) df.isnull().sum() #결측 값 true/false 확인, 결측값 개수 파악 df.dropna(inplace=True) #결측값 포함 된 행 제거, 기존 테이블 수정 True #결측값 포함 된 열 제거, 기존 테이블 수정 True df.dropna(axis='columns', inplace=True) df.fillna(0) #결측값 다른 값인 0으로 .. 2020. 3. 10.
'데이터 분석' 탐색적 데이터 분석 (EDA, ExploratoryDataAnalysis) 주어진 데이터를 다양한 관점에서 살펴보고 탐색하여 인사이트 도출 %matplotlib inline import pandas as pd import seaborn as sb df = pd.read_csv('survey.csv') pd.options.display.max_rows #모든 행 다 보기 #pd.options.display.max_rows = 999 #999개 보기 data = df.iloc[:, :19] #모든 행, 19개 컬럼에 대해서 데이터 가져오기 df.corr()['Age'].sort_values(ascending=False) #나이만 내림차순으로 정렬하여 출력 sb.heatmap(data.corr()) #각 컬럼.. 2020. 3. 5.
'통계 분석' 평균 (Mean) 데이터들의 합 / 데이터 개수 중간값 (Median) 오름차순 정렬한 다음, 홀 수개 일 때는 가운데 값 짝 수개 일 때는 가운데 두 값을 더 한 다음 나누기 2한 결과값 *평균에 비해서 잘 못 된 값에 대한 영향을 적게 받는 특성을 가짐 상관 계수 (Correlation Coefficient) X와 Y의 상관관계를 수치화 Pearson Correlation Coefficient -1 ~ 1 까지의 값을 가지는 상관 계수 0 -> 1 : 정관계 방향, 1에 가까울수록 연관성 높음 0 -> -1 : 역관계 방향, -1에 가까울수록 연관성 높음 %matplotlib inline import pandas as pd import seaborn as sb df = pd.read_csv('exam.. 2020. 3. 4.