선그래프
수치를 보여주기 위한 그래프 (변화 파악)
X축: 시간 관련 값 , Y축: 관찰하고 싶은 값
%matplotlib inline
import pandas as pd
df=pd.read_csv('broad.csv', index_col=0)
df.plot(kind='line') #그래프 종류 선택, default: line 생략가능
df.plot(y=['컬럼1', '컬럼2']) #특정 값만 보기1
df[['컬럼1', '컬럼2']].plot #특정 값만 보기2
막대그래프
다양한 카테고리를 특정기준으로 비교하기 위한 그래프 (항목 비교)
%matplotlib inline
import pandas as pd
df=pd.read_csv('sports.csv', index_col=0)
df.plot(kind='bar', stacked=False) #그래프 종류 선택, 세로 막대그래프, 따로 보기
df.plot(kind='barh', stacked=True) #가로 막대그래프, 쌓아서 보기
파이그래프
절대적인 수치보다는 비율을 나타내기 위한 그래프 (비율)
%matplotlib inline
import pandas as pd
df=pd.read_csv('broad.csv', index_col=0)
df.loc['행'].plot(kind='pie') #파이 그래프, 그래프가 그려질 행 선택
히스토그램
범위로 값을 묶어서 분포를 표현한 그래프
%matplotlib inline
import pandas as pd
df=pd.read_csv('body.csv', index_col=0)
df.plot(kind='hist', y='Height', bins=15) #히스토그램, 키를 기준으로 분류, 막대기 15개 범위로 분류
박스 플롯
5개의 통계 값으로 데이터셋을 요약하는 그래프
최댓값, 75%지점(Q3), 50%지점(Q2, 중간값), 25%지점(Q1), 최솟값
Box와 2개의 Whisker로 구성되어있으며 밖의 점들을 이상점(outliers)이라 함
*이상점 (Outliers): 정상 범위를 벗어나 분석에 방해가 될 수 있는 점들
기본적으로 이상점으로 판단되는 기준은
IQR (Interquartile Range): 75%(Q3) ~ 25%(Q1) 거리라고 할 때 IQR기준으로 양방향 1.5 * IQR 지점
%matplotlib inline
import pandas as pd
df=pd.read_csv('exam.csv', index_col=0)
df.plot(kind='box', y=['컬럼1', '컬럼2']) #박스 플롯, 분석할 컬럼1..n
산점도
상관 관계를 나타내기 위한 그래프
상관 관계 있음: 그래프가 일직선으로 나타남 (그래프 방향 위: 공통 관계, 아래: 반대 관계)
상관 관계 없음: 그래프가 흩어져서 나타남
%matplotlib inline
import pandas as pd
df=pd.read_csv('exam.csv', index_col=0)
df.plot(kind='scatter', x='컬럼1', y='컬럼2') #스캐터 플롯, 관계를 알아볼 컬럼1, 컬럼2
반응형
'학습 log (이론) > python' 카테고리의 다른 글
'통계 분석' (0) | 2020.03.04 |
---|---|
'Seaborn' (0) | 2020.03.04 |
'pandas' 데이터 프레임 (0) | 2020.03.01 |
'numpy' (0) | 2020.03.01 |
'Anaconda3, Jupyter' 사용툴 (0) | 2020.03.01 |