본문 바로가기
학습 log (이론)/python

'시각화'

by abbear25 2020. 3. 3.

선그래프

수치를 보여주기 위한 그래프 (변화 파악)

X축: 시간 관련 값 , Y축: 관찰하고 싶은 값

%matplotlib inline            
import pandas as pd

df=pd.read_csv('broad.csv', index_col=0)
df.plot(kind='line')          #그래프 종류 선택, default: line 생략가능
df.plot(y=['컬럼1', '컬럼2'])   #특정 값만 보기1
df[['컬럼1', '컬럼2']].plot     #특정 값만 보기2

 

막대그래프

다양한 카테고리를 특정기준으로 비교하기 위한 그래프 (항목 비교)

%matplotlib inline          
import pandas as pd

df=pd.read_csv('sports.csv', index_col=0)
df.plot(kind='bar', stacked=False)          #그래프 종류 선택, 세로 막대그래프, 따로 보기
df.plot(kind='barh', stacked=True)          #가로 막대그래프, 쌓아서 보기

 

파이그래프

절대적인 수치보다는 비율을 나타내기 위한 그래프 (비율)

%matplotlib inline          
import pandas as pd

df=pd.read_csv('broad.csv', index_col=0)
df.loc['행'].plot(kind='pie')  #파이 그래프, 그래프가 그려질 행 선택

 

히스토그램

범위로 값을 묶어서 분포를 표현한 그래프

%matplotlib inline          
import pandas as pd

df=pd.read_csv('body.csv', index_col=0)
df.plot(kind='hist', y='Height', bins=15)  #히스토그램, 키를 기준으로 분류, 막대기 15개 범위로 분류

 

박스 플롯

5개의 통계 값으로 데이터셋을 요약하는 그래프

최댓값, 75%지점(Q3), 50%지점(Q2, 중간값), 25%지점(Q1), 최솟값

Box와 2개의 Whisker로 구성되어있으며 밖의 점들을 이상점(outliers)이라 함

*이상점 (Outliers): 정상 범위를 벗어나 분석에 방해가 될 수 있는 점들

 기본적으로 이상점으로 판단되는 기준은

 IQR (Interquartile Range): 75%(Q3) ~ 25%(Q1) 거리라고 할 때 IQR기준으로 양방향 1.5 * IQR 지점

%matplotlib inline          
import pandas as pd

df=pd.read_csv('exam.csv', index_col=0)
df.plot(kind='box', y=['컬럼1', '컬럼2'])   #박스 플롯, 분석할 컬럼1..n

 

산점도

상관 관계를 나타내기 위한 그래프

상관 관계 있음: 그래프가 일직선으로 나타남 (그래프 방향 위: 공통 관계, 아래: 반대 관계)

상관 관계 없음: 그래프가 흩어져서 나타남

%matplotlib inline          
import pandas as pd

df=pd.read_csv('exam.csv', index_col=0)
df.plot(kind='scatter', x='컬럼1', y='컬럼2')  #스캐터 플롯, 관계를 알아볼 컬럼1, 컬럼2
반응형

'학습 log (이론) > python' 카테고리의 다른 글

'통계 분석'  (0) 2020.03.04
'Seaborn'  (0) 2020.03.04
'pandas' 데이터 프레임  (0) 2020.03.01
'numpy'  (0) 2020.03.01
'Anaconda3, Jupyter' 사용툴  (0) 2020.03.01