본문 바로가기

Python/Time Series with Python

TimeSeries with Python _ Pandas 5 _ info, set_index, boxplot

 Pandas를 사용하면서 코드가 길어지는 경우가 있다. 불러온 데이터에 DateTime있을경우, 이 DateTime을 인덱스로 설정하기 위해 억지로 칼럼들을 빼고 다시 삽입하고, 다시 인덱스로 설정하는 등.... 코드가 길어져 지져분해 보이는 경우가 있다.

 

그러한 것들을 방지하기 위해 info로 데이터 타입을 살펴보고, set_index로 쉽게 Date를 인덱스로 설정하며, Month별로 boxplot을 그려 전반적인 데이터의 동향을 살펴볼 수 있다.

 

 

import pandas as pd


df = pd.read_csv(path, encoding='utf8')

 df.info() # DataFrame을 구성하고 있는 데이터의 type를 확인해 볼 수 있음

  
df['Date'] = pd.to_datetime(df['Date']) # 데이터타입을 datetime64로 바꾸는 방법

 df.set_index('Date', inplace=True) #번거로운 작업 없이, DataFrame의 Index를 Date로 바꾸는 방법
 
# Data에 해당되는 Month를 하나의 컬럼으로 만드는 방법
df['Month']=df.index.month
df['Month']=df.index.strftime('%B')

  
# Month를 기준으로 BoxPlot을 만드는 방법

df.boxplot(by='Month',figsize=(12,5));