Pandas를 사용하면서 코드가 길어지는 경우가 있다. 불러온 데이터에 DateTime있을경우, 이 DateTime을 인덱스로 설정하기 위해 억지로 칼럼들을 빼고 다시 삽입하고, 다시 인덱스로 설정하는 등.... 코드가 길어져 지져분해 보이는 경우가 있다.
그러한 것들을 방지하기 위해 info로 데이터 타입을 살펴보고, set_index로 쉽게 Date를 인덱스로 설정하며, Month별로 boxplot을 그려 전반적인 데이터의 동향을 살펴볼 수 있다.
import pandas as pd
df = pd.read_csv(path, encoding='utf8')
df.info() # DataFrame을 구성하고 있는 데이터의 type를 확인해 볼 수 있음
df['Date'] = pd.to_datetime(df['Date']) # 데이터타입을 datetime64로 바꾸는 방법
df.set_index('Date', inplace=True) #번거로운 작업 없이, DataFrame의 Index를 Date로 바꾸는 방법
# Data에 해당되는 Month를 하나의 컬럼으로 만드는 방법
df['Month']=df.index.month
df['Month']=df.index.strftime('%B')
# Month를 기준으로 BoxPlot을 만드는 방법
df.boxplot(by='Month',figsize=(12,5));
'Python > Time Series with Python' 카테고리의 다른 글
TimeSeries with Python _ ETS Model (0) | 2019.12.25 |
---|---|
TimeSeries with Python _ Pandas 6 _ 년별 데이터 평균, idxmax (0) | 2019.12.25 |
TimeSeries with Python _ Pandas 4 _plot (0) | 2019.12.24 |
TimeSeries with Python _ Pandas 3 _Shift, Rolling, Expanding (0) | 2019.12.24 |
TimeSeries with Python _ Pandas 2 _ resample (0) | 2019.12.23 |