Pandas를 사용하면서 코드가 길어지는 경우가 있다. 불러온 데이터에 DateTime있을경우, 이 DateTime을 인덱스로 설정하기 위해 억지로 칼럼들을 빼고 다시 삽입하고, 다시 인덱스로 설정하는 등.... 코드가 길어져 지져분해 보이는 경우가 있다.
그러한 것들을 방지하기 위해 info로 데이터 타입을 살펴보고, set_index로 쉽게 Date를 인덱스로 설정하며, Month별로 boxplot을 그려 전반적인 데이터의 동향을 살펴볼 수 있다.
1 2 3 4 5 6  | <code>import pandas as pddf = pd.read_csv(path, encoding='utf8') df.info() # DataFrame을 구성하고 있는 데이터의 type를 확인해 볼 수 있음</code> | 

1 2 3 4 5 6 7 8  | <code>  df['Date'] = pd.to_datetime(df['Date']) # 데이터타입을 datetime64로 바꾸는 방법 df.set_index('Date', inplace=True) #번거로운 작업 없이, DataFrame의 Index를 Date로 바꾸는 방법  # Data에 해당되는 Month를 하나의 컬럼으로 만드는 방법df['Month']=df.index.monthdf['Month']=df.index.strftime('%B')</code> | 

1 2 3 4  | <code>  # Month를 기준으로 BoxPlot을 만드는 방법df.boxplot(by='Month',figsize=(12,5));</code> | 

1 2  | <code>  </code> | 
'Python > Time Series with Python' 카테고리의 다른 글
| TimeSeries with Python _ ETS Model (0) | 2019.12.25 | 
|---|---|
| TimeSeries with Python _ Pandas 6 _ 년별 데이터 평균, idxmax (0) | 2019.12.25 | 
| TimeSeries with Python _ Pandas 4 _plot (0) | 2019.12.24 | 
| TimeSeries with Python _ Pandas 3 _Shift, Rolling, Expanding (0) | 2019.12.24 | 
| TimeSeries with Python _ Pandas 2 _ resample (0) | 2019.12.23 |