파이썬을 사용하다보면 가장 많이하는 작업이 엑셀이나 CSV 데이터를 pandas의 DataFrame으로 만든 후 그것을 정제하는 작업들이다
DataFrame을 만들어서 해당 데이터가 어떻게 구성되어 있고, 그리고 결측치를 어떻게 확인하는지 알아본다
코드는 단순하지만 작업을 시작하기 전에 한번쯤은 꼭 해야될 작업이기에 포스팅을 한다.
# 설정 1. DataFrame의 전체적인 모습을 보고 싶을때 Column의 Display 갯수를 정하는 방법 import pandas as pd df.shape pd.options.display.max_columns = df.shape[1] df.head?? # head라는 메소드의 소스코드를 보는 방법 df.info #df의 전반적인 정보를 확인하는 방법 df.dtypes # df의 각 컬럼들의 데이터 값이 어떠한 타입으로 되어있는지 확인하는 방법 df.isnull().sum() # df의 결측치의 총 갯수 ''' 결측치를 시각화 하는 방법''' total_isnull = df.isnull().sum() total_isnull.plot.bar(rot=90) total_isnull.plot.barh(figsize=(7,8))
'Python > Pandas' 카테고리의 다른 글
Pandas _ About Nan (0) | 2021.01.04 |
---|---|
Pandas _ 1. 추출(정렬) _ 2. Boolean Selection _ 3. isin() (0) | 2021.01.03 |
Pandas _ Sort (0) | 2021.01.02 |
Pandas _ describe, rename, unique, value_counts 메소드 (0) | 2021.01.02 |
Pandas _ Reindex (0) | 2021.01.02 |