'pandas' 태그의 글 목록

본문 바로가기

pandas

Matplotlib _ basic (OOP Method & Multi Plot & Font & Minus) Matplotlib의 대한 기본적인 방식이다. 사용하는데 있어 시작하는 포맷이고, 아마 여기서 추가로 업데이트를 하면 될 것 같다. 추가로 판다스를 이용해서도 심플하게 그리는 방법도 첨부했다 그리고 폰트 관련 이슈와 마이너스 부호도 첨부했다 import numpy as np import pandas as pd from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" pd.set_option('display.float_format', lambda x: '%.3f' % x) pd.set_option('max_columns', None) #%% example1 import ma.. 더보기

Pandas _ join & merge 저번 포스팅에서 concat을 다루었지만, 데이터 프레임을 병합하는데 있어 가장 많이 사용되는 두 메소드인 join과 merge를 소개한다. 이 또한 많이 사용되며 분명 concat과는 다른 방식으로 사용되기에 알아두면 좋다 #%% import numpy as np import pandas as pd from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" pd.set_option('display.float_format', lambda x: '%.3f' % x) pd.set_option('max_columns', None) #%% # 1. Join (2개의 Index가 다.. 더보기

Pandas _ concat & pivot 파이썬 Pandas 메소드 중에서 concat & pivot의 예제를 살펴본다. 판다스에서 데이터를 합치거나 가공할때 주로 사용되며, 이것 또한 알아두면 좋을것 같아 포스팅한다. """ 1. concat 2. pivot """ #%% import numpy as np import pandas as pd from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" pd.set_option('display.float_format', lambda x: '%.3f' % x) pd.set_option('max_columns', None) import FinanceDataReader a.. 더보기

Pandas _ qcut(균할분등) & groupby() 이번 포스팅은 Pandas를 이용한 데이터 분석을 할 때, 균할분등 혹은 그러한 작업 또 다른 그룹을 생성할 때 많이 사용되는 메소드를 소개한다. #%% import numpy as np import pandas as pd from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" pd.set_option('display.float_format', lambda x: '%.3f' % x) pd.set_option('max_columns', None) df = pd.read_csv() #%% #1. qcut 더보기

Pandas _ Category using .loc & cut Method 이번 포스팅도 데이터를 전처리 하는데 있어 중요하다고 할 수 있는 부분이다. 이것도 마찬가지로 해당 메소드의 사용법을 모르면 반복문 혹은 조건문들을 조합해 작성해야 하는 수고로움이 있다 """ 0. 수익률 구하기 1. Category준비(PER값에 따라 group number 부여하기) 2. Cut 메소드 사용 """ #%% import numpy as np import pandas as pd from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" pd.set_option('display.float_format', lambda x: '%.3f' % x) pd.set_op.. 더보기

Pandas _ About Nan 데이터 전처리에서 중요하다고 할 수 있는 부분이다. 이 부빈을 간과하고 데이터 분석을 시작하면 클래스나 함수를 만들때 꼬이는 경우가 발생한다. 특히나 다 만들고 나서 데이터를 불러와 무언가를 하려고 할때 오류가 발생하고, 해당 오류가 Nan 때문인 경우가 대다수였다 그래서 무언가를 하기 전에 해당 작업을 통해 Nan이 있는지 없는지 파악하는것이 정말 중요하다 #1. Nan Checking df['순이익률(%)'].hasnans # Series에 nan 값이 있는지 없는지 확인 df['순이익률(%)'].isnull() # 어느 Index에 Nan값이 있는지 없는지 확인 df['순이익률(%)'].isnull().any() df['순이익률(%)'].isnull().sum() #Nan값이 총 몇개 있는지 확인(.. 더보기

Pandas _ 1. 추출(정렬) _ 2. Boolean Selection _ 3. isin() 파이썬으로 데이터를 가공하는데 있어 판다스 모듈에서 가장 많이 필요하는 세개의 항목 1.추출 2.Boolean Selection 3. isin()이다 해당 모듈들의 있는지와 그리고 활용법을 몰라 함수를 구현해 데이터를 가공한 적이 있다. 하지만 그렇게 하지 않고 아래의 코드 예시만 잘 파악해도 쉽고 빠르게 데이터 핸들링이 가능할 것 같다. #%% import pandas as pd df = pd.read_csv() # Set index by Company name df_set = df.set_index('ticker') #Index 설정하는 방법 df_set = df_set.drop('Unnamed: 0', axis = 1) # 불필요한 Columns를 제거하는 방법 # 추출하기 # 1. By Colum.. 더보기

Pandas _ Sort Pandas에서 칼럼별 분류를 할때 가장 많이 사용하는 메소드 두가지를 소개한다. 보통은 sort_values를 가장 많이 사용하는데, 금융 데이터에 있어서 칼럼별 우선순위별로 분석을 많이 하기 때문에 해당 메소드를 포스팅한다 메소드 : nsmallest, nlargest, sort_values import pandas as pd df = pd.read_csv() df.nsmallest(5, 'per') #per 순으로 가장 작은 5개 df.nsmallest(100,'per').nlargest(5, 'earings') # per가 가장 작은순으로 100개 를 추출하고 다음에 당기순이익으로 가장 큰 5개 df.sort_values('eps') # eps기준으로 정렬 df.sort_values('EPS(원).. 더보기

목록 더보기

티스토리툴바