본문 바로가기

데이터

Pandas _ 데이터 병합 예시 #%% import numpy as np import pandas as pd #%% product_df = pd.read_csv() review_df = pd.read_csv() flipkart_df = pd.merge( product_df, review_df, left_on="id", right_on='product__id', how='right', # Review에 있는 id, 즉 product__id를 기준으로 데이터를 생성합니다. 만약 "product" 정보가 반드시 존재하는 review들로만 데이터를 구성하고 싶으면 "left"로 하시면 됩니다. ) flipkart_df = flipkart_df.drop(['id', 'product__id', 'author'], axis=1) flipkart_d.. 더보기
3 - About Ridge Regression(리지 회귀분석에 대하여) & Optimizing the Parameter(계수 최적화) with Python 저번 포스팅(2 - 선형회귀 분석의 단점과 보완방법)에서는 단순 다중 회귀분석 보다는 Ridge Regression을 사용하는 것이 데이터 분석에 있어 효과적이 라는것에 대하여 언급을 했다(이유: 계수의 표준편차) 이번 포스팅에서는 Ridge Regression에 대해서 살펴보고, Ridge Regression에 대해서 살펴보고, Ridge Regression에 필요한 계수들의 최적화 방법의 대해서도 살펴보겠다 우선 단순 선형회귀분석에서 계수를 최적화하는 방법은 잔차의 제곱식을 가장 작에 만들어 주는 계수를 선택하는 방법이고, 식으로는 다음과 같다. 즉 RSS를 최소화 시켜주는 계수를 선택하는것이 선형회귀 분석의 계수 선택방법이었다. 하지만 이런식으로 로 독립변수의 계수를 선택하게 되면, 데이터의 샘플 .. 더보기