Python/Sklearn for ML 썸네일형 리스트형 5 - LASSO Regression & Parameters(라소 회귀분석에 대하여 및 파라미터 선택) using Python 지난번 포스팅까지를 통해서 Ridge Regression 및 Penalty를 통해서 단순 다중 선형회귀분석 뿐만 아니라 이러한 회귀분석이 왜 필요한지에 대해서 살펴보았다 이번 포스팅에서는 Ridge Regression이 아닌 LASSO(Least absolute shrinkage and selection operator) Regression을 살표보고 파라미터 선택방법에 대해서 어떻게 하는지 파이썬을 활용하여 살펴보겠다 LASSO Regression의 경우 Cost Function이 L1 Regularization으로 Penerlty가 절대값으로 되어있는 것을 알 수 있다. 절대값함수는 제곱의 함수와는 다르게 0을 선택값으로 가질 수 있기 때문에(4 - Penalty 포스팅 참조) Cost의 최소화를 위.. 더보기 4 - Penalty(About Overfitting) 지난번 포스팅까지 해서 선형(다중)회귀분석 부터 Ridge Regression까지 회귀분석의 대한 방법과 독립변수들의 계수(Coefficient)를 어떻게 선별할 것이며, 어떻게 구하는지를 Python을 이용해 구하보았다 실례로 많은 데이터를 접하고 분석하면서 많은 고민들을 하는데 그 중 하나가 바로 Overfitting다. 과거의 사건이 미래의 그대로 일어난다는 보장도 없고, 실례로 최근 금융시장을 관찰해 보면 과거에는 관찰할 수 없었던 현상들이 빈번하게 반복되고 있다. 지금도 채권 운용과 관련된 전략들을 구현하면서 저 주제에 대해서 '과적합도(Overfitting)'의 대해서 많은 고민을 한다. 전략을 구현할 때 Sample 기간을 어떻게 설정할 것이며 너무 과거의 결과에만 집중되서 전략을 구현하면 .. 더보기 3 - About Ridge Regression(리지 회귀분석에 대하여) & Optimizing the Parameter(계수 최적화) with Python 저번 포스팅(2 - 선형회귀 분석의 단점과 보완방법)에서는 단순 다중 회귀분석 보다는 Ridge Regression을 사용하는 것이 데이터 분석에 있어 효과적이 라는것에 대하여 언급을 했다(이유: 계수의 표준편차) 이번 포스팅에서는 Ridge Regression에 대해서 살펴보고, Ridge Regression에 대해서 살펴보고, Ridge Regression에 필요한 계수들의 최적화 방법의 대해서도 살펴보겠다 우선 단순 선형회귀분석에서 계수를 최적화하는 방법은 잔차의 제곱식을 가장 작에 만들어 주는 계수를 선택하는 방법이고, 식으로는 다음과 같다. 즉 RSS를 최소화 시켜주는 계수를 선택하는것이 선형회귀 분석의 계수 선택방법이었다. 하지만 이런식으로 로 독립변수의 계수를 선택하게 되면, 데이터의 샘플 .. 더보기 2 - 선형회귀 분석의 단점과 보완방법 (about Over Fitting & Ridge Regression) 본 포스팅에서는 지난번 포스팅(1 - Linear Regression with Python)에서 다루었던 내용을 다시 살펴보고, 선형회귀분석의 단점과 단점을 보완하기 위한 방법 중의 하나인 리지 회귀(Ridge Regression)의 방법에 대해서 간략히 살펴보겠다. 내용을 시작하기 전에 다시한 번 생각을 해보자. 과연 종속변수(Y)를 설명하는데 있어 가장 적합안 데이터 혹은 독립변수(X)는 무엇이며, 그러한 독립변수들이 Y를 어느정도로 설명하는지에 대한 비율(Coefficient 혹은 파라미터)는 어느정도여야 할 까? 아마 저 질문에 대한 답을 할 수 있다면 횡단면 분석을 이용한 데이터 분석에 있어서는 문제가 없을 거라고 본다. 우선 종속변수를 설명하는 독립변수를 선택하는것에 있어서는 개인의 역량이 중.. 더보기 1 - Linear Regression with Python(선형 직선에 데이터 적합시키는 방법) 본 글에서는 주어진 데이터에 선형회귀 곡선을 그리고, 그것의 파라미터들 및 선형회귀로 가정한 값들과 실제 값들의 차이를 살펴본다 다음 선형회귀 곡선을 정규화해 위의 작업을 다시 한 번더 실행 그리고 잔차를 살펴본 후, Cross-Validation을 통해 위의 과정을 다시한 번 더 했을떄 잔차값들이 어떻게 변하는지 살펴보는 시간을 갖는다 우선 Python에 있는 sklean의 모듈에 datasets를 불러와 load_boston이라는 데이터를 불러온다 sklearn.linear_model에서 LinearRegression의 모듈을 불러와, 이것을 이용해 선형회귀 곡선의 예측값 및 파라미터들을 살펴본다 from sklearn import datasets boston = datasets.load_boston.. 더보기 이전 1 다음