핸즈온 머신러닝 정리 - 2장

업데이트: January 27, 2020

머신러닝 프로젝트 처음부터 끝까지

회귀 문제의 전형적인 성능 지표는 평균 제곱근 오차(RMSE)입니다. 이상치가 많은 경우 평균 절대 오차(MAE)를 고려해볼 수 있습니다.

RMSE 계산은 유클리디안 노름에 해당합니다(L2 노름). MAE 계산은 맨해튼 노름에 해당합니다(L1 노름).

테스트 세트로 일반화 오차를 추정하여 매우 낙관적인 추정을 하고 기대한 성능이 나오지 않는 현상

해당 작업은 함수를 만들어 자동화해야 하는 이유가 있습니다.

범주형 텍스트를 숫자로 바꾸기 : pandas의 factorize()

카테고리별 이진 특성 만들기 : from sklearn.perprocessing import OneHotEncoder

위 2개를 한 번에 바꾸기 : from sklearn.perprocessing import CategoricalEncoder

머신러닝 알고리즘은 입력 숫자 특성들의 스케일이 많이 다르면 잘 작동하지 않습니다. 모든 특성의 범위를 같도록 만들어주는 방법으로 min-max 스케일링(정규화)와 표준화가 널리 사용됩니다.

min-max 스케일링과 달리 표준화는 범위의 상한과 하한이 없어 어떤 알고리즘에서는 문제가 될 수 있습니다.

Pipeline은 연속된 단계를 나타내는 이름/추정기 쌍의 목록을 입력으로 받습니다. 마지막 단계에는 변환기와 추정기를 모두 사용할 수 있고 그 외에는 모두 변환기여야 합니다(즉, fit_transform() 메서드를 가지고 있어야 합니다).

사이킷런의 교차 검증 기능은 scoring 매개변수에 낮을수록 좋은 비용 함수가 아니라 클수록 좋은 효용 함수를 기대합니다. 그래서 MSE의 반댓값을 계산하는 neg_mean_squared_error을 사용합니다.