본문 바로가기
Data Science

[ScikitLearn] 머신러닝 필수, scikitlearn 설치 및 사이킷런 버전 확인

by Lora Baek 2022. 9. 30.
300x250

머신러닝 사이킷런이란?

사이킷런(scikit-learn, skLearn)은 sciPy와 Toolkit을 합친 것이라 할 수 있는, 파이썬 기반의 머신러닝 라이브러리다.

텐서플로우, 케라스 등 딥러닝 전문 라이브러리도 활용도가 높지만, 조금 더 어렵더라도 꼭 알아야 하는 대표적인 라이브러리는 단연 사이킷런이라고 할 수 있다.

 

크게 분류, 회귀, 군집화, 차원 축소 4가지로 나눌 수 있으며, 아래와 같이 다양한 알고리즘들을 활용할 수 있다.

 

분류 알고리즘

SGD Classifier

KneighborsClassifier

EnsembleClassifiers

NaiveBayes

LinearSVC

SVC

Kernel approximation

 

(cf. 회귀 알고리즘)

SGD Regressor

Lasso

ElasticNet

RidgeRegression

SVR(kernel='linear' or 'rbf')

EnsembleRegressor

...

 

가장 좋은 것은 여러 가지를 실습해보고, 활용경험에 대한 데이터를 쌓는 것이다!

그러면 실전에서 비슷한 문제상황을 만났을 때, 이런 방법을 활용할 수 있었던 것 같은데.. 정도라도 남게 된다.

 

내 공부의 목적도 완벽하게 지금 당장 모든 것을 외우는 게 아니라, 다양한 사례를 접해보기 위함이므로

먼저 차근차근 분류(Classification)의 기초에 대해서 알아보고, fit으로 학습(훈련), predict로 예측을 하는 과정과 

sklearn.model_selection에서 train_test_split 함수로 데이터를 분리하는 과정을 실습해보고자 한다.

 

분류(Classification) 모델

분류는 명확한 정답(분류 기준)이 먼저 주어지면 그 데이터를 학습하고, 새로운 데이터가 어떻게 분류되어야 할지 예측하는 방식으로 지도학습(Supervised Learning)의 하나이다.

 

학습을 하는 데이터 세트와, 예측 성능을 평가하는 데이터세트를 분리해서 train(학습) 데이터셋, test(평가) 데이터셋으로 부르곤 한다.

먼저 주피터 노트북에서 conda로 사이킷런을 설치해주자. conda로 셋업을 하면 넘파이나 사이파이 등의 라이브러리를 동시에 설치해준다. 

 

아나콘다 프롬프트를 찾아서 실행해준 후, 만약 가상환경이 있다면 conda activate로 활성화해주고, 그렇지 않다면 바로 설치해주면 된다. 사이킷런 설치 명령어는 다음과 같으므로 프롬프트 창에 입력해주고, 계속 진행할거냐는 메세지가 뜨면 y 입력 후 엔터!

 

conda install scikit-learn

사이킷런 버전 확인은 주피터 노트북에서 import해준 다음 아래 명령어로 확인할 수 있다.

import sklearn
print(sklearn.__version__)

 

나는 1.0.2 버전의 사이킷런이 설치되어 있다.

 

이제 본격적으로 사이킷런을 활용해서 데이터셋 학습 및 예측모델을 만들어보자!

댓글