파이썬을 이용한 선형 회귀분석
서론
선형 회귀분석은 변수들 사이의 선형 관계를 모델링하는 데에 사용되는 통계학적 기법입니다. 파이썬은 강력하고 유연한 프로그래밍 언어이며, 데이터 분석과 머신러닝에 많이 사용되어집니다. 이번 포스팅에서는 파이썬을 이용하여 선형 회귀분석을 어떻게 수행할 수 있는지 알아보겠습니다.
본론
1. 데이터 불러오기
먼저, 선형 회귀분석을 수행하기 위해 필요한 데이터를 불러옵니다. 일반적으로 CSV 파일 형태로 저장된 데이터를 사용합니다.
“`python
import pandas as pd
CSV 파일 불러오기
data = pd.read_csv(“data.csv”)
“`
2. 데이터 전처리
분석을 위해 데이터를 정리하고 전처리해야 합니다. 이 단계에서는 데이터에 결측치나 이상치가 있는지 확인하고, 필요한 경우 제거하거나 대체합니다.
“`python
결측치 확인
missing_values = data.isnull().sum()
print(missing_values)
이상치 확인
outliers = data[data[“column_name”] > threshold]
print(outliers)
이상치 제거
data = data.drop(outliers.index)
결측치 대체
data = data.fillna(data.mean())
“`
3. 모델 학습
데이터 전처리 후에는 선형 회귀모델을 학습시킵니다. 이를 위해 scikit-learn 라이브러리의 LinearRegression
클래스를 사용합니다.
“`python
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
독립 변수와 종속 변수 분리
X = data.drop(“target”, axis=1)
y = data[“target”]
학습 데이터와 테스트 데이터 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
모델 학습
model = LinearRegression()
model.fit(X_train, y_train)
“`
4. 모델 평가
학습된 모델의 성능을 평가해보겠습니다. 이를 위해 테스트 데이터를 사용하여 예측을 수행하고, 예측 결과와 실제 정답값을 비교합니다.
“`python
예측 수행
y_pred = model.predict(X_test)
평가 지표 계산
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print(“Mean Squared Error:”, mse)
“`
결론
이번 포스팅에서는 파이썬을 이용하여 선형 회귀분석을 수행하는 방법을 알아보았습니다. 데이터를 불러오고 전처리한 후, 모델을 학습시키고 평가하는 과정을 설명했습니다. 선형 회귀분석은 파이썬을 활용한 데이터 분석과 머신러닝에서 중요한 개념이므로, 익숙해지는 것이 좋습니다. 추가로 예측 결과를 시각화하는 방법도 공부해보세요.