파이썬 nan값 처리 관련 내용 알아보기.

파이썬에서 NaN 값 처리

서론

데이터 분석 및 처리 작업을 수행하다보면 종종 결측치(누락된 값)가 포함되어 있을 수 있습니다. 이러한 결측치를 처리해주는 것은 데이터의 정확성과 완전성을 유지하기 위해 매우 중요합니다. 파이썬에서는 NaN(Not a Number) 값을 사용하여 결측치를 표현하고, 이를 처리하기 위한 다양한 방법이 제공됩니다.

본론

1. 결측치 확인

데이터셋에 포함된 결측치를 확인하기 위해서는 우선적으로 데이터의 정보를 살펴보아야 합니다. isna() 또는 isnull() 메서드를 사용하여 데이터셋 내의 모든 값에 대해 결측 여부를 확인할 수 있습니다.

“`python
import pandas as pd

df = pd.read_csv(‘data.csv’) # 데이터셋 로드

결측치 확인

missing_values = df.isnull().sum()
print(missing_values)
“`

2. 결측치 삭제

결측치가 존재하는 특정 행 또는 열을 삭제하고 싶을 경우, dropna() 메서드를 사용합니다.

  • 행 삭제:

python
df.dropna(axis=0, inplace=True) # 결측치가 있는 행 삭제

  • 열 삭제:

python
df.dropna(axis=1, inplace=True) # 결측치가 있는 열 삭제

3. 결측치 대체

결측치를 다른 값으로 대체하고 싶을 경우, fillna() 메서드를 사용합니다.

  • 평균값으로 대체:

python
mean_value = df['column_name'].mean() # 평균값 계산
df['column_name'].fillna(mean_value, inplace=True) # 결측치를 평균값으로 대체

  • 중간값으로 대체:

python
median_value = df['column_name'].median() # 중간값 계산
df['column_name'].fillna(median_value, inplace=True) # 결측치를 중간값으로 대체

  • 최빈값으로 대체:

python
mode_value = df['column_name'].mode().iloc[0] # 최빈값 계산
df['column_name'].fillna(mode_value, inplace=True) # 결측치를 최빈값으로 대체

  • 특정 값으로 대체:

python
df['column_name'].fillna(0, inplace=True) # 결측치를 0으로 대체

결론

결측치 처리는 데이터 분석 작업에서 필수적인 단계입니다. 파이썬에서는 NaN 값을 사용하여 결측치를 표현하고, isna(), isnull(), dropna()fillna() 메서드를 사용하여 결측치를 확인하고 처리할 수 있습니다. 적절한 결측치 처리 방법은 데이터의 특성과 목적에 따라 다르므로, 신중하게 선택해야 합니다.

%d 블로거가 이것을 좋아합니다: