Skip to content

(장*우) (강의노트2장) 결측치 발생 패턴에 따른 처리 전략 #54

@glok1d

Description

@glok1d

입력 데이터셋의 총 침실 수를 의미하는 total_bedrooms 특성에 168개 구역의 값이 NaN(Not a Number)으로 표시되어 있는데 이는 168개 구역에 대해 총 침실 수 정보가 누락되어 있음을 의미한다.

Image

머신러닝 모델은 일반적으로 결측치가 있는 데이터셋을 잘 활용하지 못하며, 일반적으로 아래 방법 중 하나를 선택해서 결측치를 없애는 데이터 정제를 실행한다.

방법 1: 해당 구역 샘플 제거
방법 2: 해당 특성 삭제
방법 3: 평균값, 중위수, 최빈값, 0, 또는 주변에 위치한 값 등 특정 값으로 결측치 채우기

강의노트 2.7.2절에서 total_bedrooms의 결측치를 중위수로 채우는 방법 3을 적용했습니다. 그런데 만약 결측치가 특정 패턴으로 발생했다면 어떻게 해야 할 지 궁금합니다.
예를 들어, 침실 수가 매우 많은 고급 주택 구역일수록 데이터 수집이 어려워 total_bedrooms가 결측치인 경우가 많다고 가정해보겠습니다. 이 경우 중위수로 결측치를 채우면 고급 주택 구역의 침실 수가 실제보다 낮게 대체되어 모델이 해당 구역의 집값을 과소 예측할 수 있을 것 같습니다. 이처럼 결측치 발생 자체가 타깃과 연관되어 있는 경우에도 단순히 중위수로 채우는 방법 3이 적절한지 궁금합니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions