(장*우) (강의노트2장) 결측치 발생 패턴에 따른 처리 전략

입력 데이터셋의 총 침실 수를 의미하는 total_bedrooms 특성에 168개 구역의 값이 NaN(Not a Number)으로 표시되어 있는데 이는 168개 구역에 대해 총 침실 수 정보가 누락되어 있음을 의미한다.

<img width="1576" height="303" alt="Image" src="https://github.com/user-attachments/assets/2cd66dc6-3b74-4895-962d-e1c07524cd6c" />

머신러닝 모델은 일반적으로 결측치가 있는 데이터셋을 잘 활용하지 못하며, 일반적으로 아래 방법 중 하나를 선택해서 결측치를 없애는 데이터 정제를 실행한다.

방법 1: 해당 구역 샘플 제거
방법 2: 해당 특성 삭제
방법 3: 평균값, 중위수, 최빈값, 0, 또는 주변에 위치한 값 등 특정 값으로 결측치 채우기

강의노트 2.7.2절에서 total_bedrooms의 결측치를 중위수로 채우는 방법 3을 적용했습니다. 그런데 만약 결측치가 특정 패턴으로 발생했다면 어떻게 해야 할 지 궁금합니다.
예를 들어, 침실 수가 매우 많은 고급 주택 구역일수록 데이터 수집이 어려워 total_bedrooms가 결측치인 경우가 많다고 가정해보겠습니다. 이 경우 중위수로 결측치를 채우면 고급 주택 구역의 침실 수가 실제보다 낮게 대체되어 모델이 해당 구역의 집값을 과소 예측할 수 있을 것 같습니다. 이처럼 결측치 발생 자체가 타깃과 연관되어 있는 경우에도 단순히 중위수로 채우는 방법 3이 적절한지 궁금합니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

(장*우) (강의노트2장) 결측치 발생 패턴에 따른 처리 전략 #54

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

(장*우) (강의노트2장) 결측치 발생 패턴에 따른 처리 전략 #54

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions