Skip to content

(정*배) (강의노트 2장 / Kaggle) 데이터 정제 및 전처리, 모델 내장 전처리 vs 사용자 정의 전처리 #57

@Joungbae-Jung

Description

@Joungbae-Jung

강의노트 2장, 그 중 데이터 정제 및 전처리를 설명하는 부분에서 사이킷런 라이브러리를 활용하여 범주형 데이터를 변환하고, 결측치를 제거하기 위해 중위수로 채우고, 특성의 스케일을 통일시키기 위한 특성 스케일링 등의 정제나 전처리 과정들을 설명해주셨는데, 이번에 kaggle 과제를 수행하는 과정에서는 이와 같은 나름 복잡한 과정을 거친 기억이 없어 확인해 보니 TF-DF 라이브러리를 활용한 랜덤포레스트 알고리즘은 스케일링은 거의 불필요하고, 결측치를 다룰 수 있고, 범주형 데이터 역시 수동으로 인코딩하지 않아도 범주형 타입을 직접 다룰 수 있다고 설명하더군요. 이는 TF-DF 랜덤포레스트 알고리즘은 이런 과정들을 자체적으로 수행할 수 있다는 뜻이라고 이해했는데

그렇다면 교수님은 이와같이 TF-DF 랜덤포레스트처럼 자동 처리에 최대한 맡겨 자체적으로 전처리 과정을 시행하는 방식사람이 직접 데이터를 정제, 전처리 과정을 세밀하게 수행하는 방식 중에 어느 쪽이 더 현명하다고 판단하시는지 알고싶습니다.

설명 중 틀린 부분 있으면 지적바랍니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions