머신러닝의 데이터 누수(Data Leakage)는 학습 시 미래 정보나 테스트 세트 정보가 의도치 않게 모델에 스며들어 평가 성능이 비정상적으로 높게 나타나고 실 배포 시 성능이 급락하는 현상입니다. 타깃 누수, 훈련-테스트 분할 오류, 특성 엔지니어링 단계 오염이 주 원인이며, 엄격한 데이터 분할·파이프라인 격리로 예방합니다.
머신러닝의 데이터 누수(Data Leakage)는 학습 시 미래 정보나 테스트 세트 정보가 의도치 않게 모델에 스며들어 평가 성능이 비정상적으로 높게 나타나고 실 배포 시 성능이 급락하는 현상입니다. 타깃 누수, 훈련-테스트 분할 오류, 특성 엔지니어링 단계 오염이 주 원인이며, 엄격한 데이터 분할·파이프라인 격리로 예방합니다.