overfitting 및 예측 data augmentation

조회수 121회

안녕하세요, 랜덤포레스트를 이용해서 예측 모형을 만들려고 하는데요, 오버피팅이 발생합니다. 오버피팅이 발생하여 다양한 파라미터들을 조정하였지만, 큰 변화는 없습니다.

이유를 찾아보니, 데이터의 수(1,000개)가 적어서 발생하는 문제일 수 있다는 인터넷 글을 확인하였습니다. 잘 아시겠지만, 이미지 분류의 경우 data augmentation이라고 해서 이미지의 형태와 각도를 조금씩 변형해서 데이터의 양을 늘린다고 알고 있습니다.

이처럼 예측에서도 데이터의 양을 늘리면 어떨까? 하고 전체의 데이터를 복사해서 3배 정도의 데이터(3,000개)를 만들었습니다. 그러면 오버피팅이 발생하지 않고 정확도 또한 높아집니다.

그런데 해당 방법이 데이터 과학 측면에서 올바른 방법일지 잘 모르겠어서 이렇게 글을 남깁니다.

혹시 이러한 방법 이 외에 예측 문제에서 오버피팅이 발생하지 않도록 하는 방법 또는 데이터의 양을 늘릴 수 있는 방법에 대해 여쭤보고 싶습니다..

감사합니다!

1 답변

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)