word2vec에 관련된 질문입니다.

조회수 300회

안녕하세요 물어볼 수 있는 곳이 처음이라 질문이 많아요 알려주시면 감사해요. 영화리뷰를 가지고 평점을 예측하는 것을 만들어보고 있는데 x_train = 리뷰 데이터 y_train = 평점 데이터를 사용했습니다.

  1. train 데이터와 test 데이터를 따로 만들었을 때 토크나이저를 각자의 데이터를 사용해서 하는게 맞나요?
  2. word2vec을 처음 사용해보는데 train과 test의 리뷰 데이터를 토큰화 시켜 패딩을 진행하여 train = (4352,188) test= (1089,188) 이란 행렬값으로 word2vec에 넣으면 오류가 생기고 패딩을 안한 값을 넣어야만 돌아가는데 word2vec은 패딩을 하고 돌리면 실행이 안되나요?
  3. 그래서 정수로 바꾼 값으로 word2vec을 돌리면 x_train의 행 데이터가 4352 -> 6513으로 늘어나는데 그럼 y_train의 행 숫자와 달라져서 rnn과 같은 모델에 넣질 못하느데 어떻게 해결하나요

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)