Error

TypeError: TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]]

원인

  • Data-Augmentation을 위해 데이터셋 Re-generation 후, 학습 모듈 실행 도중 에러 발생
  • tokenization 과정에서 오류 발생
  • 확인 결과, Data-Augmentation하면서 특정 category의 데이터에 missing values가 발생되어 해당 오류 발생하였음

Solution

df = pd.read_csv(...)
df = df.dropna(axis = 0)

df = DA(...)

train_sentence = tokenizer(list(train_data["text"]), return_tensors = 'pt', padding = True, truncation = True, add_special_tokens = True)
...