닫기
Loading..

전자정보연구정보센터 ICT 융합 전문연구정보의 집대성

국내 논문지

홈 홈 > 연구문헌 > 국내 논문지 > 한국정보과학회 논문지 > 정보과학회논문지 (Journal of KIISE)

정보과학회논문지 (Journal of KIISE)

Current Result Document : 9 / 14 이전건 이전건   다음건 다음건

한글제목(Korean Title) 문서 분류를 위한 신경망 모델에 적합한 텍스트 전처리와 워드 임베딩의 조합
영문제목(English Title) Combinations of Text Preprocessing and Word Embedding Suitable for Neural Network Models for Document Classification
저자(Author) 김영수   이승우   Yeongsu Kim   Seungwoo Lee  
원문수록처(Citation) VOL 45 NO. 07 PP. 0690 ~ 0700 (2018. 07)
한글내용
(Korean Abstract)
최근 문서 분류를 해결하는데 신경망 모델과 함께 워드 임베딩을 주로 사용한다. 연구자들은 성능을 높이기 위해 새로운 신경망 모델을 디자인하거나 모델 파라미터를 최적화하는데 시간을 많이 할애한다. 하지만, 많은 연구들은 특별한 이유 없이 특정한 워드 임베딩 모델을 사용하고 전처리에 대한 자세한 설명을 하지 않는 점과 같이 전처리와 워드 임베딩에 대해서는 그다지 신경을 쓰고 있지 않다. 본 연구는 성능을 향상시키는 추가적인 요소로 적합한 전처리와 워드 임베딩 조합을 찾는 것임을 말하고자 한다. 실험은 이들의 가능한 조합들을 비교실험하는 것과 제로/랜덤 패딩, 미세 조정에 의한 워드 임베딩 재학습 여부도 같이 실험한다. 또한, 사전에 학습한 워드 임베딩 모델들과 함께 평균, 랜덤, 학습 데이터로 학습한 임베딩들도 같이 사용한다. OOV(Out of Vocabulary)단어 통계를 기준으로 실험한 결과로부터 위와 같은 실험들의 필요성과 전처리와 워드 임베딩의 최적의 조합을 제시한다.
영문내용
(English Abstract)
Neural networks with word embedding have recently used for document classification. Researchers concentrate on designing new architecture or optimizing model parameters to increase performance. However, most recent studies have overlooked text preprocessing and word embedding, in that the description of text preprocessing used is insufficient, and a certain pretrained word embedding model is mostly used without any plausible reasons. Our paper shows that finding a suitable combination of text preprocessing and word embedding can be one of the important factors required to enhance the performance. We conducted experiments on AG’s News dataset to compare those possible combinations, and zero/random padding, and presence or absence of fine-tuning. We used pretrained word embedding models such as skip-gram, GloVe, and fastText. For diversity, we also use an average of multiple pretrained embeddings (Average), randomly initialized embedding (Random), task data-trained skip-gram (AGNews-Skip). In addition, we used three advanced neura networks for the sake of generality. Experimental results based on OOV (Out Of Vocabulary) word statistics suggest the necessity of those comparisons and a suitable combination of text preprocessing and word embedding.
키워드(Keyword) 문서 분류   신경망 모델   워드 임베딩   텍스트 전처리   document classification   neural network   word embedding   text preprocessing  
원문 PDF 다운로드