닫기
Loading..

전자정보연구정보센터 ICT 융합 전문연구정보의 집대성

국내 논문지

홈 홈 > 연구문헌 > 국내 논문지 > 한국정보과학회 논문지 > 정보과학회논문지 (Journal of KIISE)

정보과학회논문지 (Journal of KIISE)

Current Result Document : 8 / 14 이전건 이전건   다음건 다음건

한글제목(Korean Title) 의미 특징과 시간 영역 제안을 이용한 비분할 비디오에서의 행동 탐지
영문제목(English Title) Activity Detection in Untrimmed Videos with Semantic Features and Temporal Region Proposals
저자(Author) 송영택   김인철   Yeongtaek Song   Incheol Kim  
원문수록처(Citation) VOL 45 NO. 07 PP. 0678 ~ 0689 (2018. 07)
한글내용
(Korean Abstract)
본 논문에서는 비분할 비디오에 담긴 사람의 행동을 효과적으로 탐지해내기 위한 심층 신경망 모델을 제안한다. 한 비디오의 연속된 영상 프레임들에서 학습하는 시간적 시각 특징들은 동적 행동 그 자체를 인식하는데 도움을 주는 반면, 각 영상 프레임에서 학습하는 공간적 시각 특징들은 행동과 연관된 물체들을 탐지하는데 도움을 줄 수 있다. 따라서 비디오로부터 행동을 효과적으로 탐지해내기 위해서는 시간적 시각 특징들뿐만 아니라, 공간적 시각 특징들도 함께 고려되어야 한다. 또한, 이러한 시각 특징들 외에, 비디오의 내용을 고수준의 개념들로 표현할 수 있는 의미 특징들도 행동 탐지 성능 향상에 도움을 줄 수 있다. 한편, 비디오로부터 행동의 종류뿐만 아니라 행동의 시간적 영역도 정확히 탐지해내기 위해서는행동 후보 영역들을 미리 제안하는 하는 방법이 필요하다. 본 논문에서 제안하는 비디오 행동 탐지 모델은 심층 합성곱 신경망을 이용해 시각 특징과 의미 특징을 함께 학습할 뿐만 아니라, 순환 신경망을 이용해 효과적으로 후보 영역 제안과 행동 분류 작업을 수행한다. ActivityNet과 THUMOS와 같은 대규모 벤치마크 데이터 집합을 이용한 다양한 실험을 통해, 본 논문에서 제안하는 행동 탐지 모델의 높은 성능을 확인할 수 있었다.
영문내용
(English Abstract)
In this paper, we propose a deep neural network model that effectively detects human activities in untrimmed videos. While temporal visual features extracted over several successive image frames in a video, it helps to recognize a dynamic activity itself; spatial visual features extracted from each frame help to find objects associated with the activity. To detect activities precisely in a video, therefore, both temporal and spatial visual features should be considered together. In addition to these visual features, semantic features describing video contents in high-level concepts may also help to improve video-activity detection. To localize the activity region accurately, as well as to classify an activity correctly in an untrimmed video, it is required to design a mechanism for temporal region proposal. The activity-detection model proposed in this work learns both visual and semantic features of the given video, with deep convolutional neural networks. Moreover, by using recurrent neural networks, the model effectively proposes temporal activity regions and classifies activities in the video. Experiments with large-scale benchmark datasets such as ActivityNet and THUMOS, showed the high performance of our activity-detection model.
키워드(Keyword) 비분할 비디오   행동 탐지   심층 신경망   시간 영역 제안   의미 특징   untrimmed video   activity detection   deep neural network   temporal region proposal   semantic feature  
원문 PDF 다운로드