포커스 iN
파워iN터뷰
  • 박전규
  • 한국전자통신연구원 복합지능연구실
  • jgp@etri.re.kr

국가연구개발 우수성과 100선 2년 연속 선정

'AI펭톡' 'AI 세종학당 선생님' 들어보셨나요? 비대면 환경에서의 영어와 한국어 말하기 학습을 위한 세계 최고 수준의 음성인식 AI 기술을 이끌어내며, 고난도 다자간 회의 환경에서의 종단형 음성인식 원천기술 개발 등의 탁월한 성과로 2년 연속 국가연구개발 우수성과에 선정되신 한국전자통신연구원의 박전규 박사님을 소개합니다.


▶ 현재 한국전자통신연구원(ETRI) 복합지능연구실 책임연구원으로 재직 중이십니다. 연구실에 대한 소개 부탁드립니다. 


ETRI는 2019년부터 "미래사회를 만들어가는 국가 지능화 종합 연구기관"을 기치로 인공지능연구소를 신설하고 인공지능 소프트웨어, 신경망 칩을 포함한 인공지능 하드웨어, 자율주행차 및 드론 등 ETRI 내의 전 역량을 집중해서 인공지능 기술을 연구개발하고 있습니다. 인공지능연구소의 하부 조직인 복합지능연구실은 시각, 언어, 청각 등 다양한 지능 요소들을 통합하여 인지, 사고, 판단하는 인간 수준의 지능 구현을 목표로 하여 신설되었습니다. 현재 30여명의 연구자들이 인간의 두뇌를 모사하는 자율성장 알고리즘, 음성 인식 및 합성, 자동통역, 시각·언어·청각을 통합하는 멀티모달 대화시스템 등의 원천기술을 연구개발하고 있습니다.



▶ EBS 'AI펭톡'과 세종학당재단의 'AI 세종학당 선생님'에 적용된 음성인식 및 대화처리 기술은 2020 국가연구개발 우수성과 선정2021 대통령 표창 수상으로도 알 수 있듯이 해당 기술에 대한 탁월성이 입증되었습니다. 이에 대한 자세한 설명 부탁드립니다.


인공지능 기반의 외국어 학습 기술은 언어학, 음성학 등의 인문학적 배경과 전기전자, 컴퓨터 등 공학적 배경을 결합하는 전형적인 학제적 방법론에 기초하고 있습니다. 특히 비원어민이 발성하는 영어와 한국어 음성을 높은 정확도로 인식하면서 다양한 수준의 학습자 유창성을 평가하는 기술, 문법적으로나 표현상으로 불완전한 비원어민의 대화를 이해하고 자연어로 반응하는 기술은 매우 고난도의 기술입니다. ETRI에서는 약 10년 전부터 이러한 외국어 학습을 위한 원천기술을 축적해 왔으며 그 산출물이 바로 AI펭톡, 세종학당 AI 선생님 등과 같은 공교육 또는 공익적 서비스에 적용되고 있는 것입니다. 이러한 서비스는 EBS 및 세종학당재단이 보유한 우수한 교육적 인프라와 학습 콘텐츠가 결합된 것이며, 세계 최초로 공교육 현장에 적용되고 있다는 측면에서 교육부, 문화체육관광부, 과학기술정보통신부 등의 통합된 지원의 결실이기도 한 것입니다. 현재는 특정한 주제를 한정하고 그 범위 내에서만 자유 대화가 가능하지만 장래에는 기술 고도화에 따라 원어민 선생님이 아닌 인공지능과 자유롭게 외국어 말하기 학습이 가능한 시점이 올 것입니다.


AI 펭톡을 활용한 수업 장면 (출처: EBS 홈페이지) 

세종학당 AI 선생님 (출처: 구글 플레이 스토어) 
 



▶ 뿐만 아니라 2021년도에는 '고난도 다자간 회의를 위한 음성인식 기술'이 국가연구개발 우수성과로 선정되는 쾌거를 이루셨습니다. 이 기술에 대해서도 설명 부탁드립니다.


영광스럽게도 저희 복합지능연구실에서 개발한 기술이 2년 연속으로 국가연구개발 우수성과 100선에 선정이 되었습니다. ETRI에서 음성인식 기술을 연구한 지는 이미 30년이 넘었고 최근 인공지능 기술혁신에 힘입어 음성인식 기술도 비약적으로 발전하게 되었습니다. 최근 5년 동안 저희 연구실은 국내외 특허 출원 및 등록 90여건, SCIE 논문 10여건, 80여 건의 기술이전 실적과 100억 원 이상의 기술실시료, 기술이전에 따른 직간접적인 사업화 사례가 250여 건에 이르는 등 이론적, 실질적 성과가 높습니다. 음성인식의 경우 전 세계적으로 구글이 최고의 기술력과 독점적인 시장 지배력을 유지하고 있는데 한국은 자국어에 대해 구글과 동등 이상의 기술력을 유지하고 있는 몇 안 되는 국가 중 하나입니다. 그 배경에는 연구자들의 합심된 노력과 열정이 가장 중요한 근간이라고 할 수 있겠습니다. 한편 음성인식 기술이 AI비서, 음성검색, 콜센터녹취 등의 영역에서 우리 생활이나 산업에 안정적으로 사업화되고는 있으나 여전히 심한 잡음 환경, 사투리 발성, 노인이나 유아의 발성, 비원어민 발성에 대해 정확도가 매우 낮아서 여전히 연구자들에게는 갈 길이 먼 것이 사실입니다. 



▶ 연구를 수행하시면서 어려운 점이 있었다면? 그리고 어떻게 극복하셨는지요?


다른 첨단 연구 분야와 마찬가지로 조금이라도 긴장을 늦추면 뒤쳐질 수밖에 없는 인공지능의 기술적 특성으로 인해서 항상 주요 트렌드를 경계하고 연구원들의 역량을 결집해야 하는 것이 가장 어려운 점이라고 생각합니다. 경쟁관계에 있거나 우리보다 앞서 있는 세계적인 연구기관들과 첨예한 기술개발 경쟁을 해야 하는데 요즘같이 빠르게 기술 발전이 이루어지는 시대에서는 일주일만 논문 검색에 소홀해도 바로 뒤쳐질 수 있습니다. 음성인식 기술은 다행히 한 언어에 적용하는 기술이 다른 언어에도 일반화가 가능한 언어독립적인 특성이 있는데, 구글 등 세계적인 빅테크기업에 비해 인적, 물적으로 열악한 조건에서도 우선 우리말에 대해서만이라도 세계 최고의 경쟁우위를 가지고자 최선의 노력을 했기에 극복이 가능했던 것으로 보고 있습니다.


시청자미디어재단 적용 '음성-자막 자동 변환 서비스 시스템 구성도' (출처: ㈜소리자바 홈페이지) 
 



▶ 지금은 비대면과 디지털 전환이라는 패러다임 변화로 챗봇(대화형 AI)에 대한 관심도 높아집니다. 해당 기술에 대한 전반적인 국내외 동향 및 우리나라는 어느 수준에 와 있는지 소견을 말씀해 주세요.


대화형 AI는 향후 인공지능과 사람뿐만 아니라 인공지능 간의 소통을 가능하게 하는 가장 중요한 인터페이스로서 활용될 것입니다. 초창기 챗봇은 일반의 높은 관심에 따라 다양한 민간 및 공공 기관에서 활발하게 도입되었으나, 높은 수준의 전문성을 요하는 대화에는 한계가 명확하여 기대와 달리 활용성이 떨어졌던 것이 사실입니다. 하지만 구글의 미나(Meena)나 듀플렉스(Duplex), 메타 AI의 블렌더(Blender)와 같이 일반적인 대화를 다루는 경우 매우 놀라운 대화 능력을 보여주고 있습니다. 15억 건 이상의 공개 Reddit 대화 데이터를 학습한 블렌더에 대해 평가한 결과 67%의 평가자들이 사람 수준의 대화 능력을 보이는 것으로, 49%는 사람보다 더 인간적이라고 평가했을 정도로 혁신적인 대화형 AI로 평가받고 있습니다. 예약 업무를 주로 수행하는 구글의 듀플렉스는 이미 미국의 49개 주에서 서비스될 정도로 일반화되고 있습니다. 이러한 기조로 보면 향후 특정 전문 영역의 학습데이터를 전이 또는 적응 학습함으로써 일반적인 영역은 물론이고 법률, 경제, 의료 등과 같은 전문 영역에 대해서도 간단한 지식을 제공해 주는 서비스가 가능할 것으로 전망하고 있습니다.



▶ 특별히 기억에 남는 본인의 논문이 있다면 말씀해 주세요. 


기억에 남기로는 논문보다 특허가 먼저 떠오릅니다. 딥러닝 기술이 한창 재조명되기 시작하던 시점에 저희 연구실에서 작성하여 출원한 특허가 세계적인 컨설팅 업체인 Frost & Sullivan이 2016년 선정한 8개의 인공지능 핵심특허(key patent) 중 하나로 선정된 것입니다. 이 특허는 국제 표준화 기구인 ITU-T의 표준특허로도 선정되었는데, 종래 기술과 달리 특징추출을 위한 신호처리 알고리즘을 심층신경망 기반의 음성인식 장치에 통합함으로써 신호처리 과정에서 모델 파라미터를 명시적으로 최적화할 수 있는 혁신적인 방법론으로서 가치를 인정받은 것입니다. 이와 같이 기술 자체의 진보성도 중요하지만 이를 현실적으로 응용하여 사업화하는 것도 매우 중요하기 때문에 연구실에서는 핵심요소 기술에 대해 논문 게재와 특허 출원을 같은 가중치를 두고 추진하고 있습니다.



▶ 도움이 될 만한 분야 관련 사이트 또는 서적 추천을 부탁드립니다.


인공지능이 새로운 중흥기를 맞고 있는 데는 빅데이터, GPU와 같은 고성능 처리장치, 진화된 심층신경망 등이 핵심요인으로 평가받고 있는데, 여기에 더해서 전 세계의 연구자들이 기여하는 오픈소스 공동체가 기여하는 바가 무엇보다도 크다고 생각합니다. 현재 인공지능 주요 학술대회에서 발표되는 논문의 대부분이 오픈소스로서 공개되고 있는데 이를 떠받치고 있는 아카이브(arXiv), 깃허브(github) 등과 같은 사이트는 항상 주목하고 있어야만 하는 사이트입니다. 인공지능 기술이 워낙 고속으로 발전하고 있기 때문에 잠시라도 한눈을 팔면 경쟁에서 뒤쳐질 수밖에 없기 때문입니다.



▶ 이 분야로 진출하려는 후배 연구자들을 위한 조언 부탁드립니다.


"반세기에 이르는 인류의 노력에도 불구하고 우리는 곤충 정도의 멀티태스킹 능력도 구현하지 못하고 있다." 이는 재작년 말 딥마인드의 핵심 연구자가 MIT 기술리뷰와의 인터뷰에서 한 말입니다. 현재의 인공지능은 제한된 영역의 제한된 문제에 대해서는 일부 인간을 넘어서는 능력을 보이고 있으나, 사람처럼 다양한 감각을 동원하여 사고하고 판단하며 기억하지 못하고 있습니다. 이러한 측면에서 인공지능은 해 놓은 것보다는 앞으로 할 것이 훨씬 많고 험난한 노정을 가야 하기 때문에 재능을 아끼지 말고 연구개발에 매진할 필요가 있음을 강조하고 싶습니다.



▶ 연구자로서 이루고 싶은 목표가 있다면 말씀해 주세요. 


ETRI는 국책연구기관으로서 민간에서 수행하기 어려운 고난도 첨단 기술을 집중적으로 연구개발하여 국가적 지식재산권을 확보하는 동시에 이를 필요로 하는 기업에 기술이전하는 등 국내 기술 및 산업 경쟁력 제고에 기여하는 것이 미션입니다. 최근까지 저희 연구실에서는 이러한 국가적 요구에 부응하여 기술이전 및 사업화 실적을 꾸준히 유지하고 있는데, 향후에도 안정적인 연구 환경에서 이러한 역할을 지속적으로 수행하는 것이 목표라고 하겠습니다.



우수성과 (2021 국가연구개발 우수성과 선정) >>

우수성과 (2021년 과학·정보통신의 날 국가연구개발 성과평가 유공자 정부포상 대통령표창) >>

우수성과 (2020 국가연구개발 우수성과 선정) >>

서울시 동작구 흑석로 84 중앙대학교 전자정보연구정보센터 (우편번호 06974)

전화 : 02-823-5081 E-mail : webmaster@eiric.or.kr

  • 유튜브
  • 인스타
  • 페이스북
  • 트위터
  • 카카오톡