리턴제로에서는 VITO의 모든 엔진을 자체적으로 훈련한 인공신경망 및 알고리즘을 활용하고 있기에, 이를 연구개발하기 위한 업무가 다양하게 발생하고 있습니다. 특히 요즘처럼 연구 트렌드가 빠르게 변하는 시대에 가장 고민되는 것은 연구 방향을 결정하는 것 같습니다. 오늘날 자동차 산업에서 로터리 엔진이 자리잡지 못한 사례처럼, 잘못된 방향의 R&D는 제품이 시장에 정착하는 것을 방해할 수 있기 때문입니다.
리턴제로의 연구원들은 VITO의 엔진이 항상 트렌드의 최신 기술을 받아들일 수 있도록 고민하고, 이에 맞추어 연구 방향을 결정하고 있습니다. 그렇다면 리턴제로 연구팀은 어디에서 기술 트렌드를 읽어 연구를 수행하고 있을까요?
AI Challenges: 최신 연구 트렌드를 주도하는 이벤트
지금 딥러닝 시대의 시작점엔 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)라는 챌린지가 있었습니다. 매년 이 챌린지에 제출된 모델의 정확도는 화제가 되었고, 급기야 2015년에는 인간의 정확도를 뛰어넘는 모델이 나오며 인공신경망에 대한 사람들의 인식이 크게 바뀌게 됩니다. 이전에도 인공지능의 연구개발은 꾸준히 이루어지고 있었지만, 이전에 없던 기술 발전 속도를 보여준 점에서 ILSVRC는 주목받을만한 이벤트였습니다.
최근 챌린지가 운영되는 형태를 보면, 훈련 및 평가 데이터와 함께 기준 시스템(baseline system)을 제공해 참가자들이 불편한 단계를 생략하고 바로 연구를 시작할 수 있도록 도와줍니다. 여기서 기준 시스템은 전년도의 SOTA(State-of-the-Art) 모델을 기반으로 작성되므로, 참가자들은 이것만으로도 괜찮은 수준의 시스템을 확보할 수 있습니다. 리턴제로는 올해 두 건의 이벤트에 참여해 자사의 문제 해결에 필요한 기술력을 확보했습니다.
DCASE: Detection and Classification of Audio Scene and Classification
DCASE는 소리 속에 담겨있는 정보를 분류하고 탐색하는 모델에 관심있는 연구자 모임으로, 매년 챌린지를 개최해 관련 분야의 발전을 가속하고 있습니다. 올해 8회째 개최를 맞은 DCASE 챌린지는 6개 분야의 과제(task)로 열렸으며, 전 세계 135개 팀이 410개의 시스템을 제안하며 경쟁했습니다. 리턴제로 연구팀은 이 중에 “Task 4. 실내 환경에서 음향 이벤트 탐지” 분야에 참가해 29개 팀 중 4위, 국내 팀 중 공동 1위에 기록되었습니다.
리턴제로 연구팀이 도전한 이벤트 탐지 태스크는 음향 이벤트의 발생 시점과 그 종류를 모두 맞춰야 하는 문제입니다. 이 문제에서는 false alarm과 missed detection, 그리고 confusion까지 모두 오류로 발생할 수 있으며, 동시에 아무 이벤트가 발생하지 않는 공백 구간이 데이터의 대부분을 차지하고 있다는 어려움이 있습니다. 데이터에 공백 구간이 많게 되면 모델을 학습할 때 대상 이벤트의 특성을 볼 수 있는 기회가 낮아 학습 효과가 떨어지게 됩니다. 이에 리턴제로 연구팀은 다수의 데이터 증강 기법을 연결하여 부족한 학습 데이터를 보완했으며, 외부 데이터 세트에서 학습에 도움이 되는 데이터를 샘플링해 모델이 음향 이벤트의 특성을 다양하게 학습할 수 있도록 훈련 과정을 구성했습니다.
DCASE 챌린지에서 얻은 연구팀의 성과는 리턴제로의 여러 탐지 모델에 응용되고 있습니다. 현재 VITO 서비스에서 운용되고 있는 것 중에는 음성 구간 탐지 모델과 ARS 음성 탐지 모델이 있고, 이 외에도 서비스의 기능 확장에 맞춘 탐지 모델을 생성해 나갈 계획입니다.
VoxSRC: VoxCeleb Speaker Recognition Challenge
VoxSRC는 2019년부터 매년 개최되고 있는 화자인식 챌린지 입니다. 올해는 세 개의 화자검증(Speaker Verification) 트랙과 하나의 화자구분(Speaker Diarization) 트랙으로 출제됐고, 리턴제로는 “Track 1. Fully supervised speaker verification (closed)”에 참가했습니다. 이 트랙에서 참가자들은 5994명의 화자 ID로 구성된 VoxCeleb2 데이터만 훈련에 사용할 수 있으며, 제시된 문제들이 같은 화자인지 아닌지를 0~1 사이 점수로 제출해야 합니다. 각 문제들은 한 쌍의 서로 다른 오디오로 구성되어 있으며, 몇몇 문제들은 어려운 케이스로서 “동일 화자의 서로 다른 나이대”나 “동일 배경음에서 녹음된 서로 다른 화자”를 한 쌍으로 포함하고 있습니다. 연구팀은 ResNet 기반으로 화자 임베딩 모델을 구성했으며, 제출한 시스템은 참가한 39개 팀 중 9위로 기록되었습니다.
본 챌린지에서 얻은 성과 중에 화자 임베딩 모델에 대한 연구는 화자특징을 필요로 하는 시스템의 핵심적인 부분이며, 리턴제로 연구팀은 이를 활용하여 화자구분 시스템을 강화하고 있습니다. 리턴제로의 화자 임베딩 모델은 노이즈에 강인하게 다양한 도메인에서 안정적인 화자 특성을 생성할 수 있으며, 이는 화자인증 및 화자인식 등의 시스템에서 활용될 수 있습니다.
장기적인 관점으로 챌린지에 올라타기
챌린지는 매년 데이터나 규칙이 업데이트되며, 보다 실용적인 알고리즘이 제안될 수 있는 환경을 제공합니다. 따라서 참가자들은 전년도 우승자의 방식을 그대로 사용하기보다, 그를 응용한 새로운 방식의 해결책을 고민하게 됩니다. 이 과정은 자연스럽게 과적합된 알고리즘을 재탐색하지 않게 만들고, 일반화된 해결 방법이 계속해서 발전해 나가도록 합니다. 따라서 챌린지의 결과를 분석할 때, 단순히 우승자의 알고리즘이 일반적으로 옳다고 판단해선 안됩니다. 과거 수년간의 연구 경향성을 파악하고 상위 그룹의 패러다임이 흘러가는 방향을 보는 것이 필요합니다.
Conclusion
결국 중요한 것은 트렌드를 읽는 것입니다. 전통적으로 정보의 창 역할을 했던 과학 저널이나 학술 대회를 통해서도 트렌드를 읽을 수 있었지만, 점점 분야가 세분되고 각각의 변화 속도가 빠르기에 이를 모두 파악하는 건 쉽지 않아졌습니다. 이에 반해 챌린지는 같은 고민을 하는 연구자들의 최신 아이디어를 나누기에 좋은 환경을 가지고 있습니다. 만약 목표하는 R&D 분야에 대한 챌린지가 개최되고 있다면, 이 그룹에 참여하는 것을 추천 드립니다. 그 안에서 우리의 연구 방향이 트렌드를 따라가고 있는지 확인하고, 추후에는 그 트렌드를 리드하는 연구팀이 되길 바랍니다.