[고객 사례] 일본어 AICC의 엔진이 구글에서 리턴제로 STT로 바뀐 이유

[고객 사례] 일본어 AICC의 엔진이 구글에서 리턴제로 STT로 바뀐 이유

배경

  • 마인드웨어웍스는 기존에 한국시장에서서 CogInsight라는 제품을 통해 AICC, 챗봇, 음성봇 등을 제공하여 고객상담, 고객관리 문제를 해결하고 있었습니다. CogInsight 내에서 IBM Watson, Google Dialogflow, MS Luis 등의 NLP 솔루션을 제공하고 있었고, STT 솔루션으로는 Google STT, 아틀라스랩스 등의 제품을 사용하면서 AICC 구축/운영 서비스 플랫폼를 운영하고 있었습니다.
  • 글로벌을 목표로 일본 시장 진출을 선언하면서 일본어를 다룰수 있는 NLP, STT 솔루션이 필요한 상황이 되었습니다. 문제는 사용할만한 일본어 STT 솔루션이 Google STT 외에는 없는 상황이었고, 고객사가 원하는 수준의 비용과 성능을 만족시킬수 없는 상황이었습니다.

문제 및 목표

일본어 STT

  • 높은 정확도의 일본어 자유발화 모델을 제공하여 상담 어시스턴트 및 음성봇 시나리오에 사용할 수 있도록 합니다.
  • 기존에 사용중인 구글 STT 보다 높은 성능의 음성인식 엔진을 공급하여 구글 STT를 리턴제로 STT로 대체합니다.

용도별 모델 확보

  • 일본 고객의 음성봇 시나리오에는 고객의 이름과 주소, 숫자와 알파벳이 들어간 전화번호나 모델명을 정확히 인식해야 하는 니즈가 있었습니다. 구글 STT를 사용해보았지만 위 케이스에 대한 음성인식 정확도가 많이 낮았습니다.
  • 일본어 이름의 경우 한자(kanji)로 된 이름을 받아적는 것이 어렵기 때문에, 발음나는 그대로의 가타가나로 인식이 가능해야 했습니다. 이는 타사의 STT 솔루션으로는 불가능했습니다.
  • 주소 인식의 경우 도쿄시, 홋카이도 등의 쉬운 주소는 구글 STT를 사용해도 잘 인식되었지만 세부 주소의 경우 인식률이 매우 떨어지는 문제가 발생하였습니다.
  • 코드(숫자/영어)의 경우에는 다른 Task에 비해 음성인식 난이도는 쉬운편이지만, 그에 맞게 95% 이상의 음성인식 정확도를 보장해야 했습니다.

솔루션

  • 리턴제로는 이미 가장 높은 성능의 한국어 음성인식 모델을 보유하고 있고, 직접 데이터를 수집하고 모델을 학습하고 서빙하는 기술을 보유하고 있었습니다. 음성인식 팀에서는 한국어에서 일본어로 언어가 바뀐 것 외에는 크게 달라지는 부분이 없었습니다.

데이터 수집

  • 가장 중요한 것은 일본어 데이터를 확보하는 것이었습니다. 먼저 사용가능한 모든 일본어 음성인식 데이터를 빠르게 확보하였습니다. 또한 고객사인 마인드웨어웍스의 도움을 받아 과거에 제작했던 일본어 CS 음성인식 데이터도 학습에 사용하였습니다.
  • 음성인식 성능 향상을 위해 고객사와 협업을 통해 학습 데이터를 직접 제작하였습니다. 용도별로 필요한 데이터의 형태와 양을 기획하였고, 모델 학습에 직접적으로 도움이 되는 레이블 데이터를 수집하여 모델의 성능을 비약적으로 향상시켰습니다. 데이터 수집 과정에서 고객사와의 협업을 통한 시너지를 경험하였고 이는 고객의 높은 만족도로 이어졌습니다.

용도별 모델 학습

  • 고객에 니즈에 맞게 자유발화 모델 외에 이름, 주소, 코드 인식에 특화된 모델을 따로 학습하였습니다. 위에서 언급한 맞춤 데이터 제작을 통해 자유발화 외에 용도별 모델을 위한 학습 데이터를 충분히 확보할 수 있었습니다.
  • 상용화 일본 STT를 사용할 경우, 다양한 일본 이름에 따라 결과가 히라가나, 가타가나 또는 한자로 인식되어 일관되지 않은 형태로 반환되었고 이를 음성봇 시나리오에 사용할 수 없었습니다. 리턴제로에서는 이름 시나리오만을 위한 위한 이름 인식 모델을 개발하였으며, 특히 언어 정보를 최대한 배제하고 발음나는 대로 인식하도록 모델을 튜닝하였습니다.
  • 주소 모델의 경우, 고객사와 협업을 통해 실제 일본 주소를 발화한 레이블 데이터를 제작하였습니다. 부족한 데이터는 TTS를 통해 확보하였는데, 일본 전체 주소 리스트를 커버하는 레이블 데이터를 TTS로 제작하여 학습 데이터로 사용하였습니다. 그리고 실제 일본 주소 DB를 기반의 언어 모델을 사용한 WFST 디코더를 사용하여 비슷한 발음을 했을 때 DB에 존재하는 실제 주소가 인식 될 수 있도록 하였습니다.
  • 숫자/영어 인식
    • 숫자나 알파벳을 발화하는 경우 음성인식 결과가 히라가나, 가타가나, 한자가 아닌 숫자, 알파벳 철자로 출력되어야 합니다. 리턴제로에서는 음성인식 모델이 직접 숫자와 알파벳 철자를 출력할 수 있도록 학습을 진행하였고, 이는 하이브리드 방식의 kaldi 모델이 할 수 없는 E2E 모델이 가지는 장점입니다.
    • 히라가나, 가타가나, 한자로 출력된 철자를 숫자나 알파벳으로 바꾸는 과정(ITN)도 가능하지만 이는 복잡도가 높고 오변환의 리스크도 있었습니다. 따라서 일본어 모델에서는 최소한의 ITN을 사용하고 가능한 음성인식 모델이 모두 숫자와 알파벳을 직접 출력할 수 있도록 모델을 튜닝하였습니다.

결과

  • 리턴제로와 마인드웨어웍스는 수개월동안 협업을 통해 일본어 음성인식 성능을 향상시켰고 기존에 사용중인 구글 STT 를 대체하였습니다. 목적에 알맞게 데이터를 기획하고 수집하는 과정을 통해 자유발화 모델과 용도별 모델을 높은 완성도로 제공하였습니다.
  • 자유발화 데이터 수집 및 학습을 주기적으로 진행하였고, 최종적으로 구글 STT의 정확도를 넘어서는 모델을 학습하여 고객에게 제공하였습니다. 특히 일본 고객이 주로 사용하는 CS 도메인의 체감 성능은 더 높아졌다는 피드백을 받았습니다.
  • 최종적으로 마인드웨어웍스의 CogInsight에 리턴제로의 일본어 STT 엔진이 탑재되었고, 마인드웨어웍스의 일본 고객사도 이에 만족하고 있습니다. 계속해서 고객사는 늘어나고 있고 리턴제로에서도 일본어 모델에 대한 고도화 및 업데이트를 주기적으로 진행하고 있습니다.
  • 프로젝트를 진행하면서 실제 음성인식을 사용하는 고객의 체감 성능과 피드백을 수용하여 모델을 계속적으로 튜닝하였습니다. 특히 이름, 주소, 숫자/알파벳을 인식해야 하는 음성봇 시나리오에서 높은 정확도를 보였고 실제 음성봇 시나리오에 적용되고 있습니다.
분류 정확도
이름 98%
주소 98%
코드 (숫자/알파벳) 99.5%

고객 인터뷰

리턴제로와 함께 해당 프로젝트를 리드해 온, 마인드웨어웍스의 박경택 수석과 일본에서 가장 앞서있는 AICC 공급사이자 일본 사업을 주도하고 있는 투모로우넷의 기술이사는 아래와 같은 높은 평가를 내리고 있습니다.

  • 일본어는 주소나 영문과 숫자의 결합, 그리고 이름 처리에 많은 노하우와 높은 기술력, 그리고 문제해결을 위한 고도의 집중력을 요구하는 제약과 기회가 동시에 있습니다. 이런 특성과 검증된 기술력, 문제해결을 위한 집중력 없이 일본 시장의 기존 음성인식 솔루션보다 높은 결과물을 약속했으나 2년 이상의 시간과 비용을 투자 했음에도, 결국 실패한 한국 업체와의 협업 사례가 있었습니다.
  • 하지만 리턴제로는 불과 1년도 채 되지 않아 현재의 결과물을 이끌어 냈습니다. 이를 통해 일본과 한국 모두에서 인식율과 문제해결능력에서, 우리가 시도해본 여러 솔루션 공급사를 압도하는, 최고 수준에 도달해 있음을 확인할 수 있었습니다. 현재 AICC를 도입/운영중인 세계적 글로벌 기업들도 리턴제로의 솔루션으로 신속한 전환을 기대하고 있는 상태입니다.

Great! You’ve successfully signed up.

Welcome back! You've successfully signed in.

You've successfully subscribed to 기업을 위한 음성 AI - 리턴제로 blog.

Success! Check your email for magic link to sign-in.

Success! Your billing info has been updated.

Your billing was not updated.