2022년 6월 30일 리턴제로는 비토의 음성인식 문자변환(STT) 기능을 오픈 API로 제공하는 비토 스피치(VITO Speech)와 함께 개발자 웹사이트(VITO Developer) 베타 버전을 출시 했습니다. 오늘은 어떻게 비토 스피치(VITO Speech)를 만들게 되었는지 그리고 비토 스피치가 어떠한 가치를 제공 해줄수 있을지에 대한 이야기를 해보려고 합니다.
1. 비토 스피치(VITO Speech)가 시작된 배경
비토 스피치가 시작된 배경은 리턴제로(ReturnZero)가 서비스하고 있는 전화 통화 음성을 텍스트로 바꿔주는 STT 기술 기반의 서비스 비토(VITO)에서 사용된 음성인식 기술을 어떻게하면 더 많은 사람들이 경험 할수 있을까 하는 생각에서 시작 되었습니다.
비토(VITO)를 위해 만든 좋은 STT기술을 사내에서만 사용할 수도 있겠지만 STT 기술을 가지고 고객의 문제를 풀고자 하는 더 많은 개발자와 기업들이 정확한 성능을 제공하는 STT API 를 보다 쉽게 사용 할수 있도록 만드는 것도 의미 있는 일이라고 생각을 했습니다. 특히 시장에 존재하는 한국어 STT API 중에서는 성능도 좋으면서 비용에 대한 부담 없이 쓸 수 있는 제품이 없다고 판단을 했습니다.
그래서 더 많은 많은 개발자들과 기업 들이 비토의 수준 높은 AI 음성인식 모델을 활용할 수 있도록 음성인식 API 비토 스피치(VITO Speech)의 개발을 시작 하게 되었습니다.
비토 스피치(VITO Speech)가 어떤 가치를 제공 해줄수 있을지에 대한 이야기를 하기 전에 잠시 리턴제로의 기술력을 자랑을 해보도록 하겠습니다. 비토에 탑제 된 소머즈 엔진은 확보한 방대한 양의 음성 데이터와 업계 최고의 기술력으로 국내에서 가장 정확한 수준의 통화 음성 인식률을 가지고 있습니다. 그리고 비토 서비스 특성상 한국어 특유의 구어체, 자유 발화, 소음 등의 환경에 노출되어 있는 통화 음성인식에 특화되어 있습니다.
2. VITO Speech 가 어떤 가치를 제공 해줄까?
한마디로 이야기 하자면 정확한 성능의 한국어 STT API를 초기 비용 걱정 없이 사용할 수 있습니다. VITO Speech는 비토 개발자 사이트(https://developers.vito.ai/)에 가입만 하면 바로 월 100시간을 무료로 사용 할수 있습니다. 경쟁사의 G사 월 1시간, N사 월 20분 무료 사용 양과 비교 한다면 초기 비용 걱정없이 사용해 보시기에 충분한 양입니다.
또한 비토 스피치는 업계 최고의 성능 보장을 보장 하고 있으며 그중에서도 8K 전화 데이터에 최적화되어 있고 AICC, 세일즈콜, 앱내통화에 특화된 성능을 제공합니다. 대본을 읽어서 만든 공개 데이터나 공개된 방송 등의 오디오가 아닌 VITO를 통해 사람이 일상에서 나누는 대화를 기반으로 학습한 인공지능 이기 때문에 가능한 성능 입니다.
3. VITO Speech가 가진 주요 STT 기능
1) 화자 분리 기술 (https://developers.vito.ai/docs/stt-file/dialization)
VITO를 통해 학습한 인공지능 기술을 가지고 전화 데이터와 같은 2명의 화자가 대화를 나누는 음성 데이터의 화자를 분리 하는 기술을 제공 합니다. 이를 통하여 화자의 대화를 분리하여 개발자 또는 고객사 들의 서비스에 적용 할수 있습니다.
2) 다중 채널 지원 (https://developers.vito.ai/docs/stt-file/multi-channel)
위에서 이야기한 화자분리 뿐만 아니라 2개 이상 채널이 포함된 오디오 파일들도 채널 별로 나누어 텍스트로 변환할 수 있는 기능을 제공 합니다.
3) 실시간 STT 제공 (https://developers.vito.ai/docs/stt-streaming/)
비토 스피치는 파일을 텍스트로 변환 하는 STTP API 뿐 아니라 스트리밍 형태의 실시간 STT API 기능도 제공 합니다. 스트리밍을 위해 GRPC, WebSocket 두 가지 방식을 지원하고 있으며 LINEAR16, WAV, FLAC, MULAW, ALAW, AMR, AMR_WB, OGG_OPUS, OPUS 등의 오디오 코덱을 지원하고 있습니다.
실시간 STT 기능은 개발자 사이트(https://developers.vito.ai/)의 ‘VITO Speech 성능 테스트’의 실시간 테스트 기능을 통해 직접 테스트 해볼 수 있습니다.
4) 그외 고급 기능
비토 스피치는 위에서 이야기한 기능들 외에도 Inverse Text Normalization 기술을 활용하여 영어/숫자/단위 변환, 간투어 필터, 비속어 필터, 문단나누기 등의 고급 기능 들도 제공 하고 있습니다.
4.1) 영어/숫자/단위 변환 (https://developers.vito.ai/docs/stt-file/itn)
영어/숫자/단위 등에 해당하는 표현을 한글이 아닌 보다 가독성 높은 표기로 변환하는 기능입니다. 이 기능을 사용 하면 단순 알파벳, 숫자 나열 뿐만 아니라 약어, 이메일, 번호, 날짜, 단위 표현 등을 텍스트가 아닌 영어/숫자/단위 기호 표기로 변환합니다.
예을 들면 일 이 삼 번을 차례대로 누르세요
를 1 2 3번을 차례대로 누르세요
로 변환 하게 됩니다.
4.2) 간투어 필터 (https://developers.vito.ai/docs/stt-file/disfluency)
간투어란 음, 뭐, 아 와 같이 발성자가 다음 발성을 준비하기 위해서 소요되는 시간을 벌기 위해서 발성하는 표현을 이야기 합니다. 간투어 필터를 통해 발화에서 큰 의미가 없는 표현을 제거하여 보다 간결한 텍스트 결과를 확인 할수 있습니다. 간투어 제거를 통하여 문장의 가독성이 더욱 좋아지는 것을 확인하실 수 있습니다.
4.3) 비속어 필터 (https://developers.vito.ai/docs/stt-file/profanity)
비속어 필터는 비속어 표현을 별표(*)로 가려서 표시하는 기능입니다. 변환 결과 중 욕설 등의 혐오 발화가 포함되어 있을 때 가리기 위한 기능으로 사용 할 수 있습니다.
4.4) 문단나누기 (https://developers.vito.ai/docs/stt-file/paragraph-splitter)
문단나누기는 변환된 결과를 복수개 문단을 나눠 가독성을 높여주는 기능입니다. 문단나누기 기능은 발화 속도와 내용을 기반으로 요청한 글자 수 옵션값 범위(max 이하) 내 적절한 지점에서 텍스트를 나눕니다. 이 기능을 활용하여 모바일 기기에 적합한 UI/UX 를 위한 결과를 만들수 있습니다.
지금까지 비토 스피치(VITO Speech)의 탄생 배경과 가치에 대해서 이야기 해보았습니다. 비토 스피치를 통해 STT 기술을 가지고 고객의 문제를 풀고자 하는 개발자들과 기업들이 좋은 제품들을 개발하고 더 많은 사람들이 STT 기술을 통해 새로운 경험을 하게 되기를 기대하며 오늘 이야기는 마무리 하도록 하겠습니다.