영화 ‘그녀 (Her)’에서 대필 작가인 주인공 테오도르는 아내와 별거 중이며 홀로 지내는 외롭고 공허한 인물이다. 우연히 광고에서 본 음성인식 기반의 인공지능 운영체제를 구입하여 사만다라는 이름 붙인 주인공은, 매일 실체가 없는 컴퓨터 소프트웨어인 사만다와 음성인식을 통해 교감을 한다. 사만다는 기본감정만 있는 인공지능 소프트웨어지만 점차 주인공과의 교감을 통해 스스로 진화하고 사랑이라는 감정을 학습하게 된다. 음성은 사람과 컴퓨터 사이의 중요한 인터페이스로서 기존의 키보드나 마우스보다 훨씬 편리할 뿐만 아니라 최근 급속히 발전한 빅데이터와 인공지능 기술 덕분에 높은 인식율과 지능화된 인터페이스 서비스를 제공할 수 있는 수단이 되었다. 음성인식은 보통 4단계를 통해 인식된다. 먼저 마이크센서를 통해 입력된 아날로그 음성신호를 디지털 신호로 변경시키고 동시에 잡음 등을 제거하는 전처리 과정이 선행된다. 그런 다음 음성을 분석하여 적절한 특징을 추출하고 미리 수집된 음성모델 데이터베이스와 유사도 측정을 통해 가장 유사한 음성을 선택해 내는 방식을 사용한다. 하지만 사람마다 음색과 발음, 억양 등이 다르기 때문에 유사도를 측정하는 것이 매우 어려운 기술이며 따라서 음성인식 기술의 정확도는 얼마나 많은 음성 데이터베이스 모델을 수집하고 있느냐와 유사도를 측정하는 알고리즘이 얼마나 정확하냐에 달려 있다. 2000년도 초반까지는 음성인식 알고리즘의 한계가 있었지만, 최근에는 딥 러닝(Deep learning) 기술의 개발과 대용량 음성 데이터베이스의 활용을 통해 음성인식 기술이 사람의 인식 능력을 능가하는 수준까지 도달 하였다. 음성인식 기술은 지능형 자동차, 스마트 홈, 스마트 오피스, 의료, 번역 서비스 등의 다양한 분야에서 활용되고 있다. 그 중에서 최근 인기를 끌고 있는 음성인식 AI 스피커에 대해 자세히 알아보도록 하자. 음성인식 소프트웨어의 선두주자는 애플의 ‘Siri’나 구글의 ‘Now’였지만, 최근에는 세계 최대의 전자제품 전시회인 CES 2017에서 선보인 아마존 음성인식 소프트웨어 ‘Alexa’의 음성인식 기술이 단연 돋보이고 있다. Alexa 음성인식 기술은 사람이 대화하는 것과 같은 자연어를 이해하고 처리하는 기능을 지원한다. 또한 클라우드 기반으로 음성인식 서버에 축적된 사람들 간의 대화패턴, 특이한 단어, 개인적 취향 등을 반영하여 스스로 학습해 나가는 과정에서 더욱 똑똑해지는 특성을 가지고 있다. Alexa는 아마존 에코 (Echo) 스피커에 적용되어 2016년에만 500만대가 판매되었다. 에코의 주요 특징은 음성인식을 통한 음악재생 기능, 온라인 주문 기능, 스마트 홈 기능 등이 있다. 에코 스피커가 TV에서 나는 목소리를 주인으로 착각하여 장난감을 스스로 주문했다는 일화는 에코 스피커의 뛰어난 성능을 증명해 주는 예이다. 아마존은 Alexa를 에코 스피커용으로만 사용하는 것이 아니라 알레사 보이스 서비스(Alexa Voice Service)라는 클라우드 기반 서비스를 통해 인터넷에 연결되어 있는 모든 기기에서 Alexa음성인식 기술을 사용할 수 있도록 지원하고 있다. 아마존의 이러한 시도는 경쟁관계에 있는 제품에서도 영향을 미쳐 앞으로는 각 음성인식 시스템마다 API를 공개해 음성인식 AI 생태계 조성될 것으로 예상된다. 국내에서도 다양한 가정용 음성인식 스피커가 개발되어 출시되고 있다. SK텔레콤에서는 2016년 9월 인공지능(AI)스피커 ‘누구’를 출시하였고, KT에서는 2017년 1월 ‘기가 지니’를 출시하였다. 독립형 스피커로 출시된 SK 텔레콤의 ‘누구’는 이후에 자사 Btv와 연동하는 서비스를 시작하였고 음성인식을 통해 TV채널뿐만 아니라 영화를 검색하고 다운받아 볼 수 있는 서비스를 제공하여 출시되자마자 6개월 만에 6만대 이상 팔리는 성과를 거두었다. KT의 ‘기가 지니’는 출시 초기부터 TV연동형으로 개발되어 올레 TV가입자는 IPTV를 제어할 수 있도록 하였다. 네이버는 ‘아미카’를 출시할 예정인데, 업계의 특성상 자사가 보유한 대용량 백과사전과 음성 정보를 활용한 자제개발 음성인식 시스템을 사용하고 있다. 이렇듯 음성인식 스피커는 현재 시장에 나와 있는 음성인식 응용 제품들 중에서 가장 큰 시장으로 자리 매김하였다. 하지만 음성인식 기술이 지금보다 많은 사용자에게 보급되기 위해서는 더 많은 연구 개발과 고민이 필요하다. 첫 번째로, 현재의 기술은 입력된 음성과 음성데이터베이스에 저장되어 있는 음성파일과의 유사성을 통해 인식하는 방법을 사용하고 있다. 딥 러닝 기술을 통해 음성인식 정확도가 높아졌다고는 하지만 아직도 잡음이 심한 환경이나 사용자의 억양이 다른 음성에 대해서는 인식율이 떨어지는 문제점이 있다. 두 번째로, 단문의 음성은 잘 인식하지만 자연어로 구성된 비정형적인 장문의 음성은 인식율이 떨어진다는 단점이 있다. 세 번째 문제점은 인간의 음성에 포함된 감정을 인식하는 문제이다. 인간의 음성은 같은 단어나 문장이라고 하더라도 감정 상태에 따라 전혀 다른 뜻을 포함하고 있는데 이러한 감정을 고려한 음성인식 기술은 연구가 진행되고는 있지만 그 결과가 아직은 기대에 미치지 못하고 있다. 네 번째는 프라이버시 문제이다. Alexa와 같이 클라우드 기반의 인식 시스템은 사용자의 음성명령을 모두 기록하여 강화 학습에 사용한다. 이러한 기능은 개인별 맞춤형 인식 시스템으로의 진화가 가능하지만 또 다른 한편으로는 개인의 음성기록이 서버에 저장됨으로 서버가 해킹을 당할 경우 개인 프라이버시가 침해당할 수 있다. 현재의 이러한 문제점들을 개선하기 위해 개발자들은 끊임없이 연구를 하고 있으므로 단계적으로 해결이 가능할 것으로 기대한다. 앞으로 음성인식 기술에 대한 필요성은 계속 증가할 것이고 이를 활용한 응용 제품들도 시장에 지속적으로 출시 될 것이다. 현재와 같은 연구개발 속도라면 영화 ‘그녀’에 나오는 사만다를 만날 수 있는 날도 머지 않을 것이다.