음성 어시스턴트란 무엇인가요?
음성 어시스턴트는 자연어로 말하는 명령을 이해하고 이에 응답할 수 있는 소프트웨어입니다. 스마트 어시스턴트라고도 불리며, 대부분의 경우 채팅을 통해 텍스트와 연동할 수 있기 때문에 더 정확한 표현일 수 있습니다. 물론 봇이라고도 합니다.
최근 몇 년 동안 음성 어시스턴트 도입은 특히 Alexa 및 Google Home과 같은 음성 인식 홈 어시스턴트의 형태로 활발하게 이루어졌습니다.
이러한 제품을 통해 사용자는 음성만으로 소프트웨어에 작업을 명령할 수 있습니다. 예를 들어 사용자는 스마트 음성 어시스턴트에게 명령하기만 하면 Spotify에서 음악을 재생하거나 Youtube에서 동영상을 재생할 수 있습니다.
개인 비서 기기는 특히 자연어 처리라는 영역에서 AI의 획기적인 발전으로 가능해졌습니다.
음성 어시스턴트는 음성 인식에 NLP를 어떻게 사용하나요?
자연어 처리는 컴퓨터가 구어 뒤에 숨은 의도를 이해할 수 있도록 하는 기술입니다. 이는 말한 단어를 텍스트로 변환하는 음성 인식과는 다릅니다. 물론 음성 인식은 음성으로 제어되는 디지털 비서에도 필요합니다. 음성 인식은 말한 단어를 텍스트로 변환하고 자연어 처리를 통해 텍스트 뒤에 숨은 사용자 의도를 파악합니다.
자연어 처리는 사람이 동일한 의미를 가진 다양한 문구를 사용하여 음성 어시스턴트에게 지시하기 때문에 중요하고 유용합니다. 예를 들어 "유튜브에서 X 재생해줘", "유튜브에서 X를 찾아서 재생해줘" 또는 "유튜브에서 노래 X를 재생해줘" 등으로 말할 수 있습니다.
NLP는 이러한 모든 문구가 동일한 의미를 가지고 있음을 감지할 수 있습니다. 이는 기기를 작동하기 위해 정확한 명령이나 구문을 기억할 필요가 없기 때문에 음성만으로 기기와 상호 작용할 수 있다는 점 외에도 인간에게 유용합니다. 또한 NLP는 개발자가 설정 방법을 배우기가 의외로 쉽기 때문에 모든 봇 프레임워크에서 중요한 부분입니다.
음성 어시스턴트 장단점
실제로 음성 비서를 사용해 본 사람이라면 누구나 알 수 있듯이 음성 비서는 어떤 면에서는 좋지만 완벽하지는 않습니다. 예를 들어 사람과 같은 대화를 나눌 수는 없습니다. 대화를 시도하면 금방 대화가 끊어집니다.
또한 상호작용만으로는 무엇을 할 수 있는지, 무엇을 할 수 없는지 알기 어렵습니다. 음성은 많은 정보를 빠르게 검색하는 데는 좋지 않은 인터페이스입니다. 예를 들어 웹 페이지를 스캔하는 것이 정보를 빠르게 얻는 훨씬 더 좋은 방법입니다.
그들이 매우 잘하는 것은 명령이나 질문 중 하나입니다. 특히 사용자가 원하는 결과를 정확히 알고 있는 경우, 예를 들어 유튜브에서 이름을 알고 있는 특정 동영상을 재생하고 싶고 질문에 대한 답이 "우리 도시의 기온이 얼마야?"와 같은 간단한 문구인 경우 잘 작동합니다.
우리는 종종 음성 비서가 단순히 또 다른 소프트웨어 인터페이스일 뿐이라는 사실을 잊곤 합니다. 우리가 어시스턴트라고 부르는 이유는 말을 할 수 있기 때문에 사람과 같은 특성을 가진 것으로 생각하기 쉽기 때문입니다. 이러한 생각은 "헤이 구글", "알렉사", "시리"와 같은 인기 단어로 이름을 불러야 비서를 활성화할 수 있다는 사실에 더욱 강화됩니다. 핫워드가 없으면 언제 말을 걸고 있는지 알 수 없으므로 언제 응답해야 하는지 알 수 없습니다. 이 핫워드는 음성 비서를 소프트웨어 인터페이스가 아닌 거의 인간에 가까운 비서의 일종으로 생각하도록 세뇌시킵니다. 또한 어린 아이들이 구글이나 알렉사가 세계를 지배하는 기업이라는 사실을 알게 되었을 때 지속적인 피해를 입힐 수 있는 일종의 다이어트라고 믿도록 세뇌시킵니다.
실제로 음성 어시스턴트는 그래픽 인터페이스와 같은 또 다른 소프트웨어 인터페이스일 뿐입니다. 그래픽 인터페이스는 음성 인터페이스와 비슷한 역할을 수행하지만 같은 방식으로 인간화할 수는 없습니다.
물론 음성 인터페이스는 그래픽 인터페이스와 다르게 사용됩니다. 음성 인터페이스는 일반적으로 그래픽 인터페이스와 함께 사용되지만 그 반대는 아닌 것으로 나타났습니다.
이는 대부분의 애플리케이션에 그래픽 인터페이스가 이미 구축되어 있기 때문에 음성 인터페이스를 추가하면 사용자가 소프트웨어와 상호 작용하는 또 다른 방법을 사용할 수 있기 때문입니다. 예를 들어 음성 어시스턴트에게 유튜브 동영상을 재생해 달라고 요청하는 것이죠. 그래픽 인터페이스를 사용하여 비디오를 재생할 수도 있지만 속도가 느려집니다.
또한 그래픽 인터페이스에서 쉽게 할 수 있는 일부 작업을 음성으로 하는 것은 매우 어렵기 때문에 그래픽 인터페이스가 음성 인터페이스보다 더 완벽하다고 주장할 수도 있습니다. 이 점을 이해하기 위해 동료에게 전화로 지시를 내려 스프레드시트를 작성하도록 하는 것과 그래픽 인터페이스를 사용하여 직접 스프레드시트를 작성하는 것을 상상해 보세요.
음성 인터페이스가 일반적으로 필수적인 것은 아니지만 특정 상황에서는 새로운 차원의 편리함을 제공합니다. 핸즈프리 상호 작용이 필수적인 드문 상황을 제외하고는 일반적으로 필요하면 음성 인터페이스 없이도 생활할 수 있는 편리함입니다.
음성 어시스턴트의 미래
이러한 한계를 고려할 때 음성 어시스턴트가 앞으로 더 중요해질지 아니면 변두리 제품으로 남을지는 의문입니다.
음성 어시스턴트가 그래픽 사용자 인터페이스와 완전히 통합될 것이라는 한 가지 이유 때문에 앞으로 훨씬 더 대중화되고 널리 사용될 것이라는 점은 분명합니다.
그래픽 사용자 인터페이스를 음성으로 대체하기는 어렵지만, 음성과 그래픽 인터페이스를 결합하는 것은 매우 실현 가능합니다. 현재 웹 페이지가 컨텍스트를 제공할 수 있는 Google 어시스턴트와 빅스비에서 매우 제한적으로 이 작업이 수행되고 있습니다.
'조합' 인터페이스라고 부르는 차세대 인터페이스는 그래픽, 텍스트, 음성을 통합하여 사용자에게 최상의 경험을 제공할 것입니다. 이를 통해 사용자는 정확한 명령어를 몰라도 음성을 통해 소프트웨어와 상호작용할 수 있기 때문에 학습 곡선을 줄이면서 더 빠르게 작업을 수행할 수 있을 뿐만 아니라, 상호작용을 모니터링하는 AI를 통해 인터페이스가 스스로 진화하고 개선될 수 있습니다.
앱을 처음 실행할 때의 음성 안내는 앱이 수천 번의 상호 작용을 통해 최선의 행동 방침을 학습한 후에는 다르게 작동합니다.
음성이 완전히 채택되기 위해서는 사용자 행동에 변화가 있어야 한다는 점도 흥미롭습니다. 현재 사람들은 휴대폰에 말을 걸고 음성 비서를 사용하는 것보다 스마트폰에 텍스트를 입력하고 그래픽 인터페이스를 사용하는 경우가 훨씬 더 많습니다.
음성 인식 기술이 완벽하지 않기 때문입니다. 수십 년 동안 휴대폰과 컴퓨터에는 음성 단축키가 있었지만, 오류율이 너무 높아서 오류를 처리하는 데 따르는 고통이 편리함이라는 이득보다 더 컸기 때문에 널리 사용되지는 않았습니다.
음성 인식이 완벽하고 오류율이 없다고 상상해 보세요.
이 경우, 예를 들어 사람들이 스마트폰에 타이핑하는 것보다 음성으로 이메일을 '입력'하는 것이 훨씬 더 빠를 것입니다. 이 임계점에 도달하면 이러한 유형의 작업에서 음성 지원이 보편화될 것입니다.
봇이 NLP와 음성 인식 기술을 모두 활용하려면 높은 수준에서 작동해야 합니다. 음성 인식은 이미 매우 잘 작동하지만, 앞서 설명한 것처럼 NLP는 좁은 도메인에서만 잘 작동합니다.
여기서 흥미로운 점은 음성 인식이 좁은 영역에서 훨씬 더 잘 작동한다는 점입니다. 사용자가 말할 수 있는 단어가 훨씬 적기 때문입니다.
즉, 좁은 도메인에서 거의 완벽한 chatbots 을 만들 수 있는 시점에 이미 도달했다는 뜻입니다. 구글 듀플렉스 데모를 들어보세요.
따라서 발견 및 관련 문제가 해결되면 음성을 매우 빠르게 채택할 수 있습니다.
음성 우선
누군가 도움이 필요할 때 음성이 가장 먼저 연락할 수 있는 창구가 될 것입니다.
보이스 퍼스트 세상에서는 사람들이 음성으로 할 수 없는 작업을 할 때만 디바이스를 바라보게 되므로 디바이스는 더욱 눈에 띄지 않게 될 것입니다.
사람들은 거실에 한 대의 디바이스만 있는 것이 아니라 모든 방에 저렴한 음성 디바이스를 갖게 될 것입니다. 이러한 디바이스는 서로 연결되고, IoT 디바이스, 스마트폰과 컴퓨터에 연결될 것입니다. 이러한 장치 중 일부는 벽에 이미지를 투사할 수 있습니다.
사람들은 샤워를 하거나 양치질을 하는 동안에도 질문을 하거나 명령을 내릴 수 있습니다. 아래층에 있는 음성 봇에게 말하기 위해 일일이 기억할 필요가 없습니다.
봇의 기능을 발견하고 봇을 효율적으로 사용하는 방법에 대해 인간을 '교육'하는 훨씬 더 나은 방법이 있을 것입니다.
현재 음성 어시스턴트 기기에는 많은 문제점이 있지만, 이러한 문제 대부분은 기본 기술보다는 사용 방식과 관련이 있습니다. 단기간 내에 음성 킬러 앱이 등장할 것이며, 이는 소프트웨어 사용 방식의 판도를 바꾸는 사건이 될 것이라고 믿습니다. 이를 위해서는 음성 기술 및 프로토콜의 표준화도 필요하겠지만, 이러한 장애물은 오랫동안 발전을 저해하지 않을 것입니다.
언제 어디서나 음성 디바이스로 도움을 받을 수 있는 궁극의 편리함을 누릴 수 있는 세상을 기대합니다.
공유하세요:
AI에 대한 최신 정보를 확인하세요. chatbots