업계의 많은 사람들이 기술 분야의 '차세대 대세'가 블록체인, 인간 노동자를 대체하는 AI 또는 증강 현실이라고 주장하지만, 과소평가되고 있는 중요한 기술 중 하나가 바로 음성 사용자 인터페이스입니다.
연구에 따르면 2020년까지 검색 쿼리의 50%가 음성 검색을 통해 이루어질 것이라고 합니다. 그러나 이 연구가 과소평가하고 있는 것은 음성 UI의 작은 개선만으로도 현재의 인간과 컴퓨터의 상호 작용 패러다임을 완전히 바꿀 수 있다는 점입니다. 이는 검색 사용 사례를 넘어 음성 UI가 그래픽 사용자 인터페이스 및 앱을 대체하거나 앱과 긴밀하게 통합되는 방향으로 나아갈 수 있습니다.
음성 UI를 통해 사람들은 스마트 스피커 및 기타 장치를 통해 자연스러운 음성으로 기기와 소통할 수 있으며, 현재 Alexa 또는 Google Home과 같은 장치에서 찾아볼 수 있습니다. 말하기는 우리가 다른 사람과 업무를 처리하는 방식의 기본이며, 앞으로 컴퓨터와 업무를 처리하는 방식에도 기본이 될 것입니다.
하지만 이는 현재 소수의 의견일 뿐입니다.
대부분의 기술 전문가들은 음성이 기술 생태계에서 현재의 틈새 역할을 계속 발전시키거나 최소한 기술이 발전함에 따라 점진적으로 성장할 것이라는 데 동의하지만, 저는 음성이 그 자체로 주요 이벤트가 될 것이라고 예측합니다. 음성은 소프트웨어 및 기기와의 상호작용을 지배하게 될 것이며, 심지어 그래픽 사용자 인터페이스만큼이나 중요해질 것입니다.
앞서 언급했듯이 이는 주류 의견이 아닙니다. 많은 업계 전문가들은 음성이 아직 새로운 기술이며 아직 완벽한 제품-시장 적합성을 갖추지 못했다고 인식하고 있습니다. 예를 들어, 일부 저명한 벤처캐피털은 인공지능이 일반화될 때까지 음성 기술은 항상 틈새 시장에 머물 것이라는 의견을 가지고 있습니다.
현재 음성 어시스턴트의 많은 한계로 인해 사람들은 음성을 차세대 기술로 상상하기 어렵습니다. 제 생각에 오늘날의 음성은 90년대 초의 전화 접속 웹과 비슷합니다. 당시에는 온라인 환경이 너무 열악해서 대역폭이 개선되면 어떤 일이 가능할지 상상하기 어려웠습니다. 선도적인 사상가들은 인터넷에 대해 지금 생각해보면 터무니없이 보수적으로 보이는 온갖 종류의 예측을 내놓았고, 심지어 일부 전문가들은 인터넷이 팩스보다 경제에 더 큰 영향을 미치지 못할 것이라고 예측하기도 했습니다.
오늘날 사람들의 음성에 대한 기대치는 비슷하게 보수적인데, 이는 부분적으로는 음성 환경이 여전히 거칠기 때문입니다. 일반화된 인공지능이 구현되기 전까지는 봇의 대화 성능이 떨어질 것이며, chatbots 이 사용자와 인간에 가까운 대화를 할 수 있을 때까지는 결코 좋은 기술이 될 수 없을 것이라는 가정입니다. 그러나 일반화된 인공 지능의 필요성에 대한 이러한 가정에는 결함이 있습니다: 현재의 기술로도 chatbots 을 인간에 가까운 수준의 성능을 달성할 수 있는 방법이 분명히 존재합니다.
일반적인 스마트 스피커 어시스턴트의 경우 주제 범위가 너무 광범위하기 때문에 거의 완벽하게 스스로 학습해야 합니다. 안타깝게도 현재 기술로는 사람과 여러 차례 대화를 주고받을 수 있는 자가 학습 봇을 자동으로 생성할 수 없습니다. 만약 그러한 기술이 존재한다면 Google에서 후속 질문을 할 수 있을 것입니다. 하지만 스마트 봇이 스스로 구축하도록 하는 것은 사람의 개입 없이 스마트폰 앱이 스스로 구축되도록 하는 것과 같으며, 현재로서는 불가능합니다.
봇과 거의 인간 수준의 대화를 할 수 있는 또 다른 방법은 봇의 범위를 대폭 좁히는 것입니다. 앱과 마찬가지로 개발자는 특정 작업을 위한 정교한 봇을 만들어 의미 있는 대화에 참여하도록 수동으로 프로그래밍할 수 있습니다. 스마트 스피커, 휴대폰 및 기타 디바이스에서 이러한 종류의 봇을 호스팅하게 될 것이며, 이러한 봇을 제대로 활용하는 퍼스트 무버에게 큰 기회가 창출될 것입니다.
오늘날 음성 봇의 문제 해결
현재 음성 봇의 경험과 향후 이 기술이 가져올 변화의 차이를 직관적으로 파악하려면, 현재 음성 디바이스가 전화 접속 모뎀으로 웹 서핑을 하는 것과 같은 이유를 이해하는 것부터 시작해야 합니다.
첫째, 음성 봇과의 기본적인 상호 작용은 여전히 매우 열악합니다. 뜨거운 단어로 장치에 구체적으로 주소를 지정한 후 봇이 성공적으로 활성화되었는지 여부를 기다려야합니다. 봇이 활성화되었다면 신호음이 울린 후 느리지만 일관된 속도로 말하고 필요한 모든 매개 변수를 포함하도록 문장을 구성해야 합니다(마치 SQL 문을 말하는 것처럼). 잠시 생각하느라 말을 멈추면 대화가 실패하므로 다시 시작점으로 돌아가야 합니다.
실제 사례를 살펴보겠습니다:
"안녕하세요, Google입니다."라고 말합니다.
장치가 활성화되었다는 확인을 기다리는 동안 일시 중지됩니다.
활성화된 경우 요청을 계속 진행합니다:
"거실 TV에서 YouTube에서 케이티 페리의 '다크 호스'를 재생하세요."
기기가 사용자가 말한 내용을 처리하는 동안 또 다른 지연이 발생합니다.
요청이 성공하면 TV에서 어떤 일이 일어나기 시작하고 동영상이 재생됩니다.
성공하지 못하면 처음으로 돌아가서 다른 문장 구조나 다른 단어를 사용하거나 더 명확하게 말하려고 노력하는 등 다시 시도해야 합니다.
이 환경에서는 지연과 잠재적인 오류가 발생할 수 있으며 작업을 완료하기 위해 여러 번 다시 시작해야 할 수 있습니다. 또한 음성 봇은 아직 똑똑하지 않기 때문에 현재 수행 중인 작업과 관련된 명령이나 질문에 응답하지 않습니다.
음성 봇과 상호작용하는 새로운 방법
미래의 스마트 봇과의 상호 작용을 상상하는 가장 쉬운 방법은 인간 운영자가 기기를 제어하고 YouTube 작동과 관련하여 구체적으로 지시하는 것을 상상하는 것입니다(그 외에는 아무것도).
첫 번째 차이점은 상호 작용 속도입니다. "사람" 상담원과 정상적인 속도로 대화할 수 있으며, 응답이 멈추거나 지연되지 않고, 말하는 도중 잠시 멈춰도 아무런 문제가 없습니다. 또한 문장 중간에 "TV를 보고 싶어요, Alexa, YouTube에 뭐 좀 올려주세요."와 같이 사람 상담원을 언급할 수도 있습니다. 사실, 응답을 얻기 위해 이름(인기 단어)을 전혀 말하지 않아도 될 수도 있습니다.
인간을 닮은 이 봇은 사용자와 상호작용하는 방식도 유연합니다:
You: "Alexa, YouTube를 보고 싶어요."
알렉사: "네, 어느 TV에서요?"
You: "부엌 TV에 케이티 페리의 노래가 나오면 좋겠어."
알렉사: "특별히 마음에 드는 노래가 있나요?"
You: "아니요, 뭘 제안할 수 있나요?"
인간: "'로어', '다크호스'? 화면에 더 많은 제안을 넣었습니다."
You: "좋아요, 고마워요. '핫 앤 콜드'를 재생해 주세요."
이것이 봇 상호작용의 미래입니다: 당면한 작업이나 주제에 대해 원활하고 매끄러우며 쉽게 대화할 수 있습니다. 이러한 봇의 방대한 세계가 값싸고 상품화된 음성 디바이스의 방대한 세계와 함께 있다고 상상해 보세요. 모든 방과 모든 기기 옆에 사람이 서 있는 것과 같은 상황이 될 것입니다. 여전히 많은 그래픽 UI가 존재하겠지만 봇을 통해 훨씬 더 쉽게 사용할 수 있을 것입니다.
↪CF_200D↩음성의 미래로 나아가기
오늘날 지하철역, 공항, 슈퍼마켓 등에서는 셀프 서비스 터치스크린을 사용하는 사람들에게 도움을 제공하는 직원을 흔히 볼 수 있습니다. 예를 들어 공항에서 탑승권을 받기 위해 체크인 기계를 사용하는 것을 도와주는 직원이 있습니다. 하지만 이 사람이 실제로 체크인 애플리케이션과 직접 인터페이스할 수 있다고 상상해 보세요. 즉, 체크인 프로세스 중간에 원래 선택한 위치에서 좌석을 변경하고 싶다고 기계에 말하면 애플리케이션이 사람의 도움 없이도 관련 화면을 표시해 주는 것이 가능합니다.
음성 봇은 사용자가 사용하고자 하는 모든 디바이스나 서비스에 내장되어 있거나 액세스할 수 있으며, 사용자가 명령하는 것을 즉시 수행할 것입니다. 더 이상 휴대폰이나 노트북을 꺼내서 무언가를 처리할 필요 없이 필요한 것을 소리 내어 말하기만 하면 모든 것이 제자리를 찾게 될 것입니다.
음성으로의 전환은 궁극적으로 편의성 같은 단순한 것에서 비롯될 것입니다. 현대 사회에서 사람들은 최소한의 번거로움으로 빠르게 일을 처리하기를 원하며, 그 어느 때보다 속도가 중요해졌습니다. 챗봇 산업과 관련된 대부분의 사람들은 현재 챗봇을 예상하지 못하고 있지만, 이 기술을 연구하고 개발하는 사람들은 비즈니스 운영, 마케팅, 영업, 브랜딩, 제품 유통 등에 엄청난 영향을 미칠 것으로 예상하고 있습니다. 음성은 기술의 미래이며, 우리는 이미 그 절반에 도달했습니다.
공유하세요:
AI에 대한 최신 정보를 확인하세요. chatbots