튜링 테스트는 무엇이며 어떻게 작동하나요?
튜링 테스트는 채팅 대화를 통해 컴퓨터가 인간을 인간이라고 확신할 수 있는지 알아보는 인공지능 테스트입니다. 인간은 상대방이 말하는 '사람'이 사람인지 컴퓨터인지 판단해야 합니다. 사람과 대화하는 것처럼 보이지만 실제로는 컴퓨터와 대화하고 있다고 판단하면 컴퓨터는 튜링 테스트를 통과한 것입니다.
이 테스트는 기본적으로 컴퓨터가 인간과 대화하는 것처럼 속일 수 있을 정도로 설득력 있게 인간을 모방할 수 있는지를 평가하는 테스트입니다. 물론 이 테스트에 대해 풀어야 할 것이 많습니다.
튜링 테스트의 목적은 무엇인가요?
기계가 채팅 대화에서 인간을 설득력 있게 모방할 수 있는지 알아보는 것은 당연해 보이기 때문에 이상한 질문처럼 보일 수 있습니다. 하지만 좀 더 깊은 고려 사항이 있습니다.
기계가 근본적인 사고나 지능 면에서 인간을 진정으로 모방할 수 있는지, 아니면 단지 인간을 속여 인간이라고 속일 수 있는지 테스트하는 것일까요? 차이가 있습니다.
기본적인 사고나 지능 측면에서 인간을 모방하는 것은 사람들이 튜링 테스트에 대해 일반적으로 생각하는 것, 즉 인간이 인간과 대화하는 것과 기계와 대화하는 것의 차이를 구분할 수 없다는 것을 의미합니다. 사실 이 테스트는 인간을 '속이는 것'이 허용되었기 때문에 처음에 고안된 방식이 아니었습니다. 예를 들어, 기계는 철자 오류를 절대 범하지 않기 때문에 컴퓨터가 인간을 속여 사람이라고 믿게 하는 것도 하나의 방법이 될 수 있습니다.
근본적인 문제는 시험에는 규칙이 있기 때문에 어떤 식으로든 결함이 있을 수밖에 없다는 것입니다. 예를 들어 테스트 대상과 얼마나 오래 대화하는지가 중요합니다. 100시간 동안 대화하는 것보다 5분 동안 사람을 모방하는 것이 더 쉽습니다. 5분 버전에서는 트릭이 통할 수 있지만 100시간 버전에서는 통하지 않을 수 있습니다.
튜링 테스트를 누가 수행하느냐가 중요하나요?
기계와 인간을 구별하는 방법에 대한 훈련을 받은 과학자는 답을 평가하는 능력뿐 아니라 어떤 질문을 해야 하는지 알고 있기 때문에 훈련이 없는 일반인보다 속이기 훨씬 더 어려울 것입니다.
컴퓨터가 인간 수준의 '사고력'과 지능을 가지고 있다고 해도 테스터를 속이기에는 충분하지 않을 수 있습니다. 컴퓨터가 너무 완벽하거나 감정이 없는 반응을 보일 수 있기 때문입니다.
튜링 테스트에는 컴퓨터가 일반화된 인간 수준의 지능에 도달하면 기계가 '사고'를 하거나 의식을 가질 수 있는지 여부와 같은 철학적 고려 사항도 있습니다. 이는 부분적으로 앨런 튜링이 이 테스트를 통해 우회하려고 했던 질문이기도 합니다. 기계가 인간을 정확하게 모방할 수 있다면 모든 의도와 목적을 위해 기계는 '사고'를 하는 것입니다.
물론 그렇다고 해서 의식이 있다거나 인간이 생각하는 것과 같은 방식으로 사고한다는 의미는 아닙니다. 사실, 인간이 생각하는 방식으로 생각하지 않는다는 것은 확실합니다. 이 질문에 대한 진정한 관심은 실용적인 관점에서 볼 때 드러납니다. 예를 들어 비행기는 날아갑니다. 그것이 중요한 것입니다. 비행기가 비행하는 방식에서 새를 모방하지 않는다는 것은 훨씬 덜 흥미롭습니다.
튜링 테스트는 결과를 도출하는 방식이 아니라 결과에 관심이 있습니다.
더 중요한 점은 튜링 테스트가 일반적으로 기계 지능이 최소한 인간 수준의 지능에 도달한 상태를 설명하는 것으로 이해된다는 것입니다. 위에서 설명한 모든 결함을 고려할 때 기계가 기술적으로 튜링 테스트를 통과했는지 여부에 관심이 있는 그룹은 훨씬 더 적습니다.
튜링 테스트를 통과하는 것은 인상적인 기술적 업적일 수 있지만, 특히 테스트가 장기간에 걸쳐 지식이 풍부한 사람들에 의해 실행되는 경우라면 모든 사람을 항상 속일 수 있는 기계보다는 훨씬 덜 인상적일 것입니다. 물론 테스트가 실행되는 기간이 길고 평가자의 전문성 수준이 높을수록 이 두 가지 시나리오가 수렴할 가능성이 높아집니다.
튜링 테스트를 통과한 컴퓨터에 근접한 것일까요?
이제 테스트가 무엇인지 이해했으니 다음 질문은 "우리는 이 테스트를 통과할 수 있는 컴퓨터에 근접해 있는가?"입니다. (즉, 일반화된 인간 지능에 도달하는 것). 짧은 대답은 "아니오"입니다.
컴퓨터가 하나의 음성 구절 뒤에 숨은 의도를 파악하는 능력인 자연어 처리 (모든 음성 어시스턴트를 구동하는 기술)에 엄청난 발전이 있었지만, 일반화된 인간 수준의 지능과는 거리가 멉니다.
현재 기술은 모호성(모호한 진술 뒤에 숨은 의미 이해), 기억(이전에 언급된 사실을 현재 대화에 통합), 맥락(언급되지는 않았지만 현재 상황과 관련된 사실 고려)에 그다지 능숙하지 않은 것으로 나타났습니다. 요컨대, 현재 기술로는 필요한 부분에 거의 근접하지 못합니다.
문제는 현재의 AI 기술이 방대한 양의 데이터를 사용하여 학습해야 한다는 점입니다. 음성 인식이나 자율주행차를 포함한 이미지 처리 등 방대한 양의 반복적인 데이터가 있는 모든 영역에서 AI를 도입할 수 있습니다.
자연어 처리의 성공은 문맥이나 기억이 없는 일회성 진술과 질문에 대한 데이터가 거의 무제한적으로 존재한다는 사실에 기인합니다. "오렌지를 사고 싶어요"라고 말하면 대부분의 경우 문맥이나 기억에 대한 추가 정보가 없어도 이해할 수 있는 단순한 진술입니다. 의도는 "오렌지 주스를 사세요"입니다.
맥락이나 기억이 관련되어 있을 때 이는 차원을 만들어냅니다. 내가 "오렌지 주 스를 사고 싶다"고 말하지만 이전에 내가 오렌지 주스를 거래하는 금융 트레이더라고 말한 적이 있다면, 이 맥락에서 오렌지 주스 가격이 오르면 돈을 벌 수 있는 금융 상품을 사고 싶다는 의미라는 것을 이해해야 합니다.
이제 데이터는 어떤 모습일까요? "오렌지 주스 구매 "는 상점에서 오렌지 주스 한 병을 구매하거나, 이전에 오렌지 주스 금융 거래자라고 밝힌 경우 오렌지 주스 가격에 연동된 금융 상품을 구매하려는 것을 의미합니다.
금융 거래자가 방금 목이 마르다고 말한 것은 상점에서 오렌지 주스 한 병을 사고 싶다는 의미일 수 있습니다. 따라서 다른 데이터 포인트를 추가합니다: 또는 이전에 오렌지 주스를 마시는 금융 트레이더라고 말했지만 최근에 목이 마르다고 말했다면 오렌지 주스 한 병을 사고 싶다는 의미입니다.
금융 기업이 사용자들이 인간 수준의 '지능'을 가지고 있다고 믿는 트레이딩 봇을 출시하면 금방 문제가 발생할 수 있습니다.
튜링 테스트 통과는 불가능할까요?
안타깝게도 대화 데이터에는 다양한 차원이 존재합니다. 무한한 차원. 즉, 머신 러닝 알고리즘은 가능한 모든 차원에 대해 대량의 데이터가 포함된 데이터 세트에 액세스할 수 있어야 하는데, 이는 당연히 불가능합니다.
물론 그렇다고 해서 튜링 테스트 통과가 불가능하다는 의미는 아닙니다. 이미 우리 뇌에는 이를 수행할 수 있는 기술이 있기 때문에 가능하다는 것을 알고 있습니다. 수백 년 전 사람들이 새의 비행을 관찰함으로써 비행이 가능하다는 것을 알았던 것처럼 말입니다.
문제는 충분한 차원을 가진 빅데이터가 존재하지 않기 때문에 인공지능에 대한 우리의 접근 방식이 빅데이터를 기반으로 구축될 수 없다는 것입니다. 변수가 너무 많고 차원이 너무 많습니다. 지금 이 순간에도 Google은 전례 없는 8억 건의 검색을 하루에 처리하고 있습니다. 데이터 접근이 얼마나 어려운지 짐작할 수 있는 대목입니다.
구글의 레이 커츠와일은 인간의 뇌를 어느 정도 복제하려는 접근 방식을 따르고 있습니다. 그는 2029년까지 일반화된 지능에 도달하고 매우 어려운 튜링 테스트를 통과할 수 있을 것으로 예상했습니다.
그의 예측은 이 분야의 발전이 기하급수적으로 이루어질 것이라는 가정에 근거한 것이므로, 오늘날의 상대적으로 미미한 발전도 기하급수적인 발전 궤도에 있다고 가정하면 생각보다 훨씬 더 중요한 의미를 갖습니다.
그의 말이 맞는지는 좀 더 두고 봐야겠지만, 분명한 것은 향후 10년 안에 돌파구가 열릴 가능성은 매우 낮다는 것입니다.
기계가 신뢰할 수 있는 튜링 테스트를 통과한다는 것은 무엇을 의미할까요?
마지막으로 기계가 신뢰할 수 있는 튜링 테스트를 통과했다는 것은 무엇을 의미할까요? 기계가 보드 게임에서 인간을 이기는 방식과 유사한 방식으로 일종의 빅데이터 접근 방식을 사용하여 테스트를 통과했다면, 심지어 정교한 게임에서도 기계가 두뇌 복제 접근 방식을 사용하여 통과한 것만큼 그 의미가 크지 않을 것입니다.
두뇌 복제 접근 방식은 기계가 우리가 생각하는 '사고'에 더 가까워질 수 있다는 것을 의미합니다. 기계는 의미를 추론하기 위해 정확한 사례의 수백 가지 예가 필요한 것이 아니라 인간처럼 최소한의 예에서 의미를 추론할 수 있습니다.
위에서 언급했듯이 빅데이터 접근 방식이 불가능하기 때문에 '두뇌 복제' 접근 방식이 돌파구를 제공할 가능성이 더 높습니다. 이는 기계가 대화뿐만 아니라 여러 영역에서 일반적인 지능을 갖추게 될 가능성이 높다는 것을 의미합니다.
이는 사회의 완전한 재설정으로 이어질 가능성이 높기 때문에 그 의미는 아무리 강조해도 지나치지 않습니다. 특히 기계가 의미 있는 방식으로 스스로를 개선할 수 있는 능력을 갖추게 되면 지능이 기하급수적으로 증가하여 우리가 알고 있는 삶을 변화시키는 선순환이 일어날 가능성이 높습니다.
인간과 기계의 상호작용
좀 더 일상적인 문제로 돌아가서, 기계가 인간과 동등하다고 해서 우리가 인간처럼 기계와 상호작용할 수 있다는 의미는 아니라는 점을 명심할 필요가 있습니다. 이는 인간과 똑같습니다. 인간과의 상호작용이 항상 효율적인 것은 아닙니다. 직접 보여 주는 것이 더 쉬운 상황에서 전화로 동료에게 업무 수행 방법을 설명하는 것은 지루하고 비효율적일 수 있습니다. 인간에게 웹을 통해 사용할 수 있는 그래픽 인터페이스가 있다면!
음성 인터페이스(또는 채팅 기반 인터페이스)는 정보의 입력 또는 출력 측면에서 분명 한계가 있습니다. 음성 인터페이스를 사용하는 것보다 그래픽으로 정보를 보여주거나 그래픽 인터페이스를 클릭하는 것이 훨씬 더 효율적인 상황과 한계가 분명히 존재합니다. 따라서 봇 플랫폼은 항상 사용자가 원하는 경로로 돌아가도록 유도하고 대화가 꼬이지 않도록 설계되었습니다.
또한 컴퓨터는 정보를 수신하거나 제공하는 데 사용할 수 있는 인터페이스가 인간처럼 제한되어 있지 않으므로 기계와의 대화에는 반드시 당면한 작업에 가장 적합한 인터페이스를 사용해야 한다는 점을 강조하고 싶습니다.
튜링 테스트 통과는 인간과 컴퓨터의 상호작용 측면에서 큰 이정표가 될 것이지만, 실제 인간과 컴퓨터의 '대화'는 음성과 텍스트에만 국한되지 않을 것입니다.