어떤 작업을 수행하기 위한 소프트웨어를 만들고 싶다고 가정해 봅시다. 이를 수행하는 두 가지 주요 방법과 한 가지 중간 방법이 있습니다.
코드 메서드
첫 번째 방법은 작업을 수행하도록 소프트웨어를 프로그래밍하는 것인데, 이를 "코드 방법"이라고 부릅니다. 이 경우 발생할 수 있는 모든 상호 작용을 알고 프로그램에서 이를 예상할 수 있습니다. 가장 기본적인 예는 컴퓨터에 "이런 일이 발생하면 이렇게 하세요"라고 말하는 "If then" 시퀀스입니다. 예를 들어 이 버튼을 클릭하면 이 화면을 표시합니다.
코드 방식은 데이터를 사용하지 않으며 학습이 필요하지 않습니다. 프로그래밍된 시퀀스는 데이터에 관계없이 결정론적으로 발생합니다. 명확하게 말하면, 프로그램은 실제 코드로 작성된 코드 방식이나 시각적 또는 유사한 도구를 사용하여 만들 수 있습니다.
기차 방법
두 번째 방법은 빅 데이터를 사용하여 작업을 수행하도록 소프트웨어를 훈련시키는 것인데, 이를 '훈련 방법'이라고 부릅니다. 이 경우 신경망과 같은 알고리즘을 작성하여 소프트웨어가 데이터에 대해 학습할 수 있도록 합니다. 그런 다음 데이터에 소프트웨어를 실행하면 컴퓨터가 피드백 루프를 통해 작업을 수행하는 방법을 학습합니다. 예를 들어, 고양이 사진으로 소프트웨어를 학습시켜 고양이를 인식하도록 가르칠 수 있습니다.
물론 훈련 방식은 인공지능의 핵심입니다. 양질의 학습 데이터가 많을수록 더 나은 결과를 얻을 수 있기 때문에 빅데이터 접근법이라고도 합니다. 합리적인 결과를 얻기 위해서는 최소한의 학습 데이터가 필요합니다.
가장 순수한 형태의 훈련 방법은 비정형 데이터를 사용할 수 있으며 학습 자체는 감독되지 않은 방식으로 이루어집니다. 즉, 사람이 소프트웨어의 학습을 전혀 돕지 않는다는 뜻입니다.
알고리즘은 명시적인 라벨링이 아닌 암묵적인 맥락을 통해 특정 사진이 고양이 사진인지 아닌지를 학습합니다. 예를 들어, 플랫폼의 일반 사용자는 사진 설명에 고양이라는 단어를 즉흥적이고 즉흥적으로 넣을 수도 있고, 사진이 등장하는 기사에 고양이라는 단어가 있을 수도 있으며, 동영상인 경우 사람들이 고양이가 등장할 때 고양이라는 단어를 말할 수도 있습니다. 물론 이 모든 사용자 데이터는 완전히 구조화되지 않은(즉, 지저분하다는 의미) 데이터이며, 알고리즘은 이 지저분한 데이터에서 고양이가 무엇인지 파악해야 합니다.
물론 알고리즘이 감독되지 않으면 잠재적으로 큰 이점이 있습니다. 즉, 데이터에 라벨을 붙이고 분류하는 데 드는 사람의 수고를 크게 줄일 수 있습니다. 10만 장에 달하는 고양이 사진에 정확하게 라벨을 붙이는 일은 결코 사소한 일이 아닙니다.
문제
비정형 학습 방법의 주요 문제 중 하나는 훨씬 더 많은 데이터가 필요하다는 것입니다. 데이터를 사용할 수 없는 경우 이 방법으로 학습할 수 없습니다. 지도 방식 역시 많은 데이터가 필요하기 때문에 같은 문제를 겪습니다.
물론 이것이 사람들이 모든 것에 AI를 적용하기보다는 AI를 적용할 기회를 찾고 있는 이유입니다. AI 알고리즘은 학습에 사용할 수 있는 데이터가 많을 때(또는 게임의 경우 많은 데이터를 생성할 수 있을 때) 가장 잘 작동합니다.
비정형, 비지도 접근 방식의 또 다른 문제점은 당면한 데이터에 대해 알고리즘을 작성하고 테스트하기가 훨씬 어렵다는 것입니다. 데이터가 깔끔하게 분류되어 있는 경우보다 비정형 데이터를 처리하기 위해 알고리즘이 더 정교해야 합니다.
지도 방식은 데이터를 분류하는 방식에 사람의 의도를 추가하지만, 여전히 빅 데이터 접근 방식인 훈련 방식에 가깝습니다. 알고리즘에 대한 이해가 있는 사람이 데이터에 레이블을 지정할 수 있으며, 이를 통해 알고리즘의 작업을 줄일 수 있습니다.
스몰 데이터 방법
코드와 훈련 방법을 혼합한 방법이 있는데, 이를 '스몰 데이터 방법'이라고 부릅니다. 이것이 바로 제가 제목에서 언급한 스몰 데이터 접근 방식입니다. 코드와 훈련 기법을 모두 결합하여 알고리즘을 훈련하는 데 필요한 데이터의 양을 크게 줄일 수 있습니다.
스몰 데이터 방법의 경우 개발자는 상호작용 모델을 코딩하지만, 이 모델은 빅 데이터 접근 방식에 필요한 것보다 훨씬 작은 데이터 세트로 학습됩니다. 따라서 순수 훈련 방식보다 훨씬 빠르게 모델을 훈련할 수 있습니다.
물론 이러한 스몰 데이터 접근 방식은 모델을 코딩하고 데이터를 학습시키는 데 필요한 시간이 데이터를 수집하고 알고리즘을 학습시키는 데 걸리는 시간보다 훨씬 적을 때 의미가 있습니다.
스몰 데이터 솔루션을 사용하면 현재로서는 불가능한 일을 할 수 있는 시나리오가 있습니다. 스몰 데이터 방식은 학습 방식에 필요한 데이터가 처음부터 존재하지 않는 경우에 사용할 수 있는 유일한 방법입니다. 이 경우 알고리즘은 수동으로 생성된 데이터로 학습해야 합니다. 수만 개의 레코드를 수작업으로 생성하는 것은 일반적으로 실용적이지 않습니다.
스몰 데이터 접근 방식은 현재 botpress.io를 비롯한 AI 회사에서 연구 중이며, 앞으로 몇 년 안에 주류 기술이 될 것으로 예상합니다.
공유하세요:
AI에 대한 최신 정보를 확인하세요. chatbots