Ang Kinabukasan ng Malaking Data ay Maliit na Data

Isipin na gusto mong lumikha ng software upang makagawa ng isang gawain. Mayroong dalawang pangunahing paraan upang gawin ito at isang intermediate na paraan.

Ang pamamaraan ng code

Ang unang paraan ay ang programa ng software upang gawin ang gawain, na tatawagin kong "paraan ng code". Sa kasong ito, alam mo ang lahat ng mga pakikipag-ugnayan na maaaring mangyari at inaasahan ang mga ito sa iyong programa. Ang pinakapangunahing halimbawa nito ay ang sequence na "Kung noon", kung saan sasabihin mo sa computer, kung mangyari ito, pagkatapos ay gawin ito. Halimbawa, kung ang button na ito ay na-click pagkatapos ay ipakita ang screen na ito.

Ang pamamaraan ng code ay hindi gumagamit ng data at hindi nagsasangkot ng pagsasanay. Ang naka-program na sequence ay nangyayari nang deterministiko, anuman ang data. Upang maging malinaw, maaaring malikha ang mga programa gamit ang paraan ng code na nakasulat gamit ang aktwal na code o gamit ang visual o katulad na mga tool.

Ang pamamaraan ng tren

Ang pangalawang paraan ay ang sanayin ang software upang gawin ang gawain gamit ang malaking data, na tatawagin kong "paraan ng tren". Sa kasong ito, sumulat ka ng isang algorithm, tulad ng isang neural network , upang payagan ang software na sanayin sa data. Pagkatapos ay ilalabas mo ang software sa data at matututunan ng computer, sa pamamagitan ng feedback loop, kung paano gawin ang gawain. Halimbawa, maaari mong turuan ang software na kilalanin ang mga pusa sa pamamagitan ng pagsasanay nito sa mga larawan ng pusa.

Ang paraan ng tren ay, siyempre, ang kakanyahan ng artificial intelligence . Kilala ito bilang diskarte sa malaking data dahil mas mataas ang kalidad na data ng pagsasanay na magagamit, mas magiging maganda ang resulta. Mayroong minimum na data ng pagsasanay na kinakailangan upang makakuha ng mga makatwirang resulta.

Sa pinakadalisay nitong anyo, ang paraan ng tren ay maaaring gumamit ng hindi nakaayos na data at ang pag-aaral mismo ay nangyayari sa isang hindi pinangangasiwaang paraan. Nangangahulugan ito na hindi tinutulungan ng mga tao ang software sa pagsasanay.

Matututo ang algorithm mula sa implicit na konteksto (hindi mula sa tahasang pag-label) kung ang isang larawan ay isang pusa o hindi. Halimbawa, ang mga ordinaryong gumagamit ng isang platform ay maaaring sa isang ad hoc at kusang paraan na ilagay ang salitang pusa sa paglalarawan ng kanilang larawan, ang salitang pusa ay maaaring nasa artikulo kung saan lumalabas ang larawan, o kung ito ay isang video, maaaring sabihin ng mga tao. ang salitang pusa kapag lumitaw ang pusa. Ang lahat ng data ng user na ito ay siyempre ganap na hindi nakaayos (na nangangahulugang magulo), at ang algorithm ay kailangang malaman kung ano ang isang pusa mula sa magulo na data na ito.

Siyempre, may mga potensyal na malaking pakinabang sa isang algorithm na hindi sinusubaybayan. Posibleng nangangahulugan ito ng malaking pagsisikap na matitipid sa bahagi ng mga tao sa mga tuntunin ng pag-label at pagkakategorya ng data. Hindi mahalaga (o nagpapasigla para sa bagay na iyon) na tumpak na lagyan ng label ang isang daang libong larawan ng mga pusa.

Ang mga problema

Ang isang pangunahing isyu sa hindi nakaayos na paraan ng tren ay nangangailangan ito ng mas maraming data. Kung hindi available ang data, hindi ito maaaring sanayin sa ganitong paraan. Ang mga pinangangasiwaang diskarte ay nangangailangan din ng maraming data, kaya magdusa mula sa parehong problema.

Ito ay, siyempre, ang dahilan kung bakit ang mga tao ay naghahanap ng mga pagkakataon upang ilapat ang AI sa halip na ilapat ang AI sa lahat. Ang mga algorithm ng AI ay pinakamahusay na gumagana kapag maraming data ang magagamit para sa pagsasanay (o maaari silang bumuo ng maraming data - sa kaso ng mga laro).

Ang isa pang problema sa unstructured, unsupervised approach ay mas mahirap isulat at subukan ang algorithm sa data na nasa kamay. Ang algorithm ay kailangang maging mas sopistikado upang makitungo sa hindi nakaayos na data kaysa sa kung saan ang data ay maayos at nakategorya.

Ang isang pinangangasiwaang diskarte ay nagdaragdag ng intensyonalidad ng tao sa proseso sa mga tuntunin ng kung paano ikinategorya ang data gayunpaman ito ay isang paraan ng tren, isang malaking diskarte sa data. Maaaring lagyan ng label ng mga taong may pag-unawa sa mga algorithm ang data at sa pamamagitan nito, bawasan ang gawain ng algorithm.

Ang maliit na paraan ng data

Mayroong isang pamamaraan na isang timpla sa pagitan ng code at mga pamamaraan ng tren na tatawagin kong "maliit na paraan ng data". Ito ang maliit na diskarte sa data na binanggit ko sa pamagat. Posibleng pagsamahin ang parehong code at mga diskarte sa tren upang lubos na bawasan ang dami ng data na kailangan para sanayin ang isang algorithm.

Para sa paraan ng maliit na data, ang isang developer ay nag-code ng isang modelo ng mga pakikipag-ugnayan ngunit ang modelong ito ay sinanay sa isang mas maliit na set ng data kaysa sa kinakailangan para sa malaking data na nilapitan. Nagreresulta ito sa pag-train ng modelo nang mas mabilis kaysa sa kinakailangan sa purong paraan ng tren.

Siyempre, ang maliit na diskarte sa data na ito ay magkakaroon ng katuturan kung ang oras na kailangan para i-code ang modelo at sanayin ang data ay mas mababa kaysa sa oras na kakailanganin upang tipunin ang data at sanayin ang algorithm.

May mga sitwasyon kung saan ang maliit na solusyon sa data ay magbibigay-daan sa amin na gumawa ng mga bagay na kasalukuyang hindi magagawa. Ang paraan ng maliit na data ay ang tanging paraan na magagamit kung ang data na kinakailangan para sa paraan ng tren ay hindi umiiral sa unang lugar. Sa kasong ito, kailangang sanayin ang algorithm sa data na manu-manong ginawa. Karaniwang hindi praktikal na lumikha ng sampu-sampung libong talaan sa pamamagitan ng kamay.

Ang maliit na diskarte sa data ay kasalukuyang sinasaliksik ng mga kumpanya ng AI kabilang ang botpress .io , at inaasahan kong magiging pangunahing pamamaraan ito sa mga darating na taon.

Talaan ng mga Nilalaman

Hakbang 1. ang pamagat ng hakbang ay napupunta dito gaya ng inaasahan

Manatiling napapanahon sa mga pinakabago sa AI chatbots

Ibahagi ito sa:

Ang Kinabukasan ng Malaking Data ay Maliit na Data

Ang pamamaraan ng code

Ang pamamaraan ng tren

Ang mga problema

Ang maliit na paraan ng data

Pag-unlock sa Kapangyarihan ng ChatGPT : Isang Komprehensibong Serye ng Video sa Pagbuo a ChatGPT Recipe Chatbot

Mga Chatbot para sa industriya ng pagmamanupaktura | Mga Benepisyo at Kaso ng Paggamit

Ano ang Chatbot Analytics? Matuto pa tungkol sa chatbot analytics at mga pangunahing sukatan ng chatbot

Bumuo ng Mas mahusay na may Botpress