Masa Depan Big Data adalah Data Kecil

Bayangkan anda ingin membuat perisian untuk melakukan tugas. Terdapat dua cara utama untuk melakukannya dan satu cara pertengahan.

Kaedah kod

Cara pertama ialah memprogram perisian untuk melakukan tugas, yang akan saya panggil "kaedah kod". Dalam kes ini, anda tahu semua interaksi yang boleh berlaku dan menjangkakannya dalam program anda. Contoh yang paling asas ialah urutan "Jika kemudian", di mana anda memberitahu komputer, jika ini berlaku, maka lakukan ini. Sebagai contoh, jika butang ini diklik kemudian tunjukkan skrin ini.

Kaedah kod tidak menggunakan data dan tidak melibatkan latihan. Urutan yang diprogramkan berlaku secara deterministik, tanpa mengira data. Untuk menjadi jelas, program boleh dibuat menggunakan kaedah kod yang ditulis dengan kod sebenar atau menggunakan alat visual atau serupa.

Kaedah kereta api

Cara kedua ialah melatih perisian untuk melakukan tugas menggunakan data besar, yang akan saya panggil "kaedah kereta api". Dalam kes ini, anda menulis algoritma, seperti rangkaian saraf, untuk membolehkan perisian dilatih pada data. Anda kemudian melepaskan perisian pada data dan komputer belajar, melalui gelung maklum balas, bagaimana untuk melakukan tugas itu. Sebagai contoh, anda boleh mengajar perisian untuk mengenali kucing dengan melatihnya pada gambar kucing.

Kaedah kereta api, tentu saja, intipati kecerdasan buatan. Ia dikenali sebagai pendekatan data besar kerana data latihan yang lebih berkualiti tinggi tersedia, semakin baik hasilnya. Terdapat sekurang-kurangnya data latihan yang diperlukan untuk mendapatkan keputusan yang munasabah.

Dalam bentuk yang paling murni, kaedah kereta api boleh menggunakan data yang tidak berstruktur dan pembelajaran itu sendiri berlaku dengan cara yang tidak diselia. Ini bermakna manusia tidak membantu perisian dengan latihan sama sekali.

Algoritma akan belajar daripada konteks tersirat (bukan daripada pelabelan eksplisit) sama ada gambar yang diberikan adalah kucing atau tidak. Sebagai contoh, pengguna biasa platform mungkin dengan cara ad hoc dan spontan meletakkan perkataan kucing dalam perihalan foto mereka, perkataan kucing mungkin dalam artikel di mana gambar itu muncul, atau jika ia adalah video, orang mungkin mengatakan perkataan kucing apabila kucing muncul. Semua data pengguna ini sudah tentu sama sekali tidak berstruktur (yang bermaksud tidak kemas), dan algoritma perlu memikirkan apa kucing dari data yang tidak kemas ini.

Sudah tentu, terdapat kelebihan yang berpotensi besar untuk algoritma yang tidak diawasi. Ini berpotensi bermakna sejumlah besar usaha akan disimpan di pihak manusia dari segi pelabelan dan pengkategorian data. Ia tidak remeh (atau merangsang perkara itu) untuk melabelkan dengan tepat seratus ribu gambar kucing.

Masalahnya

Satu isu utama dengan kaedah kereta api tidak berstruktur ialah ia memerlukan lebih banyak data. Jika data tidak tersedia, ia tidak boleh dilatih dengan cara ini. Pendekatan yang diselia juga memerlukan banyak data, jadi mengalami masalah yang sama.

Ini, tentu saja, sebab mengapa orang mencari peluang untuk menggunakan AI daripada menggunakan AI untuk segala-galanya. Algoritma AI berfungsi paling baik apabila banyak data tersedia untuk latihan (atau mereka boleh menjana banyak data - dalam kes permainan).

Satu lagi masalah dengan pendekatan yang tidak berstruktur dan tidak diselia adalah bahawa lebih sukar untuk menulis dan menguji algoritma pada data yang ada. Algoritma perlu lebih canggih untuk menangani data yang tidak berstruktur daripada yang diperlukan di mana data adalah kemas dan dikategorikan.

Pendekatan yang diselia menambah kesungguhan manusia terhadap proses dari segi bagaimana data dikategorikan namun ia masih merupakan kaedah kereta api, pendekatan data yang besar. Manusia dengan pemahaman algoritma boleh melabelkan data dan dengan berbuat demikian, mengurangkan kerja algoritma.

Kaedah data kecil

Terdapat kaedah yang merupakan gabungan antara kod dan kaedah kereta api yang akan saya panggil "kaedah data kecil". Ini adalah pendekatan data kecil yang saya sebutkan dalam tajuk. Adalah mungkin untuk menggabungkan kedua-dua kod dan teknik kereta api untuk mengurangkan jumlah data yang diperlukan untuk melatih algoritma secara besar-besaran.

Untuk kaedah data kecil, pembangun kod model interaksi tetapi kemudian model ini dilatih pada set data yang lebih kecil daripada yang diperlukan untuk data besar yang didekati. Ini menyebabkan model dilatih lebih cepat daripada yang diperlukan dengan kaedah kereta api tulen.

Sudah tentu pendekatan data kecil ini akan masuk akal jika masa yang diperlukan untuk kod model dan melatih data jauh lebih rendah daripada masa yang diperlukan untuk mengumpulkan data dan melatih algoritma.

Terdapat senario di mana penyelesaian data kecil akan membolehkan kita melakukan perkara-perkara yang tidak dapat dilaksanakan pada masa ini. Kaedah data kecil adalah satu-satunya kaedah yang tersedia jika data yang diperlukan untuk kaedah kereta api tidak wujud di tempat pertama. Dalam kes ini algoritma perlu dilatih pada data yang dibuat secara manual. Ia biasanya tidak praktikal untuk mencipta puluhan ribu rekod dengan tangan.

Pendekatan data kecil sedang diteliti oleh syarikat AI termasuk botpress.io, dan saya menjangkakan ia akan menjadi teknik arus perdana pada tahun-tahun akan datang.

Senarai Kandungan

Langkah 1. Tajuk langkah pergi ke sini seperti yang diharapkan

Kekal terkini dengan chatbots AI terkini

Kongsi ini pada:

Masa Depan Big Data adalah Data Kecil

Kaedah kod

Kaedah kereta api

Masalahnya

Kaedah data kecil

Membuka kunci Kuasa ChatGPT: Siri Video Komprehensif Membina A ChatGPT Chatbot resipi

Chatbots untuk industri perkilangan | Kes Faedah & Penggunaan

Apa itu Chatbot Analytics? Ketahui lebih lanjut tentang analisis chatbot dan metrik chatbot utama

Bina Lebih Baik dengan Botpress