LLMs sedang mengubah cara kami membina penyelesaian AI. Model yang lebih baharu dan lebih baik dikeluarkan sepanjang masa.
Soalan yang sering saya tanya ialah mengapa seseorang harus memilih adat LLM bukannya penyelesaian siap sedia?
Jika anda sedang mengusahakan projek AI, seperti membina ejen AI atau AI chatbot , anda mungkin memilih untuk menggunakan model bahasa besar tersuai ( LLM ).
Terdapat banyak sebab untuk menggunakan adat LLM , dan banyak pilihan yang anda boleh gunakan. Dalam artikel ini, saya akan membimbing anda melalui cara yang berbeza untuk menyesuaikan LLM untuk projek AI.
Mengapa menggunakan adat LLM ?
Terdapat beberapa sebab untuk menggunakan adat LLM :
- Anda ingin mengurangkan kos dengan memfokuskan pada tugas tertentu yang penting untuk kes penggunaan perniagaan anda atau meminimumkan kependaman.
- Anda mungkin mahu merahsiakan semua data atau menggunakan data dalaman syarikat anda LLM .
- Anda mungkin ingin meningkatkan kualiti jawapan untuk tugasan tertentu.
Walau apa pun sebabnya, sesuaikan anda LLM membolehkan anda mengoptimumkan prestasi, mengimbangi ketepatan, kelajuan dan kos agar sesuai dengan keperluan perniagaan anda.
Memilih sebuah LLM
LLMs mempunyai dua kualiti yang memberi kesan kepada projek AI: saiznya (diukur mengikut bilangan parameter) dan kualiti respons.
Anda boleh memikirkan parameter seperti neuron dalam otak. Otak yang lebih besar sering dikaitkan dengan menjadi pintar, tetapi itu tidak selalu benar. Dan bahagian otak boleh sangat dioptimumkan untuk tugas tertentu seperti penglihatan.
Untuk projek AI, saiz biasanya mempengaruhi kelajuan tindak balas, dan ia sangat mempengaruhi tindak balas kos. Projek yang memerlukan kependaman rendah selalunya menggunakan model yang lebih kecil, tetapi dengan mengorbankan kualiti respons.
Apa yang perlu ditanya apabila memilih model
Berikut ialah senarai soalan yang bagus untuk dapat dijawab semasa memilih model:
- Bolehkah saya menggunakan berasaskan awan LLM atau adakah saya perlu menjadi hos sendiri?
- Seberapa pantas saya memerlukan respons?
- Sejauh manakah saya memerlukan jawapan yang tepat?
- Berapakah $$ yang akan disimpan dan/atau dijana oleh projek saya? Kemudian, berapa harga yang sepatutnya jatuh di bawah?
- Berapa lama saya memerlukan respons saya?
Secara umumnya, sukar untuk mempercepatkan model berkuasa atau mengurangkan kosnya, dan lebih mudah untuk menambah baik model yang kurang tepat.
Walau bagaimanapun, adalah lebih cepat untuk bermula dengan model yang berkuasa, dan jika ia memenuhi keperluan projek anda, anda mungkin tidak memerlukan banyak usaha kejuruteraan (tambahan, ia lebih mudah untuk diselenggara).
Memilih Antara RAG, Penalaan Halus, Pembelajaran N-Shot dan Kejuruteraan Segera
Terdapat lima konsep umum yang meningkatkan kualiti LLM jawapan:
- Bermula daripada model terlatih
- RAG
- Penalaan halus
- Gesaan N-shot
- Kejuruteraan segera
Ini tidak khusus untuk menggunakan model tersuai, tetapi anda harus mempertimbangkannya tanpa mengira, kerana ia berfungsi seiring antara satu sama lain.
Bermula dari model
Perkara pertama yang perlu anda lakukan ialah memilih model permulaan. Terdapat banyak papan pendahulu dalam talian yang membandingkan model yang berbeza.
Sebagai contoh:
- Hugging Face mengekalkan papan pendahulu untuk model sumber terbuka .
- Vellum mempunyai yang terbaik untuk model yang lebih popular .
Jika syarikat anda mempunyai model dalaman, pertimbangkan untuk menggunakannya untuk bekerja dengan belanjawan anda dan memastikan data peribadi. Jika anda perlu mengehos model itu sendiri, pertimbangkan model sumber terbuka .
Penalaan halus
Penalaan halus melibatkan penyediaan contoh kepada model anda supaya model anda belajar cara melakukan tugasan tertentu dengan baik. Jika anda ingin ia cemerlang dalam bercakap tentang produk anda, anda mungkin memberikan beberapa contoh panggilan jualan terbaik syarikat anda.
Jika model adalah sumber terbuka, tanya diri anda sama ada pasukan anda mempunyai kapasiti kejuruteraan yang mencukupi untuk memperhalusi model.
Jika model adalah sumber tertutup dan disediakan sebagai perkhidmatan – GPT -4 atau Claude – maka anda biasanya boleh meminta jurutera anda memperhalusi model tersuai menggunakan API. Harga biasanya meningkat dengan ketara melalui kaedah ini, tetapi terdapat sedikit atau tiada penyelenggaraan.
Tetapi untuk kebanyakan kes penggunaan, penalaan halus bukanlah langkah pertama ke arah mengoptimumkan model anda.
Kes yang bagus untuk penalaan halus ialah membina bot pengetahuan untuk pengetahuan statik. Dengan memberikan contoh soalan dan jawapan, ia sepatutnya dapat menjawabnya pada masa hadapan tanpa melihat jawapannya. Tetapi ia bukan penyelesaian praktikal untuk maklumat masa nyata.
Penjanaan penambahan semula
RAG ialah nama yang menarik untuk perkara mudah yang telah kita semua lakukan ChatGPT : menampal beberapa teks ke dalam ChatGPT dan bertanyakan soalan mengenainya.
Contoh biasa ialah bertanya sama ada produk tertentu ada dalam stok di tapak e-dagang dan chatbot mencari maklumat dalam katalog produk (bukannya internet yang lebih luas).
Dari segi kepantasan pembangunan, dan mendapatkan maklumat masa nyata, RAG mesti dimiliki.
Ia biasanya tidak menjejaskan model yang akan anda pilih, namun tiada apa yang menghalang anda daripada mencipta LLM Titik akhir API yang menanyakan maklumat dan jawapan serta menggunakan titik akhir ini seolah-olah ia miliknya sendiri LLM .
Menggunakan RAG untuk chatbot berasaskan pengetahuan selalunya lebih mudah untuk diselenggara, kerana anda tidak perlu memperhalusi model dan memastikannya dikemas kini – yang juga boleh mengurangkan kos.
Pembelajaran N-shot
Cara terpantas untuk bermula dalam meningkatkan kualiti respons adalah dengan memberikan contoh dalam satu LLM Panggilan API.
Tembakan sifar – memberikan sifar contoh perkara yang anda cari dalam jawapan – ialah cara kebanyakan kita menggunakan ChatGPT . Menambah satu contoh (atau satu pukulan) biasanya cukup untuk melihat peningkatan yang ketara dalam kualiti tindak balas.
Lebih daripada satu contoh dianggap n-shot. N-shot tidak mengubah model, tidak seperti penalaan halus. Anda hanya memberi contoh sejurus sebelum meminta jawapan, setiap kali anda bertanya soalan.
Tetapi strategi ini tidak boleh digunakan secara berlebihan: LLM model mempunyai saiz konteks maksimum, dan harga mengikut saiz mesej. Penalaan halus boleh menghilangkan keperluan untuk contoh n-shot, tetapi mengambil lebih banyak masa untuk diperbaiki.
Teknik kejuruteraan segera yang lain
Terdapat teknik kejuruteraan segera yang lain, seperti rantaian pemikiran , yang memaksa model untuk berfikir dengan lantang sebelum menghasilkan jawapan.
Ini meningkatkan kualiti tindak balas, tetapi pada kos panjang, kos dan kelajuan tindak balas.
cadangan saya
Walaupun setiap projek mempunyai keperluan uniknya sendiri, saya akan memberikan dua sen saya pada pendekatan yang kukuh.
Tempat yang baik untuk bermula ialah menggunakan model luar biasa yang mengimbangi kelajuan dan kualiti, seperti GPT -4o Mini. Mulakan dengan melihat kualiti respons, kelajuan tindak balas, kos, keperluan tetingkap konteks dan tentukan perkara yang perlu diperbaiki dari situ.
Kemudian, dengan kes penggunaan yang sempit, anda boleh mencuba beberapa kejuruteraan segera yang mudah, diikuti dengan RAG, dan akhirnya penalaan halus. Setiap model yang melalui ini akan mendapat peningkatan prestasi, jadi sukar untuk mengetahui perkara yang hendak digunakan.
Pertimbangan Privasi
Dalam dunia yang ideal, setiap LLM akan menjadi 100% di bawah kawalan anda sendiri, dan tiada apa yang akan didedahkan di mana-mana sahaja.
Malangnya, ini bukan perkara yang kami perhatikan dalam amalan – dan atas sebab yang sangat baik.
Yang pertama adalah mudah: ia memerlukan kejuruteraan untuk mengehoskan dan menyelenggara model tersuai, yang sangat mahal. Apabila model yang dihoskan mengalami masa berhenti, metrik perniagaan terjejas, jadi penggunaan harus sangat kukuh.
Sebab lain ialah pemimpin industri - suka OpenAI , Google dan Anthropic – sentiasa mengeluarkan model yang lebih baharu, lebih berkebolehan dan lebih murah yang menjadikan sebarang kerja pada penalaan halus menjadi berlebihan. Ini telah berlaku sejak dikeluarkan ChatGPT 3.5 dan tidak menunjukkan tanda-tanda perubahan.
Jika kes penggunaan anda mempunyai data yang sangat sensitif, adalah wajar untuk menggunakan model dan mengoptimumkannya untuk kes penggunaan anda. Jika GDPR adalah yang paling bijak, terdapat banyak model luar biasa yang mematuhi GDPR .
Membina selepas memilih anda LLM
Sebaik sahaja anda telah memilih satu LLM , anda boleh mula memikirkan cara anda membina dan mengekalkan projek AI anda. Sebagai contoh, saya akan mengambil jenis projek yang paling saya kenali: ejen AI atau AI chatbot .
Anda boleh menjawab soalan berikut untuk skop projek anda:
- Di manakah saya mahu ejen AI saya tinggal? ( Slack , WhatsApp , widget tapak web, dsb.)
- Apakah ilmu yang sepatutnya ada, dimanakah ilmu itu?
- Apakah keupayaan yang perlu ada selain daripada menjawab pengetahuan, jika ada?
- Sekiranya ia diaktifkan apabila sesuatu berlaku di suatu tempat dalam perniagaan?
Offload kejuruteraan untuk menjimatkan $
Mengekalkan belanjawan yang rendah adalah penting dalam merealisasikan projek anda. Salah satu cara yang boleh anda lakukan ialah mengurangkan masa kejuruteraan dengan menyahganding keperluan.
Pada masa kini kami mempunyai akses kepada penyelesaian kod rendah seperti Flutterflow, Shopify, yang boleh digunakan oleh peranan tradisional bukan teknikal seperti Pengurus Produk. Chatbots tidak terkecuali, dan beberapa platform automasi AI malah membenarkan anda menggunakan LLM anda sendiri .
Anda boleh mengarahkan jurutera untuk memberi tumpuan kepada pengehosan LLM dan menyediakan dengan platform automasi. Itu membebaskan penganalisis perniagaan, pengurus produk dan peranan lain yang berkaitan untuk membina ejen AI yang memenuhi keperluan perniagaan.
Apabila sesuatu tambahan diperlukan, platform ini biasanya mempunyai cara untuk jurutera menambah beberapa kod. Dengan cara ini, anda mengekalkan kelebihan model tersuai, dan memperoleh fleksibiliti, kelajuan dan kemampuan.
Memberi kebebasan kejuruteraan untuk menyelesaikan masalah perniagaan
Sebaliknya, kadangkala masalah perniagaan sangat sukar untuk diselesaikan.
Kami bercakap tentang jurang rangkaian sepenuhnya LLM aplikasi, apl pada peranti atau projek yang memerlukan keupayaan yang sangat maju kepada bot sembang yang lebih daripada menyegerakkan data antara dua platform.
Dalam kes tersebut, memberi kebebasan kepada jurutera untuk menggunakan apa sahaja alatan yang paling selesa bagi mereka adalah masuk akal. Ini biasanya hanya menulis kod, dan pihak berkepentingan hanya bertindak sebagai pengurus projek.
Pertimbangan strategik untuk menyesuaikan an LLM
Memilih adat LLM untuk projek AI anda bukan hanya tentang memilih model terbaik – ia tentang membuat keputusan strategik yang selaras dengan matlamat anda.
Model tersuai menawarkan fleksibiliti, kawalan dan potensi untuk mengoptimumkan untuk tugasan tertentu, tetapi ia juga datang dengan kerumitan tambahan. Mulakan dengan model luar biasa, bereksperimen dengan kejuruteraan segera, dan perbaiki secara beransur-ansur dari sana.
Ingat, model yang betul harus sesuai dengan keperluan perniagaan anda, bukan hanya teknologi anda stack .
Menyesuaikan dengan platform yang berkuasa
Bersedia untuk meningkatkan projek AI anda?
Botpress ialah platform ejen AI yang boleh dikembangkan sepenuhnya dan fleksibel. kami stack membolehkan pembangun membina chatbots dan ejen AI untuk sebarang kemungkinan kes penggunaan.
Kami menampilkan platform pendidikan yang mantap, Botpress Academy, serta saluran YouTube terperinci. Kami Discord Menganjurkan lebih daripada 20,000+ pembina bot, jadi anda sentiasa boleh mendapatkan sokongan yang anda perlukan.
Mula membina hari ini. Ia percuma.
Senarai Kandungan
Ikuti perkembangan terkini tentang ejen AI
Kongsi ini pada: