LLMs mengubah cara kami membangun solusi AI. Model-model yang lebih baru dan lebih baik terus dirilis setiap saat.
Sebuah pertanyaan yang sering saya tanyakan adalah mengapa seseorang harus memilih LLM kustom daripada solusi yang sudah jadi?
Jika Anda sedang mengerjakan proyek AI, seperti membuat agen AI atau chatbot AI, Anda dapat memilih untuk menggunakan model bahasa besar yang disesuaikan (LLM).
Ada banyak alasan untuk menggunakan LLM kustom, dan banyak pilihan yang dapat Anda gunakan. Dalam artikel ini, saya akan memandu Anda melalui berbagai cara untuk menyesuaikan LLM untuk proyek-proyek AI.
Mengapa menggunakan LLM khusus?
Ada beberapa alasan untuk menggunakan LLM khusus:
- Anda ingin mengurangi biaya dengan berfokus pada tugas tertentu yang penting untuk kasus penggunaan bisnis Anda, atau meminimalkan latensi.
- Anda mungkin ingin menyimpan semua data secara pribadi, atau menggunakan LLM internal perusahaan Anda.
- Anda mungkin ingin meningkatkan kualitas jawaban untuk tugas tertentu.
Apa pun alasannya, menyesuaikan LLM Anda memungkinkan Anda untuk mengoptimalkan kinerja, menyeimbangkan akurasi, kecepatan, dan biaya agar sesuai dengan kebutuhan bisnis Anda.
Memilih LLM
LLMs memiliki dua kualitas yang memengaruhi proyek AI: ukurannya (diukur dengan jumlah parameter), dan kualitas respons.
Anda bisa membayangkan parameter seperti neuron dalam otak. Otak yang lebih besar sering dikaitkan dengan kepintaran, tetapi itu tidak selalu benar. Dan bagian-bagian otak dapat sangat dioptimalkan untuk tugas-tugas tertentu seperti penglihatan.
Untuk proyek AI, ukuran biasanya memengaruhi kecepatan respons, dan ini sangat memengaruhi respons biaya. Proyek yang membutuhkan latensi rendah sering kali menggunakan model yang lebih kecil, tetapi dengan mengorbankan kualitas respons.
Apa yang harus ditanyakan saat memilih model
Berikut ini daftar pertanyaan yang bagus untuk dijawab ketika memilih model:
- Dapatkah saya menggunakan LLM berbasis cloud atau apakah saya perlu meng-host sendiri?
- Seberapa cepat tanggapan yang saya butuhkan?
- Seberapa akurat tanggapan yang saya butuhkan?
- Berapa banyak $$ yang akan dihemat dan/atau dihasilkan oleh proyek saya? Lalu, berapa harga yang seharusnya di bawahnya?
- Berapa lama waktu yang saya perlukan untuk menjawab pertanyaan saya?
Secara umum, memang sulit untuk mempercepat model yang dahsyat atau mengurangi biayanya, dan lebih mudah memperbaiki model yang kurang akurat.
Namun demikian, akan jauh lebih cepat untuk memulai dengan model yang tangguh, dan jika model ini memenuhi kebutuhan proyek Anda, Anda mungkin tidak memerlukan banyak upaya rekayasa (ditambah lagi, lebih mudah untuk memeliharanya).
Memilih Antara RAG, Fine-Tuning, N-Shot Learning, dan Prompt Engineering
Ada lima konsep umum yang dapat meningkatkan kualitas tanggapan LLM :
- Mulai dari model yang sudah terlatih
- RAG
- Penyetelan halus
- Petunjuk bidikan N
- Rekayasa yang cepat
Ini tidak spesifik untuk menggunakan model khusus, tetapi Anda harus mempertimbangkannya, karena keduanya saling mendukung satu sama lain.
Dimulai dari seorang model
Hal pertama yang harus Anda lakukan adalah memilih model awal. Ada banyak papan peringkat online yang membandingkan berbagai model.
Sebagai contoh:
- Hugging Face mempertahankan papan peringkat untuk model open source.
- Vellum memiliki satu yang sangat bagus untuk model yang lebih populer.
Jika perusahaan Anda memiliki model internal, pertimbangkan untuk menggunakannya sesuai dengan anggaran Anda dan menjaga kerahasiaan data. Jika Anda perlu meng-host sendiri model ini, pertimbangkan model sumber terbuka.
Penyempurnaan
Penyempurnaan melibatkan pemberian contoh kepada model Anda sehingga model tersebut dapat belajar bagaimana melakukan tugas tertentu dengan baik. Jika Anda ingin model tersebut unggul dalam berbicara tentang produk Anda, Anda dapat memberikan beberapa contoh panggilan penjualan terbaik perusahaan Anda.
Jika modelnya open source, tanyakan pada diri Anda sendiri apakah tim Anda memiliki kapasitas teknik yang cukup untuk menyempurnakan model.
Jika modelnya adalah sumber tertutup dan disediakan sebagai layanan - GPT-4 atau Claude - maka Anda biasanya dapat meminta teknisi Anda untuk menyempurnakan model khusus menggunakan API. Harga biasanya meningkat secara substansial melalui metode ini, tetapi hanya sedikit atau bahkan tidak ada pemeliharaan.
Tetapi, untuk banyak kasus penggunaan, penyempurnaan bukanlah langkah pertama untuk mengoptimalkan model Anda.
Contoh kasus yang bagus untuk menyempurnakan adalah membangun bot pengetahuan untuk pengetahuan statis. Dengan memberikan contoh pertanyaan dan jawaban, bot seharusnya dapat menjawabnya di masa mendatang tanpa perlu mencari jawabannya. Tetapi ini bukan solusi praktis untuk informasi waktu nyata.
Generasi yang ditingkatkan pengambilannya
RAG adalah nama yang bagus untuk hal sederhana yang telah kita semua lakukan di ChatGPT: menempelkan beberapa teks ke ChatGPT dan mengajukan pertanyaan tentang hal tersebut.
Contoh umumnya adalah menanyakan apakah produk tertentu tersedia di situs e-commerce, dan chatbot akan mencari informasinya di katalog produk (alih-alih di internet).
Dalam hal kecepatan pengembangan, dan mendapatkan informasi waktu nyata, RAG harus dimiliki.
Hal ini biasanya tidak memengaruhi model mana yang akan Anda pilih, namun tidak ada yang menghentikan Anda untuk membuat endpoint API LLM yang menanyakan informasi dan menjawab serta menggunakan endpoint ini seolah-olah itu adalah endpoint-nya sendiri LLM.
Menggunakan RAG untuk chatbot berbasis pengetahuan sering kali lebih mudah untuk dipelihara, karena Anda tidak perlu menyempurnakan model dan terus memperbaruinya - yang juga dapat mengurangi biaya.
Pembelajaran N-shot
Cara tercepat untuk memulai meningkatkan kualitas respons adalah dengan memberikan contoh dalam satu panggilan API LLM .
Zero-shot - memberikan nol contoh dari apa yang Anda cari dalam sebuah jawaban - adalah cara sebagian besar dari kita menggunakan ChatGPT. Menambahkan satu contoh (atau satu bidikan) biasanya cukup untuk melihat peningkatan substansial dalam kualitas jawaban.
Lebih dari satu contoh dianggap sebagai n-shot. N-shot tidak mengubah model, tidak seperti fine-tuning. Anda hanya memberikan contoh sebelum meminta tanggapan, setiap kali mengajukan pertanyaan.
Tetapi strategi ini tidak bisa digunakan secara berlebihan: model LLM memiliki ukuran konteks maksimum, dan harganya sesuai dengan ukuran pesan. Penyempurnaan dapat menghilangkan kebutuhan akan contoh n-shot, tetapi memerlukan lebih banyak waktu untuk memperbaikinya.
Teknik rekayasa cepat lainnya
Ada teknik rekayasa cepat lainnya, seperti rantai pemikiran, yang memaksa model untuk berpikir keras sebelum memberikan jawaban.
Hal ini meningkatkan kualitas respons, tetapi dengan mengorbankan panjangnya respons, biaya dan kecepatan.
Rekomendasi saya
Meskipun setiap proyek akan memiliki kebutuhan uniknya sendiri, saya akan memberikan dua pendapat saya tentang pendekatan yang kuat.
Tempat yang baik untuk memulai adalah dengan menggunakan model siap pakai yang menyeimbangkan kecepatan dan kualitas, seperti GPT-4o Mini. Mulailah dengan melihat kualitas respons, kecepatan respons, biaya, kebutuhan jendela konteks, dan putuskan apa yang perlu ditingkatkan dari sana.
Kemudian, dengan kasus penggunaan yang sempit, Anda bisa mencoba beberapa rekayasa prompt sederhana, diikuti oleh RAG, dan akhirnya fine-tuning. Setiap model yang melalui semua ini akan memiliki peningkatan performa, sehingga bisa jadi sulit untuk menentukan apa yang harus digunakan.
Pertimbangan Privasi
Di dunia yang ideal, setiap LLM akan 100% berada di bawah kendali Anda sendiri, dan tidak ada yang terekspos di mana pun.
Sayangnya, hal ini tidak kami amati dalam praktiknya - dan untuk alasan yang sangat bagus.
Yang pertama sederhana: dibutuhkan rekayasa untuk meng-host dan memelihara model kustom, yang sangat mahal. Ketika model yang dihosting mengalami down-time, metrik bisnis terpengaruh, sehingga penerapannya harus sangat kokoh.
Alasan lainnya adalah bahwa para pemimpin industri - seperti OpenAI, Google dan Anthropic - secara konstan merilis model yang lebih baru, lebih mampu dan lebih murah yang membuat pekerjaan penyempurnaan menjadi mubazir. Hal ini telah terjadi sejak peluncuran ChatGPT 3.5 dan tidak menunjukkan tanda-tanda akan berubah.
Jika kasus penggunaan Anda memiliki data yang sangat sensitif, masuk akal untuk menggunakan model dan mengoptimalkannya untuk kasus penggunaan Anda. Jika GDPR menjadi perhatian utama, ada banyak model siap pakai yang sesuai dengan GDPR.
Membangun setelah memilih LLM
Setelah Anda memilih LLM, Anda dapat mulai memikirkan bagaimana Anda akan membangun dan memelihara proyek AI Anda. Sebagai contoh, saya akan mengambil jenis proyek yang paling saya kenal: agen AI atau chatbot AI.
Anda dapat menjawab pertanyaan-pertanyaan berikut untuk menentukan ruang lingkup proyek Anda:
- Di mana saya ingin agen AI saya tinggal? (Slack, WhatsApp, widget situs web, dll.)
- Pengetahuan apa yang harus dimiliki, di mana pengetahuan itu?
- Kemampuan apa yang harus dimiliki selain pengetahuan menjawab, jika ada?
- Haruskah ini diaktifkan ketika sesuatu terjadi di suatu tempat dalam bisnis?
Rekayasa pembongkaran untuk menghemat $
Menjaga anggaran yang ramping sangat penting dalam mewujudkan proyek Anda. Salah satu cara yang dapat Anda lakukan adalah mengurangi waktu perekayasaan dengan memisahkan persyaratan.
Saat ini kita memiliki akses ke solusi kode rendah seperti Flutterflow, Shopify, yang dapat digunakan oleh peran non-teknis tradisional seperti Manajer Produk. Tidak terkecuali Chatbots, dan beberapa platform otomatisasi AI bahkan memungkinkan Anda untuk menggunakan LLM Anda sendiri.
Anda dapat menginstruksikan teknisi untuk fokus pada hosting LLM dan pengaturan dengan platform otomasi. Hal ini akan membebaskan analis bisnis, manajer produk, dan peran terkait lainnya untuk membangun agen AI yang memenuhi persyaratan bisnis.
Ketika sesuatu yang tambahan diperlukan, platform ini umumnya memiliki cara bagi para insinyur untuk menambahkan beberapa kode. Dengan cara ini, Anda tetap mendapatkan keuntungan dari model kustom, dan mendapatkan fleksibilitas, kecepatan, dan keterjangkauan.
Memberikan kebebasan teknik untuk memecahkan masalah bisnis
Di sisi lain, terkadang masalah bisnis sangat sulit untuk dipecahkan.
Kita berbicara tentang aplikasi LLM yang sepenuhnya terhubung dengan jaringan, aplikasi di perangkat, atau proyek yang membutuhkan kemampuan chatbot yang sangat canggih yang lebih dari sekadar menyinkronkan data antara dua platform.
Dalam kasus-kasus tersebut, memberikan kebebasan kepada para insinyur untuk menggunakan alat bantu apa pun yang paling nyaman bagi mereka adalah hal yang masuk akal. Ini biasanya hanya menulis kode, dan pemangku kepentingan hanya bertindak sebagai manajer proyek.
Pertimbangan strategis untuk menyesuaikan LLM
Memilih LLM khusus untuk proyek AI Anda bukan hanya tentang memilih model terbaik - tetapi juga tentang membuat keputusan strategis yang selaras dengan tujuan Anda.
Model khusus menawarkan fleksibilitas, kontrol, dan potensi untuk mengoptimalkan tugas tertentu, tetapi model ini juga memiliki kerumitan tambahan. Mulailah dengan model yang sudah jadi, bereksperimenlah dengan rekayasa yang cepat, dan secara bertahap menyempurnakannya.
Ingat, model yang tepat harus sesuai dengan kebutuhan bisnis Anda, bukan hanya teknologi stack.
Menyesuaikan dengan platform yang kuat
Siap untuk meningkatkan proyek AI Anda?
Botpress adalah platform agen AI yang dapat diperluas dan fleksibel. stack kami memungkinkan pengembang untuk membangun chatbot dan agen AI untuk setiap kasus penggunaan yang memungkinkan.
Kami memiliki platform edukasi yang kuat, Botpress Academyserta saluran YouTube yang terperinci. Discord kami memiliki lebih dari 20.000+ pembuat bot, sehingga Anda selalu bisa mendapatkan dukungan yang Anda butuhkan.
Mulaimembangun hari ini. Ini gratis.
Daftar Isi
Dapatkan informasi terbaru tentang agen AI
Bagikan ini: