1. How do I evaluate the ROI of investing in a custom LLM for my business?

To evaluate the ROI of investing in a custom LLM for your business, compare total costs (e.g., infrastructure, developer time, fine-tuning, and hosting) against measurable gains like labor reduction and conversion lift.

2. What KPIs should I track to measure the effectiveness of a custom LLM?

You should track KPIs such as response accuracy (precision/recall or task completion), latency (average response time), user satisfaction (CSAT/NPS), containment or resolution rate, and cost per interaction. These metrics reflect the technical performance of the model and its impact on business outcomes.

3. How can I estimate the long-term maintenance cost of a custom LLM solution?

To estimate long-term maintenance costs for a custom LLM solution, include expenses for infrastructure (cloud compute, storage), engineering updates, retraining or fine-tuning frequency, monitoring tools, and adapting to regulatory changes. If your business data evolves rapidly, expect higher retraining and validation overhead over time.

4. How can I benchmark different LLMs for my specific industry or domain?

Benchmark different LLMs by testing them with representative, domain-specific prompts and comparing their performance on accuracy, clarity, tone, and task relevance. You can use internal datasets or apply open-source industry benchmarks like FinancialQA or MedQA depending on your sector.

5. What compliance standards should a custom LLM meet if I’m handling user data?

If you’re handling user data, your custom LLM should meet standards like GDPR (for EU data privacy), SOC 2 Type II (for operational security), and HIPAA (if handling healthcare data). The LLM provider should offer features like role-based access, data encryption in transit and at rest, audit logging, and clear policies for data retention and deletion.

Cara memilih LLM kustom untuk proyek AI Anda

Ditulis oleh

Patrick Hamelin

Director of Growth Engineering @ Botpress & Penggemar AI Bersertifikat

Daftar Isi

Langkah 1. judul langkah ditulis di sini seperti yang diharapkan

Ringkasan

LLM kustom memungkinkan Anda mengurangi biaya, melindungi data sensitif, dan meningkatkan performa untuk tugas tertentu, sehingga menjadi alat strategis untuk solusi bisnis yang disesuaikan.
Ukuran LLM memengaruhi kualitas dan biaya, jadi pertimbangkan kecepatan respons, akurasi, dan anggaran sebelum memutuskan menggunakan model besar seperti GPT-4 atau opsi yang lebih kecil dan cepat.
Teknik seperti RAG, fine-tuning, n-shot learning, dan prompt engineering adalah alat penting untuk menyesuaikan perilaku LLM, masing-masing dengan kelebihan dan kekurangan dalam biaya, kompleksitas, dan pemeliharaan.

LLM mengubah cara kita membangun solusi AI. Model siap pakai yang lebih baru dan lebih baik terus bermunculan.

Pertanyaan yang sering saya terima adalah mengapa seseorang harus memilih LLM kustom daripada solusi siap pakai?

Jika Anda sedang mengerjakan proyek AI, seperti membangun agen AI atau chatbot AI, Anda mungkin memilih untuk menggunakan model bahasa besar (LLM) yang disesuaikan.

Ada banyak alasan menggunakan LLM kustom untuk agen LLM Anda, dan banyak pilihan yang tersedia. Pada artikel ini, saya akan membahas berbagai cara menyesuaikan LLM untuk proyek AI.

Mengapa menggunakan LLM kustom?

Ada beberapa alasan untuk menggunakan LLM kustom:

Anda ingin mengurangi biaya dengan fokus pada tugas tertentu yang penting untuk bisnis Anda, atau meminimalkan latensi.
Anda mungkin ingin menjaga semua data tetap privat, atau menggunakan LLM internal perusahaan Anda.
Anda mungkin ingin meningkatkan kualitas jawaban untuk tugas tertentu.

Apa pun alasannya, menyesuaikan LLM Anda memungkinkan Anda mengoptimalkan performa, menyeimbangkan akurasi, kecepatan, dan biaya sesuai kebutuhan bisnis.

Bangun Chatbot AI

Buat chatbot agentik sesuai kebutuhan

Mulai sekarang

Memilih LLM

LLM memiliki dua karakteristik yang memengaruhi proyek AI: ukurannya (dihitung dari jumlah parameter), dan kualitas responsnya.

Anda bisa menganggap parameter seperti neuron di otak. Otak yang lebih besar sering dikaitkan dengan kecerdasan, tapi tidak selalu begitu. Bagian otak juga bisa sangat dioptimalkan untuk tugas tertentu seperti penglihatan.

Untuk proyek AI, ukuran biasanya memengaruhi kecepatan respons, dan sangat memengaruhi biaya. Proyek yang membutuhkan latensi rendah sering menggunakan model yang lebih kecil, tapi dengan pengorbanan kualitas respons.

Pertanyaan yang perlu diajukan saat memilih model

Berikut daftar pertanyaan yang sebaiknya bisa Anda jawab saat memilih model:

Apakah saya bisa menggunakan LLM berbasis cloud atau harus menghosting sendiri?
Seberapa cepat saya membutuhkan responsnya?
Seberapa akurat saya membutuhkan responsnya?
Berapa banyak penghematan dan/atau pendapatan yang akan dihasilkan proyek saya? Lalu, berapa harga yang seharusnya tidak boleh melebihi angka tersebut?
Seberapa panjang respons yang saya butuhkan?

Secara umum, sulit mempercepat model yang kuat atau menurunkan biayanya, dan lebih mudah meningkatkan model yang kurang akurat.

Namun, memulai dengan model yang kuat jauh lebih cepat, dan jika sudah memenuhi kebutuhan proyek Anda, Anda mungkin tidak perlu banyak upaya rekayasa (dan lebih mudah dipelihara).

Memilih antara RAG, Fine-Tuning, N-Shot Learning, dan Prompt Engineering

Ada lima konsep umum yang dapat meningkatkan kualitas respons LLM:

Memulai dari model yang sudah dilatih
RAG
Fine tuning
N-shot prompting
Prompt engineering

Ini tidak hanya berlaku untuk model kustom, tapi sebaiknya dipertimbangkan karena saling melengkapi.

Memulai dari model

Langkah pertama adalah memilih model awal. Ada banyak leaderboard online yang membandingkan berbagai model.

Contohnya:

Hugging Face menyediakan leaderboard untuk model open source.
Vellum punya leaderboard yang bagus untuk model-model populer.

Jika perusahaan Anda punya model internal, pertimbangkan untuk menggunakannya agar sesuai anggaran dan menjaga data tetap privat. Jika Anda perlu meng-host sendiri, pertimbangkan model open-source.

A graphic that contains 4 ways to customize an LLM.

Fine-tuning

Fine-tuning berarti memberikan contoh pada model agar belajar melakukan tugas tertentu dengan baik. Jika Anda ingin model mahir berbicara tentang produk Anda, Anda bisa memberikan banyak contoh panggilan penjualan terbaik perusahaan Anda.

Jika modelnya open source, tanyakan pada diri Anda apakah tim Anda memiliki kapasitas teknis yang cukup untuk melakukan fine-tuning model.

Jika modelnya closed source dan disediakan sebagai layanan – seperti GPT-4 atau Claude – biasanya engineer Anda dapat melakukan fine-tuning model kustom menggunakan API. Biayanya biasanya meningkat cukup banyak dengan cara ini, tetapi hampir tidak ada pemeliharaan.

Namun, untuk banyak kasus penggunaan, fine-tuning bukan langkah pertama untuk mengoptimalkan model Anda.

Kasus yang cocok untuk fine-tuning adalah membuat bot pengetahuan untuk informasi statis. Dengan memberikan contoh pertanyaan dan jawaban, model bisa menjawab tanpa mencari jawaban lagi. Tapi ini kurang praktis untuk informasi real-time.

Retrieval-augmented generation

RAG adalah istilah keren untuk hal sederhana yang sering kita lakukan di ChatGPT: menyalin teks ke ChatGPT lalu menanyakan sesuatu tentangnya.

Contoh umumnya adalah menanyakan apakah suatu produk tersedia di situs e-commerce, dan chatbot mencari informasi di katalog produk (bukan di internet secara umum).

Dari segi kecepatan pengembangan dan mendapatkan informasi real-time, RAG sangat penting.

Biasanya ini tidak memengaruhi model yang Anda pilih, tapi Anda tetap bisa membuat endpoint API LLM yang mengambil informasi dan menjawab, lalu menggunakan endpoint ini seolah-olah itu LLM tersendiri.

Menggunakan RAG untuk chatbot berbasis pengetahuan seringkali lebih mudah dipelihara, karena Anda tidak perlu fine-tuning model dan memperbaruinya – yang juga bisa mengurangi biaya.

Menerapkan Agen AI?

Baca Panduan Implementasi Agen AI dari kami

Baca Sekarang

N-shot learning

Cara tercepat untuk mulai meningkatkan kualitas respons adalah dengan memberikan contoh dalam satu panggilan API LLM.

Zero-shot – tanpa memberikan contoh apa pun tentang jawaban yang diinginkan – adalah cara kebanyakan orang menggunakan ChatGPT. Menambahkan satu contoh (one-shot) biasanya sudah cukup untuk melihat peningkatan kualitas respons.

Lebih dari satu contoh disebut n-shot. N-shot tidak mengubah model, berbeda dengan fine-tuning. Anda hanya memberikan contoh sebelum meminta jawaban, setiap kali bertanya.

Namun strategi ini tidak bisa digunakan berlebihan: model LLM punya batas ukuran konteks, dan biaya dihitung berdasarkan ukuran pesan. Fine-tuning bisa menghilangkan kebutuhan n-shot, tapi butuh waktu lebih lama untuk hasil yang tepat.

Teknik prompt engineering lainnya

Ada teknik prompt engineering lain, seperti chain-of-thought, yang membuat model berpikir keras sebelum menjawab.

Ini meningkatkan kualitas respons, namun berdampak pada panjang, biaya, dan kecepatan respons.

Rekomendasi saya

Setiap proyek pasti punya kebutuhan unik, tapi saya akan memberikan sedikit pendapat tentang pendekatan yang kuat.

Tempat yang baik untuk memulai adalah menggunakan model siap pakai yang seimbang antara kecepatan dan kualitas, seperti GPT-4o Mini. Mulailah dengan menilai kualitas respons, kecepatan, biaya, kebutuhan context window, lalu tentukan apa yang perlu ditingkatkan.

Setelah itu, dengan kasus penggunaan yang spesifik, Anda bisa mencoba prompt engineering sederhana, lalu RAG, dan terakhir fine-tuning. Setiap model yang melalui proses ini akan mengalami peningkatan performa, jadi kadang sulit menentukan mana yang terbaik.

Pertimbangan Privasi

Dalam dunia ideal, setiap LLM sepenuhnya berada di bawah kendali Anda, dan tidak ada yang terekspos ke mana pun.

Sayangnya, ini bukan yang kita lihat dalam praktik – dan ada alasan yang sangat baik untuk itu.

Alasan pertama sederhana: butuh rekayasa untuk meng-host dan memelihara model kustom, yang sangat mahal. Jika model yang di-host mengalami gangguan, metrik bisnis akan terpengaruh, jadi deployment harus sangat andal.

Alasan lain adalah para pemimpin industri – seperti OpenAI, Google, dan Anthropic – terus merilis model baru yang lebih canggih dan murah sehingga pekerjaan fine-tuning menjadi tidak relevan. Ini sudah terjadi sejak ChatGPT 3.5 dirilis dan tampaknya akan terus berlanjut.

Jika kasus penggunaan Anda melibatkan data sangat sensitif, masuk akal untuk menggunakan model dan mengoptimalkannya sesuai kebutuhan. Jika kepatuhan GDPR menjadi prioritas, ada banyak model siap pakai yang sudah sesuai GDPR.

Membangun setelah memilih LLM Anda

Setelah Anda memilih LLM, Anda bisa mulai merencanakan bagaimana membangun dan memelihara proyek AI Anda. Sebagai contoh, saya akan mengambil jenis proyek yang paling saya kenal: sebuah agen AI atau chatbot AI.

Anda dapat menjawab pertanyaan-pertanyaan berikut untuk menentukan cakupan proyek Anda:

Di mana saya ingin agen AI saya ditempatkan? (Slack, WhatsApp, widget situs web, dll.)
Pengetahuan apa yang harus dimiliki, dan di mana pengetahuan itu berada?
Kemampuan apa saja yang harus dimiliki selain menjawab pertanyaan, jika ada?
Haruskah ini diaktifkan ketika sesuatu terjadi di suatu bagian bisnis?

Kurangi beban rekayasa untuk menghemat biaya

Menjaga anggaran tetap hemat sangat penting agar proyek Anda bisa terwujud. Salah satu caranya adalah mengurangi waktu rekayasa dengan memisahkan kebutuhan.

Saat ini kita memiliki akses ke solusi low-code seperti Flutterflow, Shopify, yang dapat digunakan oleh peran non-teknis seperti Product Manager. Chatbot juga demikian, dan beberapa platform otomasi AI bahkan memungkinkan Anda menggunakan LLM sendiri.

Anda bisa meminta engineer fokus pada hosting LLM dan integrasi dengan platform otomasi. Dengan begitu, analis bisnis, product manager, dan peran terkait lainnya dapat membangun agen AI yang sesuai kebutuhan bisnis.

Jika ada kebutuhan tambahan, platform-platform ini umumnya menyediakan cara bagi engineer untuk menambahkan kode. Dengan cara ini, Anda tetap mendapatkan keunggulan model kustom, sekaligus fleksibilitas, kecepatan, dan biaya yang lebih terjangkau.

Berikan kebebasan teknis untuk menyelesaikan masalah bisnis

Di sisi lain, terkadang masalah bisnis memang sangat sulit untuk dipecahkan.

Misalnya aplikasi LLM yang benar-benar terisolasi dari jaringan, aplikasi di perangkat, atau proyek yang membutuhkan chatbot dengan kemampuan sangat canggih, lebih dari sekadar sinkronisasi data antar platform.

Dalam kasus seperti ini, membiarkan engineer menggunakan alat yang paling mereka kuasai adalah pilihan yang tepat. Biasanya ini berarti menulis kode, dan pemangku kepentingan hanya berperan sebagai manajer proyek.

Pertimbangan strategis dalam menyesuaikan LLM

Memilih LLM kustom untuk proyek AI Anda bukan hanya soal memilih model terbaik – tapi juga membuat keputusan strategis yang sesuai dengan tujuan Anda.

Model kustom menawarkan fleksibilitas, kontrol, dan potensi optimalisasi untuk tugas tertentu, namun juga menambah kompleksitas. Mulailah dengan model siap pakai, lakukan eksperimen dengan prompt engineering, lalu perbaiki secara bertahap.

Ingat, model yang tepat harus sesuai kebutuhan bisnis Anda, bukan sekadar tumpukan teknologi yang digunakan.

Kustomisasi dengan platform yang andal

Siap membawa proyek AI Anda ke level berikutnya?

Botpress adalah platform agen AI yang sepenuhnya fleksibel dan dapat diperluas. Teknologi kami memungkinkan developer membangun chatbot dan agen AI untuk berbagai kebutuhan.

Kami juga menyediakan platform edukasi yang lengkap, Botpress Academy, serta saluran YouTube yang detail. Komunitas Discord kami berisi lebih dari 20.000 pembuat bot, sehingga Anda selalu bisa mendapatkan dukungan yang dibutuhkan.

Mulai membangun hari ini. Gratis.

Bangun Chatbot AI

Buat chatbot agentik sesuai kebutuhan

Mulai sekarang

FAQ

1. Bagaimana cara mengevaluasi ROI dari investasi LLM kustom untuk bisnis saya?

Untuk mengevaluasi ROI dari investasi LLM kustom di bisnis Anda, bandingkan total biaya (misal: infrastruktur, waktu pengembang, fine-tuning, dan hosting) dengan keuntungan terukur seperti pengurangan tenaga kerja dan peningkatan konversi.

2. KPI apa yang harus saya pantau untuk mengukur efektivitas LLM kustom?

Anda sebaiknya memantau KPI seperti akurasi respons (presisi/recall atau penyelesaian tugas), latensi (rata-rata waktu respons), kepuasan pengguna (CSAT/NPS), tingkat penyelesaian masalah, dan biaya per interaksi. Metrik ini mencerminkan performa teknis model dan dampaknya pada hasil bisnis.

3. Bagaimana cara memperkirakan biaya pemeliharaan jangka panjang solusi LLM kustom?

Untuk memperkirakan biaya pemeliharaan jangka panjang solusi LLM kustom, sertakan biaya infrastruktur (komputasi cloud, penyimpanan), pembaruan teknis, frekuensi pelatihan ulang atau fine-tuning, alat pemantauan, dan penyesuaian terhadap regulasi. Jika data bisnis Anda sering berubah, siapkan anggaran lebih untuk pelatihan ulang dan validasi.

4. Bagaimana cara membandingkan LLM yang berbeda untuk industri atau bidang saya?

Bandingkan LLM yang berbeda dengan mengujinya menggunakan prompt yang relevan dan spesifik untuk bidang Anda, lalu bandingkan performanya dari segi akurasi, kejelasan, gaya bahasa, dan relevansi tugas. Anda bisa menggunakan data internal atau tolok ukur industri open-source seperti FinancialQA atau MedQA sesuai sektor Anda.

5. Standar kepatuhan apa yang harus dipenuhi LLM kustom jika saya menangani data pengguna?

Jika Anda menangani data pengguna, LLM kustom Anda harus memenuhi standar seperti GDPR (untuk privasi data EU), SOC 2 Type II (untuk keamanan operasional), dan HIPAA (jika menangani data kesehatan). Penyedia LLM harus menyediakan fitur seperti akses berbasis peran, enkripsi data saat transit dan saat disimpan, pencatatan audit, serta kebijakan jelas untuk retensi dan penghapusan data.