Cara Matasigma Ukur Kecepatan dan Kualitas AI
Matasigma menggunakan key metric seperti latency, throughput, dan goodput untuk mengevaluasi performa LLM inference. Dengan data ini, mereka optimalkan respons sistem agar cepat, andal, dan efisien sesuai kebutuhan pengguna.
Dalam dunia teknologi, terutama di bidang Large Language Models (LLM), tidak semua hal bisa dinilai hanya dari tampilan luar atau hasil akhirnya saja. Ada banyak faktor teknis yang menentukan apakah sebuah model berjalan efektif dan efisien atau tidak. Salah satu cara untuk mengetahui hal itu adalah dengan menggunakan key metric, yaitu parameter pengukuran kinerja sistem.
Di Matasigma, sebuah platform lokal Indonesia yang fokus pada pengembangan dan penerapan teknologi AI, key metric digunakan sebagai alat utama untuk mengevaluasi apakah proses inferensi model berjalan lancar, cepat, dan sesuai dengan kebutuhan pengguna. Dengan memahami metrik-metrik ini, tim Matasigma bisa membuat keputusan yang tepat dalam mengoptimalkan performa sistem, baik untuk layanan internal maupun eksternal.
Mari kita bahas bersama bagaimana Matasigma menggunakan key metrics tersebut untuk menjaga kualitas layanan mereka.
Sekilas Tentang Matasigma
Matasigma adalah salah satu inovator lokal di bidang Artificial Intelligence (AI) yang berfokus pada pengembangan solusi berbasis Large Language Models (LLM). Platform ini dirancang untuk membantu perusahaan dan developer dalam menerapkan teknologi AI secara efektif dan efisien, baik dalam skala kecil maupun besar.
Salah satu produk unggulan Matasigma adalah layanan LLM inference, yaitu proses menjalankan model AI untuk memberikan respons berdasarkan input pengguna. Untuk memastikan bahwa layanan ini selalu optimal, Matasigma menggunakan berbagai metrik teknis — atau yang disebut key metrics — untuk mengevaluasi dan meningkatkan performa sistem.
Apa Itu LLM Inference?
Sebelum masuk ke pembahasan utama, mari kita pahami dulu istilah dasarnya. Inference dalam konteks LLM adalah proses saat model yang sudah dilatih digunakan untuk membuat prediksi atau respons berdasarkan input tertentu. Misalnya, ketika kamu bertanya “Apa arti kata ‘kreatif’?” pada chatbot, maka sistem akan menjalankan inference untuk memberikan jawaban.
Tugas Matasigma sebagai penyedia layanan LLM adalah memastikan bahwa proses ini berjalan secepat dan seefisien mungkin. Untuk itu, mereka menggunakan beberapa metrik penting — yang disebut key metrics — untuk menilai performa sistem secara objektif.
Key Metrics yang Digunakan dalam Evaluasi LLM
Ada beberapa metrik utama yang menjadi fokus utama dalam evaluasi kinerja LLM inference. Berikut penjelasannya:
1. Latency (Waktu Respons)
Latency adalah waktu yang dibutuhkan sistem untuk merespons permintaan pengguna. Ini sangat penting karena berpengaruh langsung pada pengalaman pengguna.
- Time to First Token (TTFT)
Ini adalah waktu yang diperlukan sistem untuk menghasilkan token pertama setelah permintaan dikirim. Bayangkan kamu bertanya sesuatu pada chatbot, dan kamu harus menunggu beberapa detik sampai jawabannya mulai muncul. TTFT mengukur lamanya waktu tersebut.Contoh: Jika kamu meminta ringkasan artikel panjang, kamu mungkin rela menunggu sedikit lebih lama karena tugasnya kompleks. Tapi jika kamu hanya bertanya "Halo, apa kabar?", maka TTFT yang tinggi akan terasa lambat dan mengganggu. - Time per Output Token (TPOT)
Setelah token pertama keluar, TPOT mengukur seberapa cepat token-token berikutnya dihasilkan. Ini penting dalam aplikasi yang menampilkan jawaban secara streaming, seperti ChatGPT, di mana teks muncul perlahan-lahan.Semakin rendah nilai TPOT, semakin cepat dan lancar teks muncul di layar. Idealnya, TPOT harus cukup cepat agar sesuai dengan kecepatan membaca manusia.
2. Throughput (Kapasitas Pemrosesan)
Throughput menggambarkan seberapa banyak pekerjaan yang bisa dilakukan sistem dalam waktu tertentu. Ini penting untuk skenario dengan banyak pengguna atau data besar.
- Requests per Second (RPS)
RPS menghitung berapa banyak permintaan yang bisa diproses sistem dalam satu detik. Misalnya, jika ada 100 orang bertanya pada chatbot dalam satu detik, dan sistem bisa menangani 80 permintaan, maka RPS-nya adalah 80.Namun, RPS tidak selalu mencerminkan beban kerja secara lengkap. Permintaan sederhana seperti “Hi” tentu lebih mudah daripada permintaan yang memerlukan analisis panjang. - Tokens per Second (TPS)
TPS mengukur jumlah token yang bisa diproses sistem dalam satu detik. Ini dibagi menjadi dua jenis:Contoh: Jika kamu mengirim dokumen 2000 token untuk diringkas, maka Input TPS menjadi lebih penting. Tapi jika kamu hanya bertanya pendek dan mendapat jawaban panjang, maka Output TPS lebih relevan.- Input TPS: Jumlah token masukan yang bisa diproses.
- Output TPS: Jumlah token hasil yang bisa dihasilkan.
3. Goodput (Throughput Berkualitas Tinggi)
Goodput adalah versi lebih spesifik dari throughput. Ini mengukur jumlah permintaan yang berhasil diselesaikan dalam batas waktu yang ditentukan (Service Level Objective / SLO). Artinya, bukan sekadar berapa banyak permintaan yang diproses, tapi juga apakah hasilnya memenuhi standar kualitas yang ditetapkan.
Contoh: Jika sistem bisa menangani 100 permintaan per detik, tapi 30 di antaranya melebihi batas waktu respons yang diizinkan, maka goodput-nya hanya 70.
Goodput penting karena menunjukkan keseimbangan antara kecepatan dan kualitas layanan. Tanpa goodput, sistem bisa tampak cepat, tapi pengalaman pengguna buruk karena banyak permintaan yang tidak selesai tepat waktu.
Trade-off Antara Latency dan Throughput
Salah satu tantangan terbesar dalam pengaturan LLM inference adalah menyeimbangkan antara latency dan throughput. Keduanya sering kali saling bertolak belakang.
Tujuan | Dampak |
---|---|
Maksimalkan Throughput | Fokus pada pemrosesan sebanyak mungkin token per watt daya. Umumnya menggunakan batch besar dan sumber daya komputasi bersama. Tapi ini bisa memperlambat respons individual. |
Minimalkan Latency | Memberikan respons cepat kepada pengguna (TTFT rendah) dengan batch kecil dan sumber daya terpisah. Tapi ini kurang efisien dalam penggunaan GPU. |
Kombinasi Keduanya | Beberapa sistem berusaha menyeimbangkan keduanya dengan menyesuaikan penggunaan sumber daya secara dinamis berdasarkan beban kerja dan prioritas pengguna. |
Matasigma, seperti platform lain yang serius dalam optimasi LLM, menggunakan berbagai teknik seperti batching, caching, dan precision tuning (misalnya FP8 atau FP4) untuk menemukan titik optimal antara kedua aspek ini.
Bagaimana Matasigma Menggunakan Metrik-Metrik Ini?
Matasigma tidak hanya mengumpulkan data tentang TTFT, TPOT, RPS, TPS, atau Goodput. Mereka menggunakan informasi ini untuk:
- Menilai apakah infrastruktur yang digunakan sudah optimal.
- Mengidentifikasi bottleneck atau hambatan dalam sistem.
- Membandingkan performa model yang berbeda.
- Menyesuaikan strategi inference berdasarkan kebutuhan pengguna (misalnya, real-time chat vs batch processing).
- Meningkatkan efisiensi biaya dan energi.
Misalnya, jika Matasigma melihat bahwa TPOT terlalu tinggi untuk aplikasi chatbot, mereka mungkin akan menyesuaikan konfigurasi model atau meningkatkan kapasitas server. Atau jika RPS terlalu rendah untuk volume pengguna tertentu, mereka bisa menambah jumlah instance atau menggunakan batching yang lebih cerdas.
Selain itu, Matasigma juga memiliki sistem monitoring yang aktif untuk memantau metrik-metrik ini secara real-time. Dengan demikian, tim operasional bisa segera merespons jika ada anomali atau penurunan performa.
Kesimpulan
Key metrics bukan hanya angka-angka teknis yang sulit dipahami. Mereka adalah panduan penting bagi tim seperti Matasigma untuk memastikan bahwa LLM yang mereka bangun dan jalankan benar-benar bermanfaat bagi pengguna akhir.
Dengan memahami dan mengoptimalkan metrik seperti latency, throughput, dan goodput, Matasigma bisa menyediakan layanan yang cepat, andal, dan efisien. Ini juga membantu mereka membuat keputusan yang tepat dalam menghadapi trade-off antara kecepatan dan kapasitas.
Jadi, meskipun kamu mungkin hanya melihat hasil akhir dari chatbot atau sistem AI, di balik layar, ribuan pengukuran dan optimasi tengah berlangsung untuk memastikan segalanya berjalan lancar.
Penulis: Tim Teknis Matasigma
Editor: Divisi Konten & Edukasi
Tanggal Publikasi: 17 Juli 2025
Panjang Artikel: ± 1.100 kata