Mengenal DeepSeek AI Buatan China yang Bikin Geger Amerika Serikat

28 January 2025 | 19:17 WIB

Yudi Supriyanto Jurnalis Hypeabis.id

Persaingan chatbot berbasis kecerdasan buatan atau artificial intelligence (AI) kian ketat. Terbaru, perusahaan asal China, yakni Deepseek Technologies hadir dengan layanan chatbot Deepseek AI yang saat ini tengah menjadi perbincangan banyak orang di industri teknologi.

Kehadiran layanan terbaru dari perusahaan juga membuat riuh situasi di Amerika Serikat. Dilansir dari NPR, DeepSeek ditengarai menjadi penyebab dari anjloknya saham teknologi di Negeri Paman Sam.

Saham Nvidia, salah satu pemain utama di industri AI global, anjlok hingga dua digit pada awal pekan ini. Begitu juga dengan saham dari perusahaan cip lainnya seperti Arm dan Broadcom, yang menyeret turun indeks utama teknologi. Hal itu bertepatan dengan layanan gratis DeepSeek yang kian banyak diunduh di toko aplikasi.

Dikutip dari deskripsi aplikasi DeepSeek AI di PlayStore, aplikasi kecerdasan buatan itu telah diunduh lebih dari 1 juta pengguna gawai pintar atau smartphone dengan sistem operasi Android. Genhype yang hendak menggunakan chatbot tersebut dapat memperolehnya secara gratis, dengan sejumlah persyaratan spesifikasi yang mendukung.

Baca juga: Tools AI Paling Populer Sepanjang 2024, ChatGPT Nomor 1

Dalam laman resminya, Deepseek AI yang digunakan adalah model DeepSeek-V3, yang memiliki arsitektur model bahasa Mixture-of-Experts (MoE) dengan parameter yang diaktifkan 37 miliar untuk setiap token. Adapun, total parameter yang digunakan mencapai 671 miliar.

“DeepSeek-V3 mencapai terobosan signifikan dalam kecepatan inferensi dibandingkan model sebelumnya. Ia menduduki puncak papan peringkat di antara model sumber terbuka dan menyaingi model sumber tertutup yang paling canggih secara global,” demikian tertulis.

Sementara itu, dalam penjelasan penelitian DeepSeek V-3, manajemen mengadopsi arsitektur Multi-head Latent Attention (MLA) dan DeepSeekMoE yang divalidasi secara menyeluruh dalam DeepSeek V-2. Lebih jauh, tim mengeklaim bahwa DeepSeek-V3 menjadi pelopor dalam an auxiliary-loss-free strategy untuk load balancing dan menetapkan tujuan pelatihan prediksi multi-token untuk kinerja yang lebih kuat.

“Kami melakukan pra-pelatihan DeepSeek-V3 terhadap 14,8 triliun token yang beragam dan berkualitas tinggi, diikuti oleh tahap Supervised Fine-Tuning dan Reinforcement Learning untuk memanfaatkan sepenuhnya kemampuannya,” demikian tertulis.

Hasil evaluasi yang komprehensif mengungkapkan bahwa DeepSeek-V3 mengungguli model sumber terbuka lainnya dan mencapai kinerja yang sebanding dengan model sumber tertutup terkemuka. Penjelasan itu juga mengungkapkan bahwa DeepSeek-V3 hanya membutuhkan 2,788 juta jam GPU H800 untuk pelatihan penuhnya. Selain itu, proses pelatihannya diklaim sangat stabil.

“Sepanjang keseluruhan proses pelatihan, kami tidak mengalami lonjakan kerugian yang tidak dapat dipulihkan atau melakukan rollback apa pun,” demikian tertulis.

Kemudian, hasil evaluasi dengan pengujian Needle In A Haystack pengujian (NIAH), menunjukkan bahwa DeepSeek-V3 bekerja dengan baik di semua panjang jendela konteks hingga 128K.

Dalam pre-training yang dilakukan, tim merancang kerangka kerja presisi campuran floating point 8-bit (FP8), dan untuk pertama kalinya memvalidasi kelayakan dan efektivitas pelatihan FP8 pada model skala sangat besar.

Selain itu, tim DeepSeek juga mengatasi hambatan komunikasi dalam pelatihan MoE lintas-simpul melalui melalui perancangan bersama algoritma, kerangka kerja, dan perangkat keras, sehingga hampir mencapai tumpang tindih komputasi-komunikasi penuh.

“Hal ini secara signifikan meningkatkan efisiensi pelatihan kami dan mengurangi biaya pelatihan, sehingga memungkinkan kami untuk lebih meningkatkan skala ukuran model tanpa overhead tambahan,” demikian tertulis.

Baca juga: Begini Cara Menggunakan Chatbot Grok AI dengan Akun X (Twitter)

(Baca artikel Hypeabis.id lainnya di Google News)

Editor: Syaiful Millah