Sebuah laboratorium di China baru saja meluncurkan model kecerdasan buatan (AI) yang tampaknya siap mengguncang lanskap teknologi AI global. DeepSeek V3, yang dikembangkan oleh perusahaan AI DeepSeek, hadir sebagai salah satu model open-source paling kuat hingga saat ini.
Rilis model ini pada hari Rabu lalu dengan lisensi yang sangat permisif memungkinkan para pengembang untuk mengunduh, memodifikasi, dan menggunakannya untuk berbagai aplikasi, termasuk tujuan komersial.
DeepSeek V3 dirancang untuk menangani berbagai tugas berbasis teks, mulai dari coding, penerjemahan, hingga penulisan esai dan email berdasarkan perintah deskriptif.
Yang membuat model ini semakin menarik adalah hasil pengujian benchmark internal DeepSeek yang menunjukkan bahwa DeepSeek V3 mengungguli model-model open-source lainnya yang dapat diunduh, bahkan melampaui model-model AI private yang hanya dapat diakses melalui API.
Dalam serangkaian kompetisi coding yang diselenggarakan di Codeforces, platform untuk kontes pemrograman, DeepSeek V3 menunjukkan performa yang mengesankan, mengalahkan model-model ternama seperti Llama 3.1 405B dari Meta, GPT-4o dari OpenAI, dan Qwen 2.5 72B dari Alibaba.
Selain itu, DeepSeek V3 juga unggul dalam tes Aider Polyglot, yang mengukur kemampuan model untuk menulis kode baru yang dapat terintegrasi dengan kode yang sudah ada.
DeepSeek mengklaim bahwa DeepSeek V3 dilatih menggunakan dataset yang sangat besar, yaitu 14,8 triliun token. Dalam ilmu data, token digunakan untuk merepresentasikan bit data mentah. Sebagai perbandingan, 1 juta token kira-kira setara dengan 750.000 kata.
Selain dataset pelatihan yang masif, DeepSeek V3 juga memiliki ukuran model yang sangat besar. Model ini memiliki 671 miliar parameter, atau 685 miliar parameter pada platform pengembang AI Hugging Face.
Parameter adalah variabel internal yang digunakan model untuk membuat prediksi atau keputusan. Sebagai perbandingan, Llama 3.1 405B memiliki 405 miliar parameter.
Meskipun jumlah parameter seringkali berkorelasi dengan kemampuan model (model dengan lebih banyak parameter cenderung lebih unggul), model yang besar juga membutuhkan perangkat keras yang lebih kuat untuk dapat berjalan dengan lancar.
DeepSeek V3 versi yang belum dioptimalkan akan membutuhkan banyak GPU kelas atas untuk dapat menjawab pertanyaan dengan kecepatan yang wajar.
Meskipun bukan model yang paling praktis untuk digunakan, DeepSeek V3 tetap merupakan pencapaian yang signifikan. DeepSeek berhasil melatih model ini hanya dalam waktu sekitar dua bulan menggunakan pusat data yang berisi GPU Nvidia H800, yang baru-baru ini dibatasi pengadaannya oleh Departemen Perdagangan AS.
DeepSeek juga mengklaim bahwa biaya pelatihan DeepSeek V3 hanya sekitar $5,5 juta, jauh lebih rendah dibandingkan biaya pengembangan model seperti GPT-4 dari OpenAI.
Namun, ada satu kelemahan dari model ini, yaitu pandangan politiknya yang sedikit kaku. Contohnya, DeepSeek V3 tidak akan menjawab pertanyaan tentang peristiwa Tiananmen square di China.

DeepSeek, sebagai perusahaan asal China, sepertinya tunduk pada peraturan pemerintah yang mengharuskan model AI mereka untuk "mengaplikasikan nilai-nilai sosialisme." Akibatnya, banyak sistem AI China menolak untuk menjawab pertanyaan yang dapat memicu kemarahan regulator, seperti spekulasi tentang pemerintahan Xi Jinping.
DeepSeek, yang pada akhir November lalu meluncurkan DeepSeek-R1 sebagai pesaing model reasoning o1 dari OpenAI, adalah perusahaan yang menarik. Perusahaan ini didukung oleh High-Flyer Capital Management, sebuah hedge fund kuantitatif asal China yang menggunakan AI untuk menginformasikan keputusan perdagangannya.
High-Flyer membangun server cluster-nya sendiri untuk pelatihan model, salah satunya memiliki 10.000 GPU Nvidia A100 dan menghabiskan biaya 1 miliar yen (~$138 juta). Didirikan oleh Liang Wenfeng, seorang lulusan ilmu komputer, High-Flyer bertujuan untuk mencapai AI "super cerdas" melalui DeepSeek.
DeepSeek V3 adalah model AI open-source yang patut diperhitungkan. Dengan performa unggul di berbagai tugas dan ukuran model yang masif, DeepSeek V3 berpotensi menjadi pesaing serius bagi para raksasa AI yang selama ini mendominasi pasar.
Meskipun masih memiliki beberapa keterbatasan, DeepSeek V3 adalah bukti nyata bahwa inovasi di bidang AI terus berlanjut dengan kecepatan yang mengagumkan, dan kita akan melihat lebih banyak lagi model-model AI yang inovatif di masa depan.