DeepSeek V3, Model AI Open Source dari China yang Saingi GPT-4o dan Llama 3

ARTIKEL TERBARU

AI Gagal Gantikan Developer, Perusahaan Malah Rekrut Lagi

5 hari lalu

China Mengejar AS Lewat Perang Chip AI Bukan Lagi Soal Model

7 hari lalu

Rahasia Corning Jadi Raksasa di Balik Infrastruktur AI Meta

8 hari lalu

Context Engineering: Senjata Baru di Balik Lompatan Kapabilitas AI Agents

2 bulan lalu

Perang Chip AI: GPU Nvidia Lawan ASIC Google dan Amazon

2 bulan lalu

ARTIKEL TERBARU

BARU RILIS DI INDONESIA

Rp1.599.000

Rp1.929.000

Rp7.889.000

Rp6.409.000

Rp5.599.000

BARU RILIS DI INDONESIA

Rp1.599.000

Rp1.929.000

Rp7.889.000

Rp6.409.000

Rp5.599.000

Scoreboard	Antutu
Vivo iQOO 13	3.027.905
OnePlus 13	3.020.117
ZTE Nubia Red Magic 10 Pro+	2.945.741
Vivo iQOO Neo10 Pro	2.920.021
Asus ROG Phone 9 Pro	2.896.050

Scoreboard	Antutu
Vivo iQOO 13	3.027.905
OnePlus 13	3.020.117
ZTE Nubia Red Magic 10 Pro+	2.945.741
Vivo iQOO Neo10 Pro	2.920.021
Asus ROG Phone 9 Pro	2.896.050

Sebuah laboratorium di China baru saja meluncurkan model kecerdasan buatan (AI) yang tampaknya siap mengguncang lanskap teknologi AI global. DeepSeek V3, yang dikembangkan oleh perusahaan AI DeepSeek, hadir sebagai salah satu model open-source paling kuat hingga saat ini.

Rilis model ini pada hari Rabu lalu dengan lisensi yang sangat permisif memungkinkan para pengembang untuk mengunduh, memodifikasi, dan menggunakannya untuk berbagai aplikasi, termasuk tujuan komersial.

DeepSeek V3 dirancang untuk menangani berbagai tugas berbasis teks, mulai dari coding, penerjemahan, hingga penulisan esai dan email berdasarkan perintah deskriptif.

Yang membuat model ini semakin menarik adalah hasil pengujian benchmark internal DeepSeek yang menunjukkan bahwa DeepSeek V3 mengungguli model-model open-source lainnya yang dapat diunduh, bahkan melampaui model-model AI private yang hanya dapat diakses melalui API.

Dalam serangkaian kompetisi coding yang diselenggarakan di Codeforces, platform untuk kontes pemrograman, DeepSeek V3 menunjukkan performa yang mengesankan, mengalahkan model-model ternama seperti Llama 3.1 405B dari Meta, GPT-4o dari OpenAI, dan Qwen 2.5 72B dari Alibaba.

Selain itu, DeepSeek V3 juga unggul dalam tes Aider Polyglot, yang mengukur kemampuan model untuk menulis kode baru yang dapat terintegrasi dengan kode yang sudah ada.

DeepSeek-V3!60 tokens/second (3x faster than V2!)API compatibility intactFully open-source models & papers671B MoE parameters 37B activated parameters Trained on 14.8T high-quality tokensBeats Llama 3.1 405b on almost every benchmark https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Chubby♨️ (@kimmonismus) December 26, 2024

DeepSeek mengklaim bahwa DeepSeek V3 dilatih menggunakan dataset yang sangat besar, yaitu 14,8 triliun token. Dalam ilmu data, token digunakan untuk merepresentasikan bit data mentah. Sebagai perbandingan, 1 juta token kira-kira setara dengan 750.000 kata.

Selain dataset pelatihan yang masif, DeepSeek V3 juga memiliki ukuran model yang sangat besar. Model ini memiliki 671 miliar parameter, atau 685 miliar parameter pada platform pengembang AI Hugging Face.

Parameter adalah variabel internal yang digunakan model untuk membuat prediksi atau keputusan. Sebagai perbandingan, Llama 3.1 405B memiliki 405 miliar parameter.

DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B
— Andrej Karpathy (@karpathy) December 26, 2024

Meskipun jumlah parameter seringkali berkorelasi dengan kemampuan model (model dengan lebih banyak parameter cenderung lebih unggul), model yang besar juga membutuhkan perangkat keras yang lebih kuat untuk dapat berjalan dengan lancar.

DeepSeek V3 versi yang belum dioptimalkan akan membutuhkan banyak GPU kelas atas untuk dapat menjawab pertanyaan dengan kecepatan yang wajar.

Meskipun bukan model yang paling praktis untuk digunakan, DeepSeek V3 tetap merupakan pencapaian yang signifikan. DeepSeek berhasil melatih model ini hanya dalam waktu sekitar dua bulan menggunakan pusat data yang berisi GPU Nvidia H800, yang baru-baru ini dibatasi pengadaannya oleh Departemen Perdagangan AS.

DeepSeek juga mengklaim bahwa biaya pelatihan DeepSeek V3 hanya sekitar $5,5 juta, jauh lebih rendah dibandingkan biaya pengembangan model seperti GPT-4 dari OpenAI.

Namun, ada satu kelemahan dari model ini, yaitu pandangan politiknya yang sedikit kaku. Contohnya, DeepSeek V3 tidak akan menjawab pertanyaan tentang peristiwa Tiananmen square di China.

DeepSeek, sebagai perusahaan asal China, sepertinya tunduk pada peraturan pemerintah yang mengharuskan model AI mereka untuk "mengaplikasikan nilai-nilai sosialisme." Akibatnya, banyak sistem AI China menolak untuk menjawab pertanyaan yang dapat memicu kemarahan regulator, seperti spekulasi tentang pemerintahan Xi Jinping.

DeepSeek, yang pada akhir November lalu meluncurkan DeepSeek-R1 sebagai pesaing model reasoning o1 dari OpenAI, adalah perusahaan yang menarik. Perusahaan ini didukung oleh High-Flyer Capital Management, sebuah hedge fund kuantitatif asal China yang menggunakan AI untuk menginformasikan keputusan perdagangannya.

High-Flyer membangun server cluster-nya sendiri untuk pelatihan model, salah satunya memiliki 10.000 GPU Nvidia A100 dan menghabiskan biaya 1 miliar yen (~$138 juta). Didirikan oleh Liang Wenfeng, seorang lulusan ilmu komputer, High-Flyer bertujuan untuk mencapai AI "super cerdas" melalui DeepSeek.

DeepSeek V3 adalah model AI open-source yang patut diperhitungkan. Dengan performa unggul di berbagai tugas dan ukuran model yang masif, DeepSeek V3 berpotensi menjadi pesaing serius bagi para raksasa AI yang selama ini mendominasi pasar.

Meskipun masih memiliki beberapa keterbatasan, DeepSeek V3 adalah bukti nyata bahwa inovasi di bidang AI terus berlanjut dengan kecepatan yang mengagumkan, dan kita akan melihat lebih banyak lagi model-model AI yang inovatif di masa depan.

Baca Selengkapnya

ExploreMore

Artikel Berita AI Artikel Tools AI

Di halaman ini mungkin terdapat program afiliasi, dimana kami bekerjasama dengan berbagai pihak. Ikuti artikel lainnya di artikel terbaru atau halaman berita. Sedang mencari hp? Silahkan buka cari hp, cek daftar hp terbaru, atau hp terbaru di Indonesia