HP TERBARU

DeepSeek V3, Model AI Open Source dari China yang Saingi GPT-4o dan Llama 3

DeepSeek V3, model AI open-source terbaru dari China, diklaim lebih unggul dari GPT-4o dan Llama 3. Simak kehebatan dan batasannya
Penulis: Editorial News | Diterbitkan: 27 Des 2024 09:22
Cari Hp
Tablet
Smartwatch
DeepSeek V3,  Model AI Open Source dari China yang Saingi GPT-4o dan Llama 3
Lihat Ringkasan

Sebuah laboratorium di China baru saja meluncurkan model kecerdasan buatan (AI) yang tampaknya siap mengguncang lanskap teknologi AI global. DeepSeek V3, yang dikembangkan oleh perusahaan AI DeepSeek, hadir sebagai salah satu model open-source paling kuat hingga saat ini. 

Rilis model ini pada hari Rabu lalu dengan lisensi yang sangat permisif memungkinkan para pengembang untuk mengunduh, memodifikasi, dan menggunakannya untuk berbagai aplikasi, termasuk tujuan komersial.

DeepSeek V3 dirancang untuk menangani berbagai tugas berbasis teks, mulai dari coding, penerjemahan, hingga penulisan esai dan email berdasarkan perintah deskriptif. 

Yang membuat model ini semakin menarik adalah hasil pengujian benchmark internal DeepSeek yang menunjukkan bahwa DeepSeek V3 mengungguli model-model open-source lainnya yang dapat diunduh, bahkan melampaui model-model AI private yang hanya dapat diakses melalui API.

Dalam serangkaian kompetisi coding yang diselenggarakan di Codeforces, platform untuk kontes pemrograman, DeepSeek V3 menunjukkan performa yang mengesankan, mengalahkan model-model ternama seperti Llama 3.1 405B dari Meta, GPT-4o dari OpenAI, dan Qwen 2.5 72B dari Alibaba. 

Selain itu, DeepSeek V3 juga unggul dalam tes Aider Polyglot, yang mengukur kemampuan model untuk menulis kode baru yang dapat terintegrasi dengan kode yang sudah ada.

DeepSeek mengklaim bahwa DeepSeek V3 dilatih menggunakan dataset yang sangat besar, yaitu 14,8 triliun token. Dalam ilmu data, token digunakan untuk merepresentasikan bit data mentah. Sebagai perbandingan, 1 juta token kira-kira setara dengan 750.000 kata.

Selain dataset pelatihan yang masif, DeepSeek V3 juga memiliki ukuran model yang sangat besar. Model ini memiliki 671 miliar parameter, atau 685 miliar parameter pada platform pengembang AI Hugging Face. 

Parameter adalah variabel internal yang digunakan model untuk membuat prediksi atau keputusan. Sebagai perbandingan, Llama 3.1 405B memiliki 405 miliar parameter.

Meskipun jumlah parameter seringkali berkorelasi dengan kemampuan model (model dengan lebih banyak parameter cenderung lebih unggul), model yang besar juga membutuhkan perangkat keras yang lebih kuat untuk dapat berjalan dengan lancar. 

DeepSeek V3 versi yang belum dioptimalkan akan membutuhkan banyak GPU kelas atas untuk dapat menjawab pertanyaan dengan kecepatan yang wajar.

Meskipun bukan model yang paling praktis untuk digunakan, DeepSeek V3 tetap merupakan pencapaian yang signifikan. DeepSeek berhasil melatih model ini hanya dalam waktu sekitar dua bulan menggunakan pusat data yang berisi GPU Nvidia H800, yang baru-baru ini dibatasi pengadaannya oleh Departemen Perdagangan AS. 

DeepSeek juga mengklaim bahwa biaya pelatihan DeepSeek V3 hanya sekitar $5,5 juta, jauh lebih rendah dibandingkan biaya pengembangan model seperti GPT-4 dari OpenAI.

Namun, ada satu kelemahan dari model ini, yaitu pandangan politiknya yang sedikit kaku. Contohnya, DeepSeek V3 tidak akan menjawab pertanyaan tentang peristiwa Tiananmen square di China. 

Deepseek V3 tidak menjawab pertanyaan berbau politik china
Image Source : ANYCHAT

DeepSeek, sebagai perusahaan asal China, sepertinya tunduk pada peraturan pemerintah yang mengharuskan model AI mereka untuk "mengaplikasikan nilai-nilai sosialisme." Akibatnya, banyak sistem AI China menolak untuk menjawab pertanyaan yang dapat memicu kemarahan regulator, seperti spekulasi tentang pemerintahan Xi Jinping.

DeepSeek, yang pada akhir November lalu meluncurkan DeepSeek-R1 sebagai pesaing model reasoning o1 dari OpenAI, adalah perusahaan yang menarik. Perusahaan ini didukung oleh High-Flyer Capital Management, sebuah hedge fund  kuantitatif asal China yang menggunakan AI untuk menginformasikan keputusan perdagangannya.

High-Flyer membangun server cluster-nya sendiri untuk pelatihan model, salah satunya memiliki 10.000 GPU Nvidia A100 dan menghabiskan biaya 1 miliar yen (~$138 juta). Didirikan oleh Liang Wenfeng, seorang lulusan ilmu komputer, High-Flyer bertujuan untuk mencapai AI "super cerdas" melalui DeepSeek.

DeepSeek V3 adalah model AI open-source yang patut diperhitungkan. Dengan performa unggul di berbagai tugas dan ukuran model yang masif, DeepSeek V3 berpotensi menjadi pesaing serius bagi para raksasa AI yang selama ini mendominasi pasar. 

Meskipun masih memiliki beberapa keterbatasan, DeepSeek V3 adalah bukti nyata bahwa inovasi di bidang AI terus berlanjut dengan kecepatan yang mengagumkan, dan kita akan melihat lebih banyak lagi model-model AI yang inovatif di masa depan.

Baca Selengkapnya
Like
Simpan
Bagikan
Explore More
ExploreMore
Di halaman ini mungkin terdapat program afiliasi, dimana kami bekerjasama dengan berbagai pihak. Ikuti artikel lainnya di artikel terbaru atau halaman berita. Sedang mencari hp? Silahkan buka cari hp, cek daftar hp terbaru, atau hp terbaru di Indonesia.

...

...

Cari Hp
Tablet
Smartwatch