Diyetekno – Persaingan sengit di dunia kecerdasan buatan (AI) semakin memanas dengan hadirnya model-model multimodal canggih. Kali ini, dua raksasa teknologi, OpenAI dengan ChatGPT-5 dan Google DeepMind dengan Gemini 2.5 Pro, beradu kemampuan dalam menghasilkan gambar dari prompt atau perintah teks. Siapakah yang keluar sebagai pemenang?
ChatGPT-5 dan Gemini 2.5 Pro menawarkan kemampuan yang luar biasa. Keduanya tersedia dalam versi gratis dan mampu menciptakan gambar yang tajam dan realistis dalam hitungan detik. ChatGPT-5, sebagai model flagship OpenAI, menawarkan analisis gambar yang lebih baik, suara yang lebih natural, dan context window yang besar hingga 400 ribu token. Versi terbaru ini diklaim lebih aman, dengan kesalahan yang lebih sedikit, dan lebih cerdas dalam mengelola tugas antara mode "chat" dan "thinking".

Sementara itu, Gemini 2.5 Pro dari Google DeepMind hadir dengan context window yang fantastis, mencapai satu juta token. Model ini unggul dalam memecahkan masalah matematika dan sains yang kompleks, melampaui kompetitor dalam berbagai tolok ukur, dan menunjukkan kemampuan coding yang luar biasa. Gemini 2.5 Pro mampu menangani gambar, audio, video, dan bahkan seluruh codebase hanya dari satu prompt.
Untuk menguji kemampuan keduanya, sembilan prompt berbeda digunakan untuk menghasilkan gambar dalam lima kategori: fotorealisme dan detail, kreativitas dan surealisme, orang dan potret, fleksibilitas gaya, serta akurasi objek dan branding.
Dalam kategori fotorealisme dan detail, Gemini 2.5 Pro unggul dalam menghasilkan gambar ruang tamu yang nyaman dengan pencahayaan yang akurat dan pasar malam di Bangkok dengan detail yang lebih hidup. Namun, ChatGPT-5 berhasil menciptakan refleksi lampu neon yang lebih memukau di pasar malam tersebut.
Pada kategori kreativitas dan surealisme, Gemini 2.5 Pro kembali menunjukkan keunggulannya dengan menciptakan kota futuristik yang realistis dan pesta teh di bulan dengan detail yang menakjubkan. ChatGPT-5 menghasilkan ilustrasi pesta teh yang lebih unik dan bergaya storybook.
Untuk kategori orang dan potret, Gemini 2.5 Pro berhasil menangkap momen candid seorang wanita yang tertawa di kafe di Paris dan suasana bermain sepak bola anak-anak di taman saat matahari terbenam dengan efek motion blur yang realistis. ChatGPT-5 menghasilkan gambar yang lebih statis dan kurang otentik.
Dalam kategori fleksibilitas gaya, ChatGPT-5 unggul dalam menciptakan lukisan impresionis kanal di Venesia yang terinspirasi oleh Claude Monet. Sementara itu, Gemini 2.5 Pro menghasilkan desain poster bergaya anime Jepang yang lebih profesional dan sesuai dengan prompt.
Terakhir, pada kategori akurasi objek dan branding, Gemini 2.5 Pro berhasil menciptakan foto flat-lay iPhone dengan estetika ala Apple yang bersih dan minimalis. ChatGPT-5 menghasilkan gambar yang lebih kasual dan kurang sesuai dengan estetika tersebut.
Kesimpulan
Setelah melalui pengujian yang ketat, Gemini 2.5 Pro keluar sebagai pemenang dengan enam kemenangan dari sembilan kategori. Model dari Google ini unggul dalam fotorealisme, akurasi teknis, dan perhatian terhadap detail. Sementara itu, ChatGPT-5 menunjukkan kekuatannya dalam interpretasi artistik dan efek atmosfer.
Hasil pengujian ini mengungkapkan filosofi yang berbeda antara kedua model. Gemini cenderung mengutamakan akurasi teknis dan kepatuhan literal terhadap prompt, sementara ChatGPT lebih condong ke interpretasi artistik dan dampak visual. Pilihan antara keduanya tergantung pada preferensi pengguna, apakah lebih mengutamakan akurasi atau kreativitas.
Kedua model ini menunjukkan kemajuan signifikan dalam generasi gambar AI, menawarkan hasil berkualitas tinggi dalam waktu singkat. Pilihan antara Gemini 2.5 Pro dan ChatGPT-5 pada akhirnya bergantung pada kebutuhan konten visual Anda, apakah Anda lebih menghargai presisi teknis atau interpretasi kreatif.

