OpenAI GPT-4 Akan Hadir Pertengahan Maret 2023

CTO Microsoft Jerman, Andreas Braun, mengonfirmasi bahwa GPT-4 akan hadir dalam waktu satu minggu sejak 9 Maret 2023 dan akan bersifat multimodal. Multimodal AI berarti bahwa ia akan mampu beroperasi dengan berbagai jenis input, seperti video, gambar, dan suara.

Terbaru: GPT-4 Dirilis pada 14 Maret 2023

OpenAI Merilis GPT-4 pada 14 Maret 2023. Ini adalah model multimodal yang menerima prompt gambar dan teks.

Modal adalah istilah yang digunakan dalam pembelajaran mesin untuk menunjukkan bentuk input seperti teks tetapi juga meliputi indra seperti suara, visual, bau, dll.

Pengumuman OpenAI menjelaskan sejauh mana kemajuan GPT-4:

“…meskipun kurang mampu daripada manusia dalam banyak skenario dunia nyata, memperlihatkan performa tingkat manusia pada berbagai tolok ukur profesional dan akademik.

Misalnya, ia lulus ujian simulasi bar dengan skor di sekitar 10% teratas dari peserta tes; sebaliknya, skor GPT-3.5 berada di sekitar 10% terbawah.

Kami telah menghabiskan 6 bulan secara iteratif menyelaraskan GPT-4 menggunakan pelajaran dari program pengujian adversarial kami serta ChatGPT, menghasilkan hasil terbaik kami (meskipun jauh dari sempurna) pada faktualitas, kemampuan dikemudikan, dan menolak untuk keluar dari pembatasan.”

Model Bahasa Multimodal Besar

Penting untuk diperhatikan dari pengumuman ini adalah bahwa GPT-4 adalah multimodal (SEJ memprediksi GPT-4 adalah multimodal pada bulan Januari 2023).

Modality adalah referensi terhadap tipe input yang (dalam hal ini) sebuah model bahasa besar harus menangani.

Multimodal dapat mencakup teks, ucapan, gambar, dan video.

GPT-3 dan GPT-3.5 hanya beroperasi dalam satu modaitas, teks.

Menurut laporan berita Jerman, GPT-4 mungkin bisa beroperasi dalam setidaknya empat modalitas, gambar, suara (auditif), teks, dan video.

Dr. Andreas Braun, CTO Microsoft Jerman mengatakan:

“Kami akan memperkenalkan GPT-4 minggu depan, di sana kami akan memiliki model multimodal yang akan menawarkan kemungkinan yang benar-benar berbeda - misalnya video…”

Rapor tersebut kurang detail untuk GPT-4, sehingga tidak jelas apakah yang dibagikan mengenai multimodalitas itu khusus untuk GPT-4 atau hanya secara umum.

Microsoft Direktur Strategi Bisnis Holger Kenn menjelaskan multimodalitas namun laporan tersebut tidak jelas apakah dia mengacu pada multimodalitas GPT-4 atau multimodalitas secara umum.

Saya percaya bahwa referensi-referensinya terhadap multimodalitas khusus untuk GPT-4.

Berita tersebut berbagi:

“Kenn menjelaskan tentang apa yang dimaksud dengan AI multimodal, yang dapat menerjemahkan teks tidak hanya secara tepat menjadi gambar, tetapi juga menjadi musik dan video.”

Fakta menarik lainnya adalah bahwa Microsoft sedang bekerja pada "metrik kepercayaan" untuk mengokohkan AI mereka dengan fakta agar lebih dapat diandalkan.

Microsoft Kosmos-1

Ada sesuatu yang tampaknya kurang dilaporkan di Amerika Serikat, yaitu bahwa Microsoft merilis model bahasa multimodal bernama Kosmos-1 pada awal Maret 2023.

Menurut laporan dari situs berita Jerman, Heise.de:

“...tim tersebut menguji model yang telah dilatih sebelumnya menggunakan berbagai tes, dengan hasil yang baik dalam mengklasifikasikan gambar, menjawab pertanyaan tentang konten gambar, memberi label otomatis pada gambar, pengenalan teks optik, dan tugas generasi suara.

...Penalaran visual, yaitu menarik kesimpulan tentang gambar tanpa menggunakan bahasa sebagai langkah perantara, nampaknya menjadi kunci di sini...

Kosmos-1 adalah sebuah model multimodal yang mengintegrasikan modalitas teks dan gambar.

GPT-4 mencapai lebih dari Kosmos-1 karena menambahkan modalitas ketiga, video, dan juga tampaknya termasuk modalitas suara.

Bekerja di Seluruh Bahasa

GPT-4 sepertinya dapat bekerja dalam semua bahasa. Dikatakan dapat menerima pertanyaan dalam bahasa Jerman dan menjawab dalam bahasa Italia.

Itu adalah contoh yang agak aneh, karena siapa yang akan bertanya dalam bahasa Jerman dan ingin menerima jawaban dalam bahasa Italia?

Ini apa yang telah dikonfirmasi:

"...teknologi ini telah berkembang begitu jauh sehingga pada dasarnya "bekerja dalam semua bahasa": Anda dapat mengajukan pertanyaan dalam bahasa Jerman dan mendapatkan jawaban dalam bahasa Italia.

Dengan multimodalitas, Microsoft (-OpenAI) akan 'membuat model-model tersebut lengkap'."

Saya percaya bahwa tujuan terobosan ini adalah bahwa model tersebut melampaui bahasa dengan kemampuannya untuk mengumpulkan pengetahuan dari berbagai bahasa yang berbeda. Jadi jika jawabannya dalam bahasa Italia, ia akan tahu dan dapat memberikan jawaban dalam bahasa di mana pertanyaan diajukan.

Itu akan membuatnya mirip dengan tujuan AI multimodal Google yang disebut MUM. MUM dikatakan mampu memberikan jawaban dalam bahasa Inggris untuk data yang hanya ada dalam bahasa lain, seperti bahasa Jepang.

Aplikasi GPT-4

Tidak ada pengumuman terkini tentang di mana GPT-4 akan muncul. Tetapi Azure-OpenAI secara khusus disebutkan.

Google berusaha keras untuk mengejar ketertinggalan dari Microsoft dengan mengintegrasikan teknologi pesaing ke mesin pencarinya sendiri. Perkembangan ini semakin memperburuk persepsi bahwa Google tertinggal dan kurang memiliki kepemimpinan dalam AI yang berorientasi konsumen.

Google sudah mengintegrasikan kecerdasan buatan (AI) dalam berbagai produk seperti Google Lens, Google Maps, dan area lain di mana konsumen berinteraksi dengan Google. Pendekatan ini adalah untuk memanfaatkan AI sebagai teknologi pendukung, untuk membantu orang dalam tugas-tugas kecil.

Cara yang digunakan oleh Microsoft ini lebih terlihat dan sebagai akibatnya, menarik semua perhatian dan memperkuat gambaran bahwa Google sedang berjuang keras untuk mengejar.

Baca pengumuman resmi tentang rilis OpenAI GPT-4 di sini

Baca laporan asli dalam bahasa Jerman di sini:

GPT-4 akan hadir minggu depan - dan ini akan menjadi multimodal, kata Microsoft Jerman

OpenAI GPT-4 Akan Tiba Pertengahan Maret 2023

Terbaru: GPT-4 Dirilis pada 14 Maret 2023

Model Bahasa Multimodal Besar

Microsoft Kosmos-1

Bekerja di Seluruh Bahasa

Aplikasi GPT-4

Artikel Terkait