GPT-3 yang luar biasa dari OpenAI mengisyaratkan batasan-batasan model bahasa untuk AI

Sedikit lebih dari setahun yang lalu, OpenAI, perusahaan kecerdasan buatan yang berbasis di San Francisco, mengejutkan dunia dengan menunjukkan lompatan dramatis dalam apa yang tampaknya menjadi kekuatan komputer untuk memformulasikan kalimat-kalimat berbahasa alami, bahkan memecahkan pertanyaan-pertanyaan, seperti melengkapi sebuah kalimat, dan merumuskan teks-teks panjang yang orang-orang anggap cukup manusiawi.

Karya terbaru dari tim tersebut menunjukkan bagaimana pemikiran OpenAI telah berkembang dalam beberapa hal. GPT-3, yang disebut sebagai penciptaan terbaru, muncul minggu lalu, dengan fitur-fitur tambahan, dibuat oleh beberapa penulis yang sama dengan versi sebelumnya, termasuk Alec Radford dan Ilya Sutskever, bersama dengan beberapa kolaborator tambahan, termasuk ilmuwan dari Universitas Johns Hopkins.

Ini sekarang menjadi model bahasa monster sejati, seperti yang disebut, menelan dua tingkat lebih banyak teks daripada pendahulunya.

Tetapi dalam aksi besar-lebih-baik itu, tim OpenAI tampaknya mendekati beberapa kebenaran yang lebih dalam, seperti yang dilakukan Dr. David Bowman dalam batasan yang diketahui pada akhir film 2001.

Tersembunyi di bagian penutup dari paper berhalaman 72, Language Models are Few-Shot Learners, yang diposting pekan lalu di server pra-cetak arXiv, terdapat pengakuan yang cukup mencolok.

"Batasan yang lebih mendasar dari pendekatan umum yang dijelaskan dalam makalah ini - skalabilitas model sejenis LM, baik itu autoregressive maupun bidirectional - adalah bahwa pada akhirnya mungkin akan mencapai (atau mungkin sudah mencapai) batasan objektif pra-pelatihan," tulis para penulis.

Apa yang dikatakan oleh para penulis adalah bahwa membangun jaringan syaraf yang hanya memprediksi probabilitas kata berikutnya dalam kalimat atau frase mungkin memiliki batasannya. Hanya membuatnya semakin kuat dan mengisinya dengan teks yang semakin banyak mungkin tidak menghasilkan hasil yang lebih baik. Itu adalah pengakuan yang signifikan dalam sebuah makalah yang pada umumnya merayakan pencapaian dalam menghadapi masalah dengan lebih banyak daya komputasi.

gpt-3-versus.jpg

Untuk memahami mengapa kesimpulan para penulis begitu signifikan, pertimbangkan bagaimana kita sampai di sini. Sejarah karya OpenAI dalam bidang bahasa telah menjadi bagian dari sejarah kemajuan yang mantap dari satu jenis pendekatan, dengan keberhasilan yang semakin besar seiring dengan teknologi yang semakin besar dan besar.

GPT asli, dan GPT-2, keduanya adalah adaptasi dari apa yang dikenal sebagai Transformer, sebuah penemuan yang dipelopori di Google pada tahun 2017. Transformer menggunakan fungsi yang disebut perhatian untuk menghitung probabilitas bahwa sebuah kata akan muncul mengingat kata-kata di sekitarnya. OpenAI menyebabkan kontroversi setahun yang lalu ketika ia mengatakan tidak akan merilis kode sumber untuk versi terbesar dari GPT-2, karena, katanya, kode tersebut dapat jatuh ke tangan yang salah dan disalahgunakan untuk menyesatkan orang dengan hal-hal seperti berita palsu.

Kertas baru ini membawa GPT ke level berikutnya dengan membuatnya semakin besar. Versi terbesar GPT-2, yang tidak diposting dalam bentuk sumber, memiliki 1,5 miliar parameter. GPT-3 memiliki 175 miliar parameter. Parameter adalah perhitungan dalam jaringan saraf yang memberikan bobot yang lebih besar atau lebih kecil pada beberapa aspek data, untuk memberikan aspek tersebut lebih penting atau kurang penting dalam perhitungan keseluruhan data. Inilah bobot-bobot ini yang memberikan bentuk pada data dan memberikan perspektif yang telah dipelajari oleh jaringan saraf pada data tersebut.

Meningkatkan bobot dari waktu ke waktu telah menghasilkan hasil tes benchmark yang luar biasa oleh keluarga program GPT, dan oleh varian Transformer besar lainnya, seperti Google BERT, hasil yang secara konsisten sangat mengesankan.

Tidak masalah bahwa banyak orang telah menunjukkan bahwa tidak ada satu pun dari model bahasa ini tampaknya benar-benar memahami bahasa dengan cara yang berarti. Mereka berhasil dalam menguji, dan itu berarti sesuatu.

Versi terbaru lagi menunjukkan kemajuan kuantitatif. Seperti GPT-2 dan program berbasis Transformer lainnya, GPT-3 dilatih dengan menggunakan set data Common Crawl, yang merupakan kumpulan hampir satu triliun kata teks yang dipindahkan dari web. "Ukuran dataset dan model ini sekitar dua orde lebih besar daripada yang digunakan untuk GPT-2," kata para penulis.

GPT-3 dengan 175 miliar parameter mampu mencapai apa yang penulis sebut sebagai "meta-learning". Meta-learning berarti bahwa jaringan saraf GPT tidak dilatih ulang untuk melakukan tugas seperti melengkapi kalimat. Diberikan contoh tugas, seperti kalimat yang belum lengkap, dan kemudian kalimat yang lengkap, GPT-3 akan melanjutkan untuk melengkapi kalimat apa pun yang diberikan kepadanya.

GPT-3 mampu belajar melakukan tugas dengan satu petunjuk saja, bahkan lebih baik dalam beberapa kasus daripada versi Transformer yang telah disesuaikan, seolah-olah, untuk melakukan tugas tersebut secara khusus. Oleh karena itu, GPT-3 merupakan keberhasilan dalam hal keumuman yang menyeluruh. Cukup berikan jumlah teks yang sangat besar hingga bobotnya menjadi ideal, dan GPT-3 dapat melakukannya dengan cukup baik dalam beberapa tugas spesifik tanpa pengembangan lebih lanjut.

Di situlah cerita ini mencapai akhir yang mencolok dalam makalah baru tersebut. Setelah mencantumkan hasil yang mengesankan dari GPT-3 pada tugas-tugas bahasa yang meliputi melengkapi kalimat, menyimpulkan implikasi logis dari pernyataan, hingga menerjemahkan antara bahasa, para penulis mencatat kekurangannya.

"Meskipun terdapat peningkatan kuantitatif dan kualitatif yang signifikan pada GPT-3, terutama dibandingkan dengan pendahulunya, GPT-2, masih terdapat kelemahan yang mencolok."

Kelemahan-kelemahan tersebut mencakup ketidakmampuan untuk mencapai akurasi signifikan dalam apa yang disebut Adversarial NLI. NLI, atau inferensi bahasa alami, adalah sebuah tes dimana program harus menentukan hubungan antara dua kalimat. Peneliti dari Facebook dan Universitas North Carolina telah memperkenalkan versi yang bersifat adversarial, di mana manusia menciptakan pasangan kalimat yang sulit untuk dipecahkan oleh komputer.

GPT-3 hanya sedikit lebih baik daripada kebetulan pada hal-hal seperti Adversarial NLI, tulis para penulis. Lebih buruk lagi, setelah meningkatkan kekuatan pemrosesan sistem mereka hingga 175 miliar bobot, para penulis tidak begitu yakin mengapa mereka gagal dalam beberapa tugas.

Itu ketika mereka sampai pada kesimpulan, yang dikutip di atas, bahwa mungkin memberi makan teks berlimpah kepada mesin raksasa bukanlah jawaban yang paling tepat.

Lebih mengejutkan lagi adalah pengamatan berikutnya. Praktik seluruh usaha untuk mencoba memprediksi apa yang akan terjadi dengan bahasa mungkin merupakan pendekatan yang salah, tulis para penulis. Mereka mungkin sedang mengarah ke tempat yang salah.

"Dengan tujuan mandiri yang ditetapkan, spesifikasi tugas bergantung pada memaksa tugas yang diinginkan menjadi masalah prediksi," tulis mereka, "sedangkan pada akhirnya, sistem bahasa yang berguna (misalnya asisten virtual) mungkin lebih baik dipikirkan sebagai penerima tindakan yang ditujukan untuk mencapai tujuan daripada hanya membuat prediksi."

Penulis-penulis ini akan menunda untuk saat lain untuk menentukan bagaimana mereka akan mengambil arah baru yang cukup menarik ini.

Meskipun menyadari bahwa yang lebih besar mungkin tidak selalu yang terbaik, hasil yang ditingkatkan dari GPT-3 dalam berbagai tugas kemungkinan akan mendorong, bukan mengurangi, keinginan untuk jaringan saraf yang lebih besar lagi. Dengan 175 miliar parameter, GPT-3 adalah raja jaringan saraf besar, untuk saat ini. Sebuah presentasi pada bulan April oleh perusahaan chip AI Tenstorrent menggambarkan jaringan saraf masa depan dengan lebih dari satu triliun parameter.

Bagi sebagian besar komunitas pembelajaran mesin, pemodelan bahasa yang lebih besar dan lebih besar akan tetap menjadi yang paling canggih.

Buka kekuatan AI dengan HIX.AI!