Teknologi baru ini bisa mengalahkan GPT-4 dan semuanya yang serupa

Untuk semua kehebohan mengenai program chatbot AI yang dikenal sebagai ChatGPT dari OpenAI, dan teknologi penerusnya, GPT-4, pada akhirnya, program-program tersebut hanyalah aplikasi perangkat lunak. Dan seperti semua aplikasi, mereka memiliki batasan teknis yang dapat membuat performa mereka sub-optimal.

Pada sebuah paper yang diterbitkan pada bulan Maret, ilmuwan kecerdasan buatan (AI) dari Stanford University dan institut AI MILA di Kanada mengusulkan sebuah teknologi yang mungkin jauh lebih efisien daripada GPT-4 - atau apapun yang mirip - dalam mengolah sejumlah besar data dan mengubahnya menjadi sebuah jawaban.

Juga: Mantan karyawan Apple ini ingin menggantikan smartphone dengan gadget ini

Dikenal sebagai Hyena, teknologi ini mampu mencapai akurasi yang setara pada tes benchmark, seperti menjawab pertanyaan, sementara menggunakan sebagian kecil daya komputasi. Dalam beberapa situasi, kode Hyena mampu menangani jumlah teks yang membuat teknologi GPT gagal karena kehabisan memori.

"Hasil yang menjanjikan pada skala di bawah miliar parameter menunjukkan bahwa perhatian mungkin bukan satu-satunya hal yang kita butuhkan," tulis para penulis. Komentar tersebut mengacu pada judul laporan AI bersejarah tahun 2017, 'Perhatian adalah semua yang kita butuhkan'. Dalam makalah tersebut, ilmuwan Google Ashish Vaswani dan rekan-rekannya memperkenalkan program AI Transformer Google kepada dunia. Transformer menjadi dasar untuk setiap model bahasa besar baru-baru ini.

Tetapi Transformer memiliki kelemahan besar. Ia menggunakan sesuatu yang disebut "perhatian" ("attention"), di mana program komputer mengambil informasi dalam satu kelompok simbol, seperti kata-kata, dan memindahkan informasi tersebut ke kelompok simbol baru, seperti jawaban yang Anda lihat dari ChatGPT, yaitu hasil keluaran.

Juga:Apa itu GPT-4? Inilah semua yang perlu Anda ketahui

Operasi perhatian itu -- alat penting dari semua program bahasa besar, termasuk ChatGPT dan GPT-4 -- memiliki kompleksitas komputasional "kuadrat" (Wiki "kompleksitas waktu" komputasi). Kompleksitas tersebut berarti waktu yang diperlukan oleh ChatGPT untuk menghasilkan jawaban akan meningkat seiring dengan kuadrat dari jumlah data yang dimasukkan sebagai input.

Pada suatu titik, jika terlalu banyak data - terlalu banyak kata dalam prompt, atau terlalu banyak rangkaian percakapan dalam berjam-jam mengobrol dengan program tersebut - maka baik program tersebut terhambat memberikan jawaban, atau harus diberikan lebih banyak chip GPU agar berjalan lebih cepat, menyebabkan lonjakan dalam kebutuhan komputasi.

Pada makalah terbaru yang berjudul 'Hirarki Hyena: Menuju Model Bahasa Konvolusional yang Lebih Besar', yang dipublikasikan di server pra-cetak arXiv, penulis utama Michael Poli dari Stanford dan rekannya mengusulkan untuk mengganti fungsi perhatian dalam Transformer dengan sesuatu yang sub-kuadrat, yaitu Hyena.

Juga: Apa itu Auto-GPT? Semua yang perlu diketahui tentang alat AI yang kuat berikutnya

Para penulis tidak menjelaskan arti dari nama tersebut, namun kita dapat membayangkan beberapa alasan untuk sebuah program "Hyena". Hyena adalah hewan yang hidup di Afrika dan dapat berburu dalam jarak yang jauh. Sejalan dengan itu, model bahasa yang sangat kuat bisa menjadi seperti hyena, berburu dalam jarak yang jauh untuk mencari makanan.

Tetapi para penulis benar-benar peduli dengan "hirarki", seperti yang dijelaskan dalam judulnya, dan keluarga-keluarga hyena memiliki hirarki yang ketat di mana anggota-anggota klannya memiliki tingkat peringkat yang beragam yang menentukan dominasi. Dalam suatu cara yang analog, program Hyena menerapkan serangkaian operasi yang sangat sederhana, seperti yang akan Anda lihat, berulang-ulang, sehingga mereka bergabung untuk membentuk semacam hierarki pemrosesan data. Itulah unsur kombinatorial yang membuat program ini diberi nama Hyena.

Juga:ChatGPT ke depan dapat menggantikan sebagian besar pekerjaan yang dilakukan orang hari ini, kata Ben Goertzel

Para kontributor kertas ini termasuk tokoh-tokoh terkemuka dunia AI, seperti Yoshua Bengio, direktur ilmiah MILA, yang merupakan penerima Turing Award tahun 2019, penghargaan dalam bidang komputasi yang setara dengan Nobel. Bengio banyak diakui sebagai pengembang mekanisme perhatian jauh sebelum Vaswani dan tim mengadaptasikannya untuk Transformer.

Juga di antara penulisnya adalah profesor asosiasi ilmu komputer dari Universitas Stanford, Christopher Ré, yang telah membantu dalam beberapa tahun terakhir untuk memajukan gagasan tentang AI sebagai "perangkat lunak 2.0".

Untuk mencari alternatif sub-kuadratik terhadap perhatian, Poli dan tim mempelajari bagaimana mekanisme perhatian melakukan tugasnya, untuk melihat apakah pekerjaan itu dapat dilakukan dengan lebih efisien.

Sebuah praktik terbaru dalam ilmu AI, yang dikenal sebagai interpretabilitas mekanistik, sedang menghasilkan wawasan tentang apa yang terjadi di dalam jaringan saraf, di dalam "sirkuit" komputasi perhatian. Anda dapat menganggapnya sebagai memecah perangkat lunak seperti yang Anda lakukan saat memecah jam atau PC untuk melihat komponennya dan mencari tahu bagaimana cara kerjanya.

Juga:Saya menggunakan ChatGPT untuk menulis rutinitas yang sama dalam 12 bahasa pemrograman teratas. Ini dia hasilnya

Salah satu karya yang dikutip oleh Poli dan tim adalah serangkaian eksperimen yang dilakukan oleh peneliti Nelson Elhage dari startup kecerdasan buatan Anthropic. Eksperimen tersebut memecah program Transformer untuk melihat apa yang dilakukan oleh attention.

Secara mendasar, apa yang ditemukan oleh Elhage dan tim adalah bahwa perhatian berfungsi pada tingkat paling dasarnya dengan operasi komputer yang sangat sederhana, seperti menyalin kata dari masukan terkini dan menempelkannya ke keluaran.

Misalnya, jika seseorang mulai mengetik ke dalam program model bahasa besar seperti ChatGPT suatu kalimat dari Harry Potter and the Sorcerer's Stone, seperti "Mr. Dursley adalah direktur sebuah perusahaan bernama Grunnings...", hanya dengan mengetikkan "D-u-r-s", awalan dari nama tersebut, mungkin sudah cukup untuk membuat program melengkapi nama "Dursley" karena telah melihat nama tersebut dalam kalimat sebelumnya dari Sorcerer's Stone. Sistem ini mampu menyalin dari memori catatan karakter "l-e-y" untuk melengkapi kalimat.

Juga:ChatGPT lebih mirip dengan 'kecerdasan alien' daripada otak manusia, kata futuris

Namun, operasi perhatian mengalami masalah kompleksitas kuadratik saat jumlah kata semakin banyak. Kata-kata yang lebih banyak membutuhkan lebih banyak apa yang dikenal sebagai "weight" atau parameter, untuk menjalankan operasi perhatian.

Seperti yang ditulis oleh para penulis: "Blo Transformer adalah alat yang kuat untuk pemodelan urutan, tetapi tidak tanpa keterbatasannya. Salah satu yang paling terkenal adalah biaya komputasi, yang berkembang dengan cepat saat panjang urutan masukan meningkat."

Sementara detail teknis mengenai ChatGPT dan GPT-4 belum diungkap oleh OpenAI, diyakini bahwa keduanya mungkin memiliki triliunan atau lebih parameter seperti itu. Menjalankan parameter-parameter tersebut membutuhkan lebih banyak chip GPU dari Nvidia, sehingga meningkatkan biaya komputasi.

Untuk mengurangi biaya komputasi kuadratik tersebut, Poli dan tim mengganti operasi perhatian dengan apa yang disebut "konvolusi", yang merupakan salah satu operasi tertua dalam program AI, yang diperbaiki kembali pada tahun 1980-an. Konvolusi adalah hanya sebuah filter yang dapat menyeleksi item dalam data, baik itu piksel dalam foto digital atau kata-kata dalam sebuah kalimat.

Juga:Kesuksesan ChatGPT dapat memicu pergeseran yang merugikan ke arah kerahasiaan dalam AI, kata pionir AI Bengio

Poli dan tim melakukan jenis mash-up: mereka mengambil hasil karya dari peneliti Stanford, Daniel Y. Fu dan timnya, untuk menerapkan filter konvolusi pada urutan kata, dan mereka menggabungkannya dengan hasil karya oleh akademisi David Romero dan rekan-rekannya di Vrije Universiteit Amsterdam yang memungkinkan program mengubah ukuran filter secara dinamis. Kemampuan untuk beradaptasi dengan fleksibel ini mengurangi jumlah parameter yang mahal, atau bobot, yang diperlukan oleh program.

Hasil dari mash-up ini adalah bahwa konvolusi dapat diterapkan pada sejumlah teks yang tak terbatas tanpa memerlukan parameter yang semakin banyak untuk menyalin data yang semakin banyak. Ini adalah pendekatan "berlepas perhatian", seperti yang disebutkan oleh para penulis.

"Operator hyena mampu mengurangi kesenjangan kualitas secara signifikan dengan perhatian dalam skala yang besar," tulis Poli dan timnya, "mencapai perpleksitas dan kinerja downstream yang serupa dengan anggaran komputasi yang lebih kecil." Perpleksitas adalah istilah teknis yang merujuk pada seberapa rumit jawaban yang dihasilkan oleh program seperti ChatGPT.

Untuk menunjukkan kemampuan Hyena, penulis menguji program ini menggunakan serangkaian benchmark yang menentukan seberapa baik program bahasa dalam menyelesaikan berbagai tugas kecerdasan buatan.

Juga: 'Hal-hal baru yang aneh sedang terjadi dalam perangkat lunak,' kata profesor AI Stanford, Chris Ré

Salah satu uji coba adalah Pile, kumpulan teks sebesar 825 gigabyte yang disusun oleh Eleuther.ai, badan riset AI nirlaba. Teks-teks tersebut dikumpulkan dari sumber-sumber "berkualitas tinggi" seperti PubMed, arXiv, GitHub, Kantor Paten Amerika Serikat, dan lain-lain, sehingga sumber-sumber tersebut memiliki bentuk yang lebih ketat daripada hanya diskusi di Reddit, misalnya.

Tantangan utama dalam program ini adalah untuk menghasilkan kata berikutnya ketika diberikan sejumlah kalimat baru sebagai masukan. Program Hyena berhasil mencapai skor yang setara dengan program GPT asli dari OpenAI tahun 2018, dengan 20% lebih sedikit operasi komputasi -- "arsitektur konvolusi yang pertama tanpa perhatian yang sejajar dengan kualitas GPT" dengan operasi yang lebih sedikit, tulis para peneliti.

Selanjutnya, para penulis menguji program ini pada tugas-tugas pemikiran yang dikenal sebagai SuperGLUE, diperkenalkan pada tahun 2019 oleh para sarjana di Universitas New York, Riset AI Facebook, unit DeepMind milik Google, dan Universitas Washington.

Sebagai contoh, ketika diberikan kalimat, "Tubuhku memancarkan bayangan di atas rumput", dan dua alternatif untuk penyebabnya, "matahari sedang terbit" atau "rumput dipotong", dan diminta untuk memilih salah satu di antaranya, program harus menghasilkan "matahari sedang terbit" sebagai output yang tepat.

Pada beberapa tugas, program Hyena mencapai skor yang setara atau mendekati skor versi GPT sementara dilatih dengan menggunakan kurang dari setengah jumlah data pelatihan.

Juga: Cara menggunakan Bing yang baru (dan bagaimana bedanya dengan ChatGPT)

Yang lebih menarik adalah apa yang terjadi ketika penulis meningkatkan panjang frasa yang digunakan sebagai masukan: semakin banyak kata menghasilkan peningkatan kinerja yang lebih baik. Pada 2.048 "token", yang dapat Anda anggap sebagai kata, Hyena membutuhkan waktu yang lebih sedikit untuk menyelesaikan tugas bahasa dibandingkan dengan pendekatan perhatian.

Pada 64.000 token, penulis menjelaskan, "Percepatan kecepatan Hyena mencapai 100x" -- peningkatan kinerja seratus kali lipat.

Poli dan tim berpendapat bahwa mereka tidak hanya mencoba pendekatan yang berbeda dengan Hyena, mereka telah "menghancurkan batas kuadratik", menyebabkan perubahan kualitatif dalam tingkat kesulitan bagi sebuah program untuk menghitung hasil.

Mereka mengusulkan bahwa ada juga perubahan yang berpotensi signifikan dalam kualitas di masa depan: "Menerobos batasan kuadratik adalah langkah kunci menuju kemungkinan baru untuk pembelajaran mendalam, seperti menggunakan seluruh buku teks sebagai konteks, menghasilkan musik dalam bentuk panjang, atau memroses gambar dengan skala gigapiksel," tulis mereka.

Kemampuan Hyena untuk menggunakan filter yang meregang secara lebih efisien pada ribuan kata, tulis para penulis, berarti praktis tidak ada batasan untuk "konteks" dari sebuah permintaan ke program bahasa. Dalam kenyataannya, hal itu bisa mengingat elemen-elemen teks atau percakapan sebelumnya yang jauh terpisah dari alur percakapan saat ini - seperti halnya hyena berburu dalam jarak yang jauh.

Juga: ChatGPT dan alternatif lainnya yang menarik untuk dicoba

"Operator hyena memiliki konteks tanpa batas," tulis mereka. "Yaitu, mereka tidak dibatasi secara artifisial oleh misalnya, lokalitas, dan dapat belajar ketergantungan jarak jauh antara elemen [input] apa pun."

Selain itu, selain kata-kata, program ini dapat diterapkan pada data dengan modalitas yang berbeda, seperti gambar dan mungkin juga video dan suara.

Penting untuk diperhatikan bahwa program Hyena yang ditampilkan dalam paper ini memiliki ukuran yang kecil dibandingkan dengan GPT-4 atau bahkan GPT-3. Sedangkan GPT-3 memiliki 175 miliar parameter, atau bobot, versi terbesar dari Hyena hanya memiliki 1.3 miliar parameter. Oleh karena itu, masih perlu dilihat seberapa baik kinerja Hyena dalam perbandingan langsung dengan GPT-3 atau 4.

Tapi, jika efisiensi yang dicapai tetap berlaku pada versi yang lebih besar dari program Hyena, itu bisa menjadi paradigma baru yang sama populernya dengan perhatian yang ada selama dekade terakhir ini.

Seperti yang disimpulkan oleh Poli dan tim: "Desain yang lebih sederhana dan sub-kuadratik seperti Hyena, yang didasarkan pada serangkaian prinsip panduan sederhana dan evaluasi pada benchmark interpretasi mekanistik, dapat menjadi dasar untuk model besar yang efisien."

Teknologi baru ini dapat mengguncang GPT-4 dan segala hal yang serupa dengan itu

Artikel Terkait