Bagaimana Tanda Air ChatGPT Bekerja Dan Mengapa Bisa Dikalahkan

chatgpt-watermarking.jpg

ChatGPT OpenAI memperkenalkan cara untuk membuat konten secara otomatis tetapi rencana untuk memperkenalkan fitur tanda air agar mudah dideteksi membuat beberapa orang gugup. Beginilah cara kerja watermarking ChatGPT dan mengapa mungkin ada cara untuk mengalahkannya.

ChatGPT adalah alat luar biasa yang disukai dan ditakuti oleh penerbit online, afiliasi, dan SEO.

Beberapa pemasar menyukainya karena mereka menemukan cara baru untuk menggunakannya untuk menghasilkan ringkasan konten, garis besar, dan artikel kompleks.

Penerbit online takut akan kemungkinan konten AI membanjiri hasil pencarian, menggantikan artikel ahli yang ditulis oleh manusia.

Akibatnya, berita tentang fitur watermarking yang membuka kunci deteksi konten yang dibuat oleh ChatGPT juga diantisipasi dengan kecemasan dan harapan.

Tanda Air Kriptografi

Tanda air adalah tanda semi-transparan (logo atau teks) yang disematkan ke gambar. Tanda air menandakan siapa penulis asli karya tersebut.

Ini sebagian besar terlihat di foto dan semakin banyak di video.

Watermarking teks pada ChatGPT melibatkan kriptografi berupa penyisipan pola kata, huruf dan tanda baca berupa kode rahasia.

Scott Aaronson dan Tanda Air ChatGPT

Seorang ilmuwan komputer berpengaruh bernama Scott Aaronson dipekerjakan oleh OpenAI pada Juni 2022 untuk mengerjakan Keamanan dan Penyelarasan AI.

Keamanan AI adalah bidang penelitian yang berkaitan dengan mempelajari cara-cara AI dapat membahayakan manusia dan menciptakan cara untuk mencegah gangguan negatif semacam itu.

Jurnal ilmiah Distill, menampilkan penulis yang berafiliasi dengan OpenAI, mendefinisikan Keamanan AI seperti ini:

“Tujuan keamanan kecerdasan buatan (AI) jangka panjang adalah untuk memastikan bahwa sistem AI canggih selaras dengan nilai-nilai kemanusiaan — bahwa mereka dapat melakukan hal-hal yang diinginkan orang dengan andal.”

AI Alignment adalah bidang kecerdasan buatan yang berkaitan dengan memastikan bahwa AI selaras dengan tujuan yang diinginkan.

Model bahasa besar (LLM) seperti ChatGPT dapat digunakan dengan cara yang mungkin bertentangan dengan tujuan Penyelarasan AI seperti yang didefinisikan oleh OpenAI, yaitu untuk menciptakan AI yang bermanfaat bagi umat manusia.

Dengan demikian, alasan watermarking adalah untuk mencegah penyalahgunaan AI yang merugikan umat manusia.

Aaronson menjelaskan alasan watermark keluaran ChatGPT:

“Ini bisa membantu untuk mencegah plagiarisme akademik, tentu saja, tetapi juga, misalnya, propaganda massal…”

Bagaimana Cara Kerja Watermarking ChatGPT?

Watermarking ChatGPT adalah sistem yang menyematkan pola statistik, kode, ke dalam pilihan kata dan bahkan tanda baca.

Konten yang dibuat oleh kecerdasan buatan dihasilkan dengan pola pilihan kata yang cukup dapat diprediksi.

Kata-kata yang ditulis oleh manusia dan AI mengikuti pola statistik.

Mengubah pola kata-kata yang digunakan dalam konten yang dihasilkan adalah cara untuk "menandai air" teks untuk memudahkan sistem mendeteksi apakah itu adalah produk dari pembuat teks AI.

Trik yang membuat watermarking konten AI tidak terdeteksi adalah distribusi kata masih memiliki tampilan acak yang mirip dengan teks biasa yang dihasilkan AI.

Ini disebut sebagai distribusi kata acak semu.

Pseudorandomness adalah rangkaian kata atau angka yang acak secara statistik yang sebenarnya tidak acak.

Tanda air ChatGPT saat ini tidak digunakan. Namun Scott Aaronson di OpenAI tercatat menyatakan bahwa itu direncanakan.

Saat ini ChatGPT sedang dalam pratinjau, yang memungkinkan OpenAI menemukan "ketidaksejajaran" melalui penggunaan di dunia nyata.

Agaknya watermarking dapat diperkenalkan di versi final ChatGPT atau lebih cepat dari itu.

Scott Aaronson menulis tentang cara kerja watermarking:

“Proyek utama saya sejauh ini adalah alat untuk menandai secara statistik keluaran model teks seperti GPT.

Pada dasarnya, setiap kali GPT menghasilkan teks panjang, kami ingin ada sinyal rahasia yang tidak terlalu mencolok dalam pilihan kata-katanya, yang dapat Anda gunakan untuk membuktikan nanti bahwa, ya, ini berasal dari GPT.”

Aaronson menjelaskan lebih jauh bagaimana cara kerja watermarking ChatGPT. Namun pertama-tama, penting untuk memahami konsep tokenisasi.

Tokenisasi adalah langkah yang terjadi dalam pemrosesan bahasa alami di mana mesin mengambil kata-kata dalam dokumen dan memecahnya menjadi unit semantik seperti kata dan kalimat.

Tokenisasi mengubah teks menjadi bentuk terstruktur yang dapat digunakan dalam pembelajaran mesin.

Proses pembuatan teks adalah mesin yang menebak token mana yang datang berikutnya berdasarkan token sebelumnya.

Ini dilakukan dengan fungsi matematis yang menentukan probabilitas token berikutnya, yang disebut distribusi probabilitas.

Kata apa selanjutnya diprediksi tapi itu acak.

Tanda air itu sendiri adalah apa yang Aaron gambarkan sebagai pseudorandom, karena ada alasan matematis untuk kata atau tanda baca tertentu ada di sana tetapi masih acak secara statistik.

Berikut penjelasan teknis watermarking GPT:

“Untuk GPT, setiap input dan output adalah rangkaian token, yang bisa berupa kata-kata tetapi juga tanda baca, bagian dari kata, atau lebih—total ada sekitar 100.000 token.

Pada intinya, GPT secara konstan menghasilkan distribusi probabilitas pada token berikutnya untuk dihasilkan, tergantung pada rangkaian token sebelumnya.

Setelah jaringan saraf menghasilkan distribusi, server OpenAI kemudian benar-benar mengambil sampel token sesuai dengan distribusi itu—atau beberapa versi distribusi yang dimodifikasi, bergantung pada parameter yang disebut 'suhu'.

Namun, selama suhu bukan nol, biasanya akan ada beberapa keacakan dalam pemilihan token berikutnya: Anda dapat berulang kali menggunakan perintah yang sama, dan mendapatkan penyelesaian yang berbeda (yaitu, rangkaian token keluaran) setiap kali .

Jadi untuk menandai air, alih-alih memilih token berikutnya secara acak, idenya adalah memilihnya secara acak semu, menggunakan fungsi acak semu kriptografi, yang kuncinya hanya diketahui oleh OpenAI.”

Tanda air terlihat sangat alami bagi mereka yang membaca teks karena pilihan kata meniru keacakan semua kata lainnya.

Ini penjelasan teknisnya:

“Sebagai ilustrasi, dalam kasus khusus bahwa GPT memiliki banyak kemungkinan token yang dinilai sama kemungkinannya, Anda dapat memilih token mana saja yang dimaksimalkan g. Pilihannya akan terlihat acak secara seragam bagi seseorang yang tidak mengetahui kuncinya, tetapi seseorang yang mengetahui kunci tersebut nantinya dapat menjumlahkan semua n-gram dan melihat bahwa itu sangat besar.

Watermarking adalah Solusi yang Mengutamakan Privasi

Saya telah melihat diskusi di media sosial di mana beberapa orang menyarankan agar OpenAI dapat menyimpan catatan setiap keluaran yang dihasilkannya dan menggunakannya untuk deteksi.

Scott Aaronson mengonfirmasi bahwa OpenAI dapat melakukan itu tetapi hal itu menimbulkan masalah privasi. Pengecualian yang mungkin terjadi adalah untuk situasi penegakan hukum, yang tidak dia uraikan lebih lanjut.

Cara Mendeteksi ChatGPT atau GPT Watermarking

Sesuatu yang menarik yang tampaknya belum banyak diketahui adalah bahwa Scott Aaronson mencatat bahwa ada cara untuk mengalahkan watermarking.

Dia tidak mengatakan itu mungkin untuk mengalahkan watermarking, dia mengatakan bahwa itu bisa dikalahkan.

“Sekarang, ini semua bisa dikalahkan dengan usaha yang cukup.

Misalnya, jika Anda menggunakan AI lain untuk memparafrasekan keluaran GPT—baiklah, kami tidak akan dapat mendeteksinya.”

Sepertinya watermarking bisa dikalahkan, setidaknya sejak November ketika pernyataan di atas dibuat.

Tidak ada indikasi bahwa watermarking sedang digunakan. Tetapi ketika mulai digunakan, mungkin tidak diketahui apakah celah ini ditutup.

Kutipan

Baca postingan blog Scott Aaronson di sini.

Buka kekuatan AI dengan HIX.AI!