Bagaimana Chat GPT dilatih?

Jika Anda sudah familiar dengan ChatGPT, maka Anda mungkin sudah mengetahui bahwa ChatGPT dilatih dengan menggunakan data korpus yang sangat luas. Namun, apa sebenarnya yang dimaksud dengan hal ini? Dalam artikel ini, kami akan membahas secara detail mengenai bagaimana ChatGPT dilatih."

ChatGPT adalah model bahasa pra-terlatih yang telah disesuaikan melalui kombinasi teknik pembelajaran terawasi dan penguatan. Proses pelatihan ChatGPT melibatkan memasukkan sejumlah besar data teks ke dalam model dan menyesuaikan parameter agar dapat menghasilkan teks yang serupa dengan teks dalam korpus pelatihan.

Pendekatan pembelajaran tidak terawasi digunakan untuk proses ini, yang berarti model tidak diberikan umpan balik eksplisit tentang apakah teks yang dihasilkannya benar atau salah. Sebaliknya, model menyesuaikan parameternya berdasarkan kemungkinan teks yang dihasilkan mirip dengan teks dalam korpus pelatihan.

GPT-3, model induk ChatGPT-3, adalah salah satu model bahasa terbesar yang pernah dibuat, dengan 175 miliar parameter dan konteks 2048-token panjang. Ia dilatih pada ratusan miliar kata dari Common Crawl, WebText2, Books1/2, Wikipedia dalam bahasa Inggris, dan contoh kode dalam CSS, JSX, Python, dan bahasa pemrograman lainnya.

Metode pelatihan yang digunakan untuk GPT-3 adalah pretraining generatif, yang berarti dilatih untuk memprediksi token atau kata berikutnya dalam kalimat masukan.

Alternatif terbaik Chat GPT

Pembelajaran Terpantau

Model ChatGPT difeinisikan melalui proses pembelajaran terawasi oleh pelatih manusia. Para pelatih terlibat dalam percakapan, menjadi pengguna dan asisten AI.

Berdasarkan saran dari model ini, mereka menghasilkan respon, dan dicampurkan dengan dataset InstructGPT dalam format dialog.

Pembelajaran penguatan

Model ini lebih ditingkatkan melalui pembelajaran penguatan dengan menggunakan Proximal Policy Optimization (PPO). Pelatih manusia mengevaluasi respon yang dihasilkan oleh model dari percakapan sebelumnya dan menggunakan evaluasi tersebut untuk mengembangkan model reward. Model kemudian disesuaikan kembali berdasarkan model reward ini.

Proses penyetelan halus dilakukan beberapa kali untuk mencapai kinerja yang lebih baik. Algoritma PPO lebih hemat biaya dibandingkan dengan algoritma lain dan memiliki kinerja yang lebih cepat, sehingga cocok untuk proses ini.

OpenAI terus mengumpulkan informasi dari pengguna yang berinteraksi dengan ChatGPT, yang kemudian dapat digunakan untuk meningkatkan dan menyempurnakan model lebih lanjut.

Pengguna memiliki opsi untuk memberikan suara pada respons ChatGPT dengan cara memberikan suara atas atau bawah, dan mereka juga memiliki kesempatan untuk memberikan umpan balik tambahan. Data ini digunakan untuk meningkatkan kinerja model lebih lanjut dan membuatnya lebih baik dalam menghasilkan teks yang menyerupai manusia.

Data yang Digunakan untuk Melatih Model

ChatGPT-3 adalah sebuah model bahasa yang disesuaikan dari seri GPT-3.5, yang dilatih menggunakan infrastruktur superkomputasi Azure AI. Model ini dilatih dengan jumlah data teks yang sangat besar yang diperoleh dari internet, meliputi buku, forum obrolan, artikel, situs web, makalah akademis, kode, dan sumber lainnya.

Korpus data teks yang digunakan untuk melatih ChatGPT-3 memiliki ukuran lebih dari 45 Terabyte, yang sangat besar dan berkontribusi pada kemampuan model untuk menghasilkan teks yang mirip dengan apa yang mungkin dihasilkan oleh seorang jurnalis atau penulis buku.

Bagaimana Chat GPT dilatih?

Pembelajaran Terpantau

Pembelajaran penguatan

Data yang Digunakan untuk Melatih Model

Artikel Terkait