11 Kelemahan dari Konten ChatGPT

Highlight

Mengapa konten ChatGPT berkualitas rendah lolos dari tinjauan manusia.
ChatGPT komprehensif bahkan ketika seharusnya ringkas.
Profesor mengutip kelemahan yang merusak esai yang dibuat oleh ChatGPT.
ChatGPT gagal dalam uji deteksi android fiktif Voight-Kampff dan alasan mengejutkan mengapa hal ini penting.

ChatGPT memproduksi konten yang mendalam dan akurat.

Namun para peneliti, seniman, dan profesor mengingatkan untuk waspada terhadap kekurangan yang dapat menurunkan kualitas konten.

Di artikel ini, kita akan melihat 11 kekurangan dari konten ChatGPT. Mari kita lihat.

1. Penggunaan Frasa Membuatnya Mudah Dideteksi Sebagai Non-Manusia

Peneliti yang mempelajari cara mendeteksi konten yang dibuat mesin telah menemukan pola yang membuatnya terdengar tidak alami.

Salah satu keanehan ini adalah bagaimana AI kesulitan dengan ungkapan.

Idiom adalah frasa atau ungkapan dengan makna kiasan yang melekat di dalamnya, misalnya, "setiap awan memiliki garis perak."

Ketidakberadaan ungkapan dalam sebuah konten bisa menjadi indikasi konten tersebut dibuat oleh mesin - dan hal ini bisa menjadi bagian dari sebuah algoritma deteksi.

Ini adalah yang dikatakan oleh paper penelitian 2022 Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers tentang keunikan dalam konten yang dihasilkan mesin:

"Fitur frasa kompleks didasarkan pada frekuensi kata-kata dan frasa tertentu dalam teks yang dianalisis yang terjadi lebih sering dalam teks manusia.

…Dari fitur frasa kompleks ini, fitur idiom mempertahankan daya prediktif yang paling besar dalam mendeteksi model generatif saat ini."

Ketidakmampuan untuk menggunakan idiom berkontribusi dalam membuat output ChatGPT terdengar dan terbaca tidak alami.

2. ChatGPT Kurang Mampu Untuk Ekspresi

Seorang seniman memberikan komentar mengenai bagaimana output dari ChatGPT menyerupai seni, tetapi kurang memiliki kualitas dalam ekspresi seni yang sebenarnya.

Ekspresi adalah tindakan komunikasi dari pemikiran atau perasaan.

Output ChatGPT tidak mengandung ungkapan, hanya kata-kata.

Teknologi akan sulit menghasilkan konten yang menyentuh emosi orang secara sama seperti manusia bisa melakukannya - karena teknologi tidak memiliki pikiran atau perasaan sebenarnya.

Seniman musik Nick Cave, dalam sebuah artikel yang diposting di buletin Red Hand Files-nya, mengomentari lirik ChatGPT yang dikirimkan kepadanya, yang dibuat dalam gaya Nick Cave.

Toolkit Pemasaran Konten Baru Bertenaga Kecerdasan Buatan
Pakai teknologi generasi terdepan sebelum pesaing Anda melakukannya. Buatlah konten yang teroptimasi dengan baik dan terarah sehingga memberikan hasil tiga kali lebih cepat.

Dia menulis:

"Yang membuat sebuah lagu menjadi hebat bukanlah kemiripannya dengan karya yang dikenali.

...ini adalah konfrontasi tak berdaya dengan kerentanan, ketakutan, dan keterbatasan seseorang, terhadap rasa penemuan yang tiba-tiba; ini adalah tindakan artistik yang menebus dan menggelitik hati pendengar, di mana pendengar mengenali dalam kerja batin lagu itu darah mereka sendiri, perjuangan mereka sendiri, dan penderitaan mereka sendiri.

Cave menyebut lirik ChatGPT sebagai ejekan.

Ini adalah lirik ChatGPT yang menyerupai lirik Nick Cave:

“Aku memiliki darah para malaikat di tanganku
Aku memiliki api neraka di matamu
Aku adalah raja jurang, aku penguasa kegelapan
Aku orang yang mereka takuti, di mana bayangan berkumpul”

Dan ini adalah lirik sebenarnya dari Nick Cave (Brother, My Cup Is Empty):

"Sudah kuluncurkan diriku di atas pelangi
Sudah kugantungkan diriku di balik bintang-bintang
Sekarang orang miskin ini dalam balutan kumal
Mengetuk-ngetukkan gelas di balik jeruji besi
Lihat, gelasku kosong!
Terasa kuhilangkan semua hasratku
Sekarang kuhadapi sisa-sisa abu
Dari semua api di masa lalu"

Mudah terlihat bahwa lirik yang dihasilkan oleh mesin mirip dengan lirik yang dibuat oleh artis, tetapi sebenarnya tidak mengkomunikasikan hal apapun.

Lirik Nick Cave menceritakan kisah yang berkaitan dengan kesedihan, keinginan, rasa malu, dan kecurangan yang dilakukan oleh orang yang bercerita dalam lagu tersebut. Lirik ini mengungkapkan pemikiran dan perasaan.

Mudah dipahami mengapa Nick Cave menyebutnya sebagai pengejekan.

3. ChatGPT Tidak Menghasilkan Wawasan

Sebuah artikel yang diterbitkan di The Insider mengutip seorang akademisi yang mencatat bahwa esai akademik yang dihasilkan oleh ChatGPT kurang memiliki wawasan tentang topiknya.

ChatGPT merangkum topik namun tidak memberikan pandangan unik terhadap topik tersebut.

Manusia menciptakan melalui pengetahuan, tetapi juga melalui pengalaman pribadi dan persepsi subyektif mereka.

Profesor Christopher Bartel dari Appalachian State University dikutip oleh The Insider mengatakan bahwa, meskipun sebuah esai ChatGPT mungkin memiliki kualitas tata bahasa yang tinggi dan ide yang canggih, namun tetap kurang memiliki wawasan yang cukup.

Bartel berkata:

"Mereka sangat lembut. Tidak ada konteks, tidak ada kedalaman atau wawasan."

Wawasan adalah ciri khas dari sebuah esai yang baik dan ini adalah sesuatu yang tidak begitu terampil dilakukan oleh ChatGPT.

Ketidakmampuan untuk memahami hal-hal seperti ini perlu diingat ketika mengevaluasi konten yang dihasilkan oleh mesin.

4. ChatGPT Terlalu Banyak Berbicara

Sebuah makalah penelitian yang diterbitkan pada Januari 2023 menemukan pola pada isi ChatGPT yang membuatnya kurang cocok untuk aplikasi kritis.

Artikel ini berjudul, Seberapa Dekat ChatGPT dengan Pakar Manusia? Perbandingan Corpus, Evaluasi, dan Deteksi.

Penelitian menunjukkan bahwa manusia lebih memilih jawaban dari ChatGPT dalam lebih dari 50% pertanyaan yang berkaitan dengan keuangan dan psikologi.

Namun ChatGPT gagal dalam menjawab pertanyaan medis karena manusia lebih memilih jawaban langsung - hal yang tidak dapat diberikan oleh kecerdasan buatan.

Para peneliti menulis:

"...ChatGPT memiliki kinerja yang kurang baik dalam hal kesesuaian dengan domain medis baik dalam bahasa Inggris maupun bahasa Cina."

Menurut dataset kami, ChatGPT sering memberikan jawaban panjang pada konsultasi medis, sedangkan para ahli manusia mungkin langsung memberikan jawaban atau sugesti yang mudah dipahami, dan ini mungkin menjelaskan mengapa sukarelawan menganggap jawaban dari ahli manusia lebih membantu dalam domain medis.

ChatGPT cenderung menutupi topik dari sudut pandang yang berbeda-beda, sehingga kurang tepat saat jawaban terbaik adalah yang langsung.

Para pemasar yang menggunakan ChatGPT harus memperhatikan ini karena pengunjung situs yang memerlukan jawaban langsung tidak akan puas dengan halaman web panjang lebar.

Dan semoga sukses dalam menempatkan halaman yang terlalu panjang dalam unggahan unggulan Google, di mana jawaban yang ringkas dan jelas yang dapat bekerja dengan baik dalam Google Voice mungkin memiliki peluang yang lebih baik untuk ditempatkan daripada jawaban yang bertele-tele.

OpenAI, pembuat ChatGPT, mengakui bahwa memberikan jawaban yang bertele-tele adalah keterbatasan yang diketahui.

Artikel pengumuman yang dibuat oleh OpenAI berbunyi:

"Model ini sering kali terlalu bertele-tele dalam penggunaannya..."

Bias ChatGPT dalam memberikan jawaban yang panjang sebaiknya selalu diperhatikan jika menggunakan keluaran ChatGPT, karena ada kemungkinan situasi di mana jawaban yang lebih pendek dan langsung lebih baik.

5. Konten ChatGPT Sangat Terorganisir dan Logis

ChatGPT memiliki gaya penulisan yang tidak hanya bertele-tele tapi juga cenderung mengikuti template yang memberikan gaya konten yang unik dan tidak sepenuhnya manusiawi.

Kualitas yang kurang manusiawi ini terungkap dalam perbedaan antara cara manusia dan mesin menjawab pertanyaan.

Film Blade Runner memiliki adegan yang menampilkan serangkaian pertanyaan yang dirancang untuk mengungkap apakah orang yang menjawab pertanyaan tersebut adalah manusia atau android.

Pertanyaan-pertanyaan ini adalah bagian dari suatu tes fiksi yang disebut "tes Voigt-Kampff".

Salah satu pertanyaannya adalah:

"Anda sedang menonton televisi. Tiba-tiba Anda menyadari ada seekor tawon merayap di lengan Anda. Apa yang Anda lakukan?"

Respon manusia yang normal akan mengatakan mereka akan teriak, pergi ke luar dan mengusirnya, dan sebagainya.

Tetapi ketika saya mengajukan pertanyaan ini ke ChatGPT, ia menawarkan jawaban yang terorganisir dengan rapi yang merangkum pertanyaan dan kemudian menawarkan beberapa kemungkinan hasil logis - tetapi tidak berhasil menjawab pertanyaan yang sebenarnya.

Tangkapan Layar ChatGPT Menjawab Pertanyaan Uji Voight-Kampff

Jawabannya sangat terorganisir dan logis, memberikan kesan yang sangat tidak alami, yang tidak diinginkan.

6. ChatGPT Terlalu Detail dan Komprehensif

ChatGPT dilatih dengan cara yang memberi penghargaan pada mesin ketika manusia senang dengan jawabannya.

Para penilai manusia cenderung lebih memilih jawaban yang memiliki lebih banyak detail.

Namun terkadang, seperti dalam konteks medis, jawaban langsung lebih baik daripada yang komprehensif.

Artinya mesin harus dipicu agar menjadi kurang komprehensif dan lebih langsung ketika kualitas-kualitas tersebut penting.

Dari OpenAI:

"Masalah-masalah ini muncul dari bias dalam data pelatihan (pelatih lebih suka jawaban yang lebih panjang yang terlihat lebih komprehensif) dan masalah over-optimasi yang sudah dikenal."

7. ChatGPT Mengebohongi (Halusinasi tentang Fakta)

Penelitian yang disebutkan di atas, berjudul Seberapa Dekat ChatGPT dengan Pakar Manusia?, mencatat bahwa ChatGPT cenderung untuk berbohong.

Ini melaporkan:

"Ketika menjawab pertanyaan yang membutuhkan pengetahuan profesional dari bidang tertentu, ChatGPT mungkin membuat fakta-fakta palsu untuk memberikan jawaban ..."

Sebagai contoh, dalam pertanyaan hukum, ChatGPT dapat menemukan beberapa ketentuan hukum yang tidak ada untuk menjawab pertanyaan tersebut.

...Selain itu, ketika pengguna mengajukan pertanyaan yang tidak memiliki jawaban yang ada, ChatGPT juga dapat membuat fakta untuk memberikan respons."

Website Futurism mendokumentasikan contoh-contoh di mana konten yang dihasilkan mesin dan diterbitkan di CNET salah dan penuh dengan "kesalahan bodoh".

CNET seharusnya sudah mengetahui bahwa ini bisa terjadi, karena OpenAI telah memperingatkan mengenai hasil keluaran yang tidak tepat:

"ChatGPT kadang-kadang menulis jawaban yang terdengar masuk akal tetapi salah atau tidak masuk akal."

CNET mengklaim telah menyerahkan artikel yang dihasilkan mesin ke dalam tinjauan manusia sebelum dipublikasikan.

Satu masalah dengan tinjauan manusia adalah bahwa konten ChatGPT didesain untuk terdengar benar-benar persuasif, yang bisa mengecoh tinjauan dari seseorang yang bukan ahli dalam topik tersebut.

8. ChatGPT Tidak Alami Karena Tidak Divergen

Artikel penelitian, "Seberapa Dekat ChatGPT dengan Para Pakar Manusia?" juga mencatat bahwa komunikasi manusia dapat memiliki makna tidak langsung, yang membutuhkan pergeseran topik untuk memahaminya.

ChatGPT terlalu literal, yang menyebabkan jawaban kadang-kadang meleset karena AI tidak memperhatikan topik yang sebenarnya.

Para peneliti menulis:

"Respon ChatGPT-nya biasanya sangat fokus pada pertanyaan yang diberikan, sedangkan manusia cenderung bercabang dan mudah bergeser ke topik lain."

Dalam hal kekayaan konten, manusia lebih beragam dari berbagai aspek, sedangkan ChatGPT lebih memilih fokus pada pertanyaan itu sendiri.

Manusia dapat menjawab arti tersembunyi di balik pertanyaan berdasarkan akal sehat dan pengetahuan mereka sendiri, namun ChatGPT mengandalkan kata-kata harfiah dari pertanyaan yang ada…”

Manusia lebih mampu untuk menyimpang dari pertanyaan harfiah, yang penting untuk menjawab pertanyaan "bagaimana dengan" tipe.

Sebagai contoh, jika saya bertanya:

“Kuda terlalu besar untuk menjadi hewan peliharaan dalam rumah. Bagaimana dengan rakun?”

Pertanyaan di atas tidak menanyakan apakah rakun adalah hewan peliharaan yang sesuai. Pertanyaannya adalah tentang ukuran hewan tersebut.

ChatGPT berfokus pada kesesuaian rakun sebagai hewan peliharaan daripada fokus pada ukurannya.

Tangkapan layar jawaban ChatGPT yang terlalu harfiah

9. ChatGPT Memiliki Kebijakan Netralitas

Hasil keluaran ChatGPT pada umumnya netral dan informatif. Ada kecenderungan bias pada output yang mungkin terlihat membantu namun tidak selalu demikian.

Makalah penelitian yang baru saja kita bahas mencatat bahwa netralitas adalah kualitas yang tidak diinginkan ketika menyangkut pertanyaan-pertanyaan hukum, medis, dan teknis.

Manusia cenderung memihak satu pihak ketika menyampaikan pendapat semacam ini.

10. ChatGPT cenderung bersifat formal

Output ChatGPT memiliki bias yang mencegahnya untuk tidak terlalu santai dan menjawab dengan kalimat yang sederhana. Sebaliknya, jawabannya cenderung formal.

Di sisi lain, manusia cenderung menjawab pertanyaan dengan gaya yang lebih santai, menggunakan bahasa sehari-hari dan bahasa gaul - bertolak belakang dengan bahasa formal.

ChatGPT tidak menggunakan singkatan seperti GOAT atau TL;DR.

Jawaban-jawaban juga kurang memiliki contoh ironi, metafora, dan humor, yang dapat membuat konten ChatGPT terlalu resmi untuk beberapa jenis konten.

Para peneliti menulis:

".... ChatGPT suka menggunakan kata penghubung dan kata keterangan untuk menyampaikan alur pikiran yang logis, seperti "Secara umum", "Di sisi lain", "Pertama", "Kedua", "Terakhir" dan sebagainya."

11. ChatGPT Masih Dalam Tahap Pelatihan

ChatGPT sedang dalam proses pelatihan dan peningkatan.

OpenAI merekomendasikan agar semua konten yang dihasilkan oleh ChatGPT harus direview oleh manusia, ini dianggap sebagai praktik terbaik.

OpenAI menyarankan untuk tetap melibatkan manusia:

"Dimanapun memungkinkan, kami menyarankan untuk melakukan peninjauan manusia terhadap hasil sebelum digunakan dalam praktik."

Hal ini sangat penting dalam domain yang berisiko tinggi, dan untuk pembangkitan kode.

Manusia harus menyadari keterbatasan sistem, dan memiliki akses ke informasi apa pun yang diperlukan untuk memverifikasi output (misalnya, jika aplikasi merangkum catatan, manusia harus dengan mudah mengakses catatan asli untuk merujuk kembali).

Kualitas ChatGPT yang Tidak Diinginkan

Jelas bahwa ada banyak masalah dengan ChatGPT yang membuatnya tidak cocok untuk penghasilan konten tanpa pengawasan. Ini mengandung bias dan gagal membuat konten yang terasa alami atau mengandung pandangan yang otentik.

Selain itu, ketidakmampuannya untuk merasakan atau menghasilkan pemikiran orisinal menjadikannya pilihan yang kurang tepat untuk menghasilkan karya-karya seni.

Pengguna harus memberikan petunjuk rinci untuk menghasilkan konten yang lebih baik daripada konten default yang cenderung dihasilkan.

Terakhir, ulasan manusia terhadap konten yang dihasilkan mesin tidak selalu cukup, karena konten ChatGPT dirancang untuk tampil benar, bahkan jika sebenarnya tidak benar.

Artinya, penting bagi para pemeriksa manusia untuk menjadi ahli dalam bidang tertentu sehingga dapat membedakan konten yang benar dan salah pada topik tertentu.

11 Kelemahan Konten ChatGPT

Highlight

1. Penggunaan Frasa Membuatnya Mudah Dideteksi Sebagai Non-Manusia

2. ChatGPT Kurang Mampu Untuk Ekspresi

3. ChatGPT Tidak Menghasilkan Wawasan

4. ChatGPT Terlalu Banyak Berbicara

5. Konten ChatGPT Sangat Terorganisir dan Logis

Tangkapan Layar ChatGPT Menjawab Pertanyaan Uji Voight-Kampff

6. ChatGPT Terlalu Detail dan Komprehensif

7. ChatGPT Mengebohongi (Halusinasi tentang Fakta)

8. ChatGPT Tidak Alami Karena Tidak Divergen

Tangkapan layar jawaban ChatGPT yang terlalu harfiah

9. ChatGPT Memiliki Kebijakan Netralitas

10. ChatGPT cenderung bersifat formal

11. ChatGPT Masih Dalam Tahap Pelatihan

Kualitas ChatGPT yang Tidak Diinginkan

Artikel Terkait