User:Bennylin/AI and Wikipedia

30 May 2023
Artificial Intelligence and the Future of Encyclopedia

Encyclopedia of the future will be written by Artificial Intelligence (AI). As the technology matured and advancing in terms of reliability, in a few years online encyclopedia such as Wikipedia will no longer need any human editors to write and edit its contents. The way people access encyclopedia will also change, readers won't need to visit a Wikipedia page to find the information they are looking for, something that's already happening with Google's Knowledge Graph displaying the basic facts people looking for, right on the search result page. Only this time, instead of search, people will get those information from chat.

Since its debut on November 2022, the leading conversational AI ChatGPT has advanced leaps and bound. The GPT technology behind it has advanced from GPT 3.5 to GPT 4, which enable it to recognize any image and to have more sophisticated conversational ability. The technology has the capability to disrupt a wide range of industries and practices, such as education, programming, arts, and health industry. Once the technology proliferate and become ubiquitous, people no longer need to search, but rather quiz their personal AI assistant ranging from simple queries to complex questions. Encyclopedias excel at the former, but perform poorly at the latter. We can look up information about a country's GDP or lists of famous people on an encyclopedia easily, but it won't have an answer on the question of how to fix our printer that won't print, which usually requires the help of an IT support, or browsing through many websites. In this regard, the role of encylcopedia as the center of knowledge will soon be supplanted by personalized assistant that are much more capable that today's Siri or Alexa.

From my personal experience, I can say that writing a Wikipedia article can be tedious, time-consuming and challenging, because we need to source our references. Which is why many opt to translate articles from other Wikipedia edition, such as English to Indonesian, since the source articles are usually already well-referenced. Many of these process can now be entirely skipped using AI's learning and translating capability. With AI's ability to translate knowledge between language seamlessly, it doesn't matter if we ask the chatbot in English, or Indonesian, or Chinese, the chatbot will compile the answer in English, then translate it to the language of our choosing. In this sense, there is no more need for Wikipedia in hundreds of languages, just English would be sufficient. After all, most of the contents in various Wikipedia editions are parallel to each other, and there are only a few articles that are in other Wikipedias that are not in English Wikipedia.

All the effort that are currently invested in writing these redundant information could be harnessed toward a centralized, multilingual knowledge hub instead. That's where Wikidata comes to shine. Much of the data that AI harvested to be studied came from Wikidata.org, the sister project of Wikipedia that aims to bring all that knowledge in a structured, language-independent, machine-friendly format. This project that started 10 years ago, will still need human input and judgement, to complement existing information, and to judge its accuracy. This project is an endeavour by the same volunteers that brought us Wikipedia, that aims to describe every item in the world, from things that we used to read in Wikipedia, to lexemes of all the languages in the world.

This day marks the 20th anniversary of Indonesian Wikipedia, which was launched on May 30th, 2003. During its 20 years journey, it saw the growth of the community of volunteers, which in 2008 founded the Wikimedia Indonesia as a non-profit association of like-minded contributors, and various sister projects such as Indonesian Wiktionary, Wikisource, Wikibooks, Wikiquote, and local language editions of Wikipedias in 13 other languages, from Aceh to Gorontalo. The list of new projects in the languages of Indonesia that are waiting to be hatched keeps increasing due to Indonesia's status as the country with the second most languages in the world. Maybe, with the help of Artificial Intelligence and repositories such as Wikidata, we don't need to wait for another 20+ years for all the remaining languages in Indonesia to have their own encylcopedia.

Indonesian
https://wikimedia.or.id/2023/07/03/ensiklopedia-bebas-di-era-kecerdasan-buatan/

Ensiklopedia Bebas di Era ChatGPT

Wikipedia bahasa Indonesia telah berumur 20 tahun, pada 30 Mei 2023. Sepanjang perjalanannya, sudah tidak terhitung berapa miliar kali halaman-halamannya dikunjungi (sehari, dan berapa banyak pembaca Indonesia yang mendapatkan informasi yang bermanfaat, netral, dan gratis dari situs tersebut.

Tidak sedikit tantangan yang dihadapi oleh situs Wikipedia dan komunitas sukarelawan - biasa disebut Wikipediawan - yang tanpa pamrih menulis dan menyunting artikel. Tantangan yang terkini adalah dengan hadirnya ChatGPT, Bard, dan teknologi kecerdasan buatan semacamnya (yang selanjutnya akan disebut Generative AI), yang semakin hari semakin canggih, dan memampukan penggunanya untuk mendapatkan informasi tanpa harus membuka dan mengunjungi Wikipedia (bahkan tidak tahu bahwa informasi yang diberikan oleh ChatGPT sebagian besar bersumber dari jerih lelah Wikipediawan), sehingga lambat laun Wikipedia akan mengalami penurunan jumlah pembaca dan secara tidak langsung regenerasi penyunting sukarelawan juga tidak berjalan lancar.

Di samping itu, kehadiran Generative AI memampukan penggunanya untuk menyusun berbagai macam karya tulis, termasuk di dalamnya artikel berita dan artikel ensiklopedia, dalam waktu sekejap. Hal ini tentu saja mencemaskan berbagai pihak, mulai dari guru dan pengajar, hingga pekerjaan-pekerjaan yang terancam digantikan oleh Generative AI, seperti pemrogram, pemusik, seniman, penulis, dan penerjemah. Namun alih-alih melihatnya dari kacamata seorang pesimis, saya melihat ada kesempatan yang besar dengan hadirnya teknologi Generative AI ini, terutama dalam hal menyelamatkan bahasa daerah dan ketimpangan informasi berbagai bahasa di dunia.

Bila kita lihat di internet, maka mayoritas informasi di internet ditulis dalam bahasa Inggris (63%, Statista 2022), dan bahasa Eropa lainnya (Rusia, Spanyol, Prancis, Jerman, dll.). Bahasa-bahasa seperti bahasa Indonesia dan apalagi bahasa-bahasa daerah di Indonesia, hanya menempati porsi sangat kecil dari seluruh situs web yang ada (kurang dari 1 persen). Bandingkan Wikipedia bahasa Inggris yang memiliki 6,6 juta artikel, dan Wikipedia bahasa Indonesia yang hanya memiliki 648 ribu artikel (peringkat ke-22). Apabila dibandingkan dengan Wikipedia bahasa daerah seperti bahasa Minangkabau (226 ribu artikel, peringkat ke-49) dan bahasa Jawa (72 ribu artikel, peringkat ke-84), walaupun ketiganya sama-sama dibuat pada awal 2000-an (Wikipedia bahasa Inggris tahun 2001, dan Wikipedia bahasa Jawa tahun 2004). Padahal secara jumlah penutur, Indonesia merupakan negara terbesar keempat di dunia, dan bahasa Jawa memiliki jumlah penutur hampir 100 juta orang.

Kehadiran teknologi Generative AI, dapat dimanfaatkan untuk membantu penerjemahan dan pembuatan konten ensiklopedia maupun berita dalam bahasa-bahasa di Indonesia yang berjumlah 700 lebih bahasa. Saat ini kualitas konten yang dihasilkan Generative AI dalam bahasa Indonesia sudah terbilang lumayan, sementara konten dalam bahasa daerah masih belum tersedia atau kualitasnya masih jauh dari layak. Namun di masa depan, jika Generative AI sudah mampu berbahasa daerah, maka ketika seseorang mencari suatu informasi yang belum ada dalam bahasa daerahnya, maka ia akan dapat membacanya dengan bantuan Generative AI dan mendapatkan informasi tersebut tanpa perlu ada penulis yang menulisnya terlebih dahulu dalam bahasa tersebut.

Hal ini akan membawa dampak besar pada situs-situs yang datanya diambil oleh mesin-mesin cerdas ini. Pembaca tidak akan lagi mengunjungi situs sumber, melainkan cukup hanya membaca informasi yang disajikan dalam bentuk percakapan singkat, sesuai dengan tren membaca warganet yang menginginkan segala informasi dalam bentuk pendek dan padat informasi. Hal ini akan membuat kunjungan situs, terutama ke situs-situs kecil akan berkurang secara drastis, dan bagi situs yang mengandalkan konten buatan pengguna (termasuk Wikipedia), maupun situs yang mengandalkan iklan, atau situs yang mengandalkan konten terjemahan, semakin lama akan semakin sepi pengunjung, sementara situs-situs konten yang besar dan tulisan yang orisinal dan berkualitas tinggi saja yang akan dapat bertahan. Pada akhirnya, konten akan dimonopoli oleh pemain besar (biasanya dalam bahasa Inggris) dan sekaligus akan didemokratisasi ke berbagai bahasa lainnya tanpa campur tangan penerjemah, maupun kurator konten.

Menanggapi tantangan dan kesempatan besar ini, Balai Bahasa dan organisasi yang peduli dengan pelestarian bahasa perlu segera menginvestasikan sumber daya, antara lain di teknologi pengolahan bahasa alami (natural language processing, NLP) untuk bahasa-bahasa daerah, supaya tidak tertinggal dalam teknologi ini, jangan sampai didahului oleh negara lain. Fokus pengembangan model NLP membutuhkan data (korpus) yang berjumlah besar dalam bahasa-bahasa daerah, agar NLP dapat memahami dan menulis konten dalam bahasa-bahasa tersebut. Buku-buku digital dalam bahasa daerah perlu diperbanyak, dan diterbitkan menggunakan lisensi terbuka, seperti Creative Commons, agar bisa dipakai dalam pengembangan. Selain itu juga diperlukan kolaborasi dengan negara dan organisasi lain yang berpengalaman dalam mengembangkan model NLP untuk bahasa-bahasa dengan sumber sedikit (low-resource languages). Pemerintah juga perlu memberikan pendanaan dan insentif untuk penelitian dan pengembangan di bidang ini.

Para Wikipediawan sedikit banyak telah sadar akan peluang ini. Dalam pertemuan nasional tahunan WikiNusantara, para Wikipediawan dari seluruh Indonesia berkumpul di Banjarmasin minggu lalu, dan pada bulan Agustus nanti, pehelatan serupa di tingkat global, Wikimania, akan diselenggarakan di Singapura. Di kedua acara tersebut dan berbagai ajang diskusi lainnya, baik daring maupun luring, pada sukarelawan penyunting Wikipedia bersama-sama mendiskusikan tantangan dan peluang teknologi Generative AI ini yang akan men-disrupsi pola dan kebiasaan yang sudah terbentuk selama 20 tahun keberadaan Wikipedia.

Wikipedia kini telah memiliki 13 edisi bahasa-bahasa daerah di Indonesia dan jumlah artikel Wikipedianya: Aceh (12 ribu), Bali (19 ribu), Banjar (10 ribu), Banyumasan (13 ribu), Bugis (15 ribu), Gorontalo (13 ribu), Jawa (72 ribu), Madura (seribu), Melayu (364 ribu - kebanyakan diisi oleh penutur bahasa Malaysia), Minangkabau (226 ribu), Nias (seribu), Sunda (61 ribu), dan Tetun (seribu). Total artikel dalam bahasa daerah ada lebih dari 800 ribu artikel. Selain itu, ada lebih dari 80 edisi bahasa yang masih menunggu untuk dibuat, karena komunitasnya belum terbentuk.

Akankah Wikipedia mampu bertahan selama 20 tahun ke depan? Ataukah ia akan tergantikan oleh Generative AI dalam waktu tidak lama lagi?

Sumber klaim statistik:
 * https://en.wikipedia.org/wiki/Languages_used_on_the_Internet "Daily page views (average on 4 January 2021)": 13 Indonesian 5,385,401 (dalam setahun sudah 1,8 miliar kunjungan)
 * https://www.statista.com/chart/26884/languages-on-the-internet/
 * https://www.statista.com/statistics/262946/most-common-languages-on-the-internet/
 * https://meta.wikimedia.org/w/index.php?title=List_of_Wikipedias&oldid=24965093 daftar jumlah artikel berbagai edisi Wikipedia
 * https://www.bps.go.id/publication/2012/05/23/55eca38b7fe0830834605b35/kewarganegaraan-suku-bangsa-agama-dan-bahasa-sehari-hari-penduduk-indonesia.html
 * https://en.wikipedia.org/wiki/Generative_artificial_intelligence