Internetovou encyklopedii Wikipedie zasáhl propad návštěvnosti po zavedení modelů umělé inteligence ve vyhledávačích. Stránky za rok zaznamenaly pokles návštěvnosti o osm procent. Projektu, který se opírá o komunitu dobrovolníků a veřejné dary, hrozí existenční boj. „Wikipedia není jen originální výzkum. Spoléháme se na novináře, akademickou sféru a otevřený výzkum. Pokud se zhroutí mediální ekosystém, zhroutí se i Wikipedia,“ varuje ředitel pro politiku ve Wikimedia Europe Dimitar Zagorski.

Pokud Wikipedii navštěvuje méně lidí, zatímco nástroje umělé inteligence ve velkém extrahují a přetvářejí její obsah, je otevřený projekt vystaven velkému tlaku. Portál EU Perspectives hovořil v Bruselu s Dimitarem Zagorskim o tom, jak lze na situaci reagovat.

Návštěvnost Wikipedie klesla o přibližně osm procent. Co to znamená pro dlouhodobou udržitelnost a pro komunitu dobrovolníků?

Zároveň s poklesem počtu běžných uživatelů navštěvujících Wikipedii jsme zaznamenali nárůst návštěvnosti ze strany crawlerů (automatizované prohledávače internetových stránek) a botů, což představuje výzvu pro naši infrastrukturu. Naše servery jsou rozmístěny po celých Spojených státech, ale také na dalších místech jako Amsterdam, Marseille, Singapur a Brazílie.

U běžných čtenářů je návštěvnost poměrně předvídatelná. Například během fotbalového zápasu v určité zemi se články o těchto klubech prudce zvýší a ukládají se do mezipaměti na nejbližším serveru, což je levné a rychlé. Crawlery, zejména ty, které používají vývojáři umělé inteligence, se chovají zcela odlišně. Během několika sekund otevírají tisíce nesouvisejících článků. Protože je tato návštěvnost nepředvídatelná, nemůžeme ji ukládat do mezipaměti lokálně, takže ji musíme poskytovat globálně napříč datovými centry.

internetová encyklopedie Wikipedia
AI systémy nemohou fungovat na uměle vytvořeném obsahu. Potřebují obsah, který vytvářejí lidé. Wikipedia je lidská encyklopedie, zdůraznil ředitel pro politiku Wikimedia Europe Dimitar Zagorski. Foto: Unsplash

Pokud navíc na Wikipedii přichází méně lidí, vznikají dva problémy. Za prvé, méně lidí začne editovat, a my se spoléháme výhradně na dobrovolné editory. Za druhé, více než 90 procent našich příjmů pochází z reklamy pro fundraising. Pokud web navštěvuje méně lidí, méně lidí vidí naše bannery. Musíme tedy počítat s potenciálním poklesem příjmů z fundraisingu. Zatím jsme žádný pokles nezaznamenali, naše hlavní fundraisingová akce se koná v prosinci. Ale trend se nevyvíjí směrem, který bychom si přáli.

Naší filozofií je být zdarma pro všechny

Uvažovali jste o blokování prohledávačů umělé inteligence?

Nelíbí se nám myšlenka blokování. Naší filozofií bylo od samého začátku být zdarma pro všechny. Lidi i stroje. Blokování je až poslední možnost. Až donedávna byla jediná politika v podstatě poznámka v souboru robots.txt, která říkala: „Prosím, nezatěžujte naše servery“. To bylo doslova vše. V případě nutnosti můžeme omezit počet požadavků z konkrétních IP adres nebo crawlerů.

Existuje také mechanismus odhlášení, který však nebyl vždy respektován. Některé společnosti jej prostě ignorují. Tyto společnosti se účastní obřího závodu, ve kterém jsou v sázce miliardy. Mám pocit, že jejich myšlení je následující: za 10 let přežijí pouze dva nebo tři hráči a stanou se novým Googlem nebo Facebookem. Nyní podstupují právní riziko. Škody ale už vznikly. Jakmile je základní model AI vycvičen, budoucí legislativa to nemůže zpětně změnit.

Mohlo by vás zajímat

Když se naposledy prováděla reforma unijního autorského práva, byl jsem do toho zapojen. Myslím, že se pravidla pro autorské právo budou znovu otevírat a měnit. Ale až v příštím legislativním období Komise.

Jak se přizpůsobujete nové situaci, abyste zvládli velké objemy požadavků od AI crawlerů?

Experimentujeme se společností Wikimedia Enterprise. Jedná se o komerční dceřinou organizaci, která je stoprocentně vlastněná Wikimedia Foundation. Poskytuje přímý přístup k našim serverům a k rozhraní pro programování aplikací (API) pro velké uživatele. Prodává rychlost a přístup k datům, ne obsah. Pokud používají naše veřejné API a přetěžují naše servery, odpojíme je.

S Enterprise získávají perfektní kopii projektů na serveru, ke kterému mají rychlý přístup. Jednáme prakticky se všemi velkými společnostmi, které vás napadnou. Mnohé se již přihlásily, ale většina vyžaduje dohody o mlčenlivosti.

Často se ptají, proč by měly platit, když je obsah otevřený. My jim odpovídáme: ano, obsah je otevřený, ale naše servery stojí peníze. Nechci, aby lidé, kteří každoročně darují pět eur Wikipedii, platili za dodávání obsahu do modelů umělé inteligence.

Další zajímavou věcí je, že vývojáři velkých jazykových modelů (LLM) nás žádají, abychom do našich projektů nezahrnovali obsah vytvořený umělou inteligencí. Potřebujeme lidský, organický obsah – jinak se náš vývoj zastaví. To je situace, kdy mají projekty jako Wikipedia výhodu.

AI se snaží poskytnout rychlou odpověď

Jak velký dopad mělo shrnutí AI ve vyhledávačích Googlu na návštěvnost Wikipedie?

Domníváme se, že pokles návštěvnosti je způsoben tím, že lidé při vyhledávání informací získávají odpověď přímo – ať už z ChatGPT nebo z Googlu. Považuji to za stejnou kategorii. Jedná se o model umělé inteligence, který se snaží poskytnout rychlou odpověď, aniž byste museli klikat na jakoukoli stránku.

To, co opravdu chceme, jsou správné citace a vložené citace. Některé modely AI to dělají lépe než jiné. Kdykoli mají nějaké tvrzení, okamžitě citují zdroj a odkazují na něj, abyste si to mohli ověřit. Tento přístup podporujeme.

Jak Wikipedia řeší obsah vytvořený pomocí AI?

Wikipedia se spoléhá na dobrovolné moderátory a její komunity aktivně diskutují a stanovují pravidla pro používání AI. Německá a anglická Wikipedie již zakazují nezveřejněný obsah generovaný umělou inteligencí. Když redaktoři takový obsah najdou, smažou ho a moderátoři mohou uživatele zablokovat.

Znepokojuje nás také používání AI jako nástroje pro manipulaci. Provedli jsme experiment, ve kterém jsme požádali nástroje OpenAI a Claude, aby nenápadně změnily vyznění článku o ruské invazi na Ukrajinu. OpenAI odvedlo neuvěřitelně „dobrou práci“. Žádné explicitní lži, jen restrukturalizace, díky které se článek četl jako „není jasné, kdo je na vině“. Claude to nejprve odmítl, ale pak také vytvořil pozměněnou verzi. Tento druh jemné manipulace ve velkém měřítku je něco, co musíme pečlivě sledovat.

Existuje pozitivní využití umělé inteligence pro Wikimedia?

Ano. Zejména pro malé jazyky. Vědomostní báze Wikidata je již navržena tak, aby ji mohli používat lidé i stroje. Wikimedia Deutschland přidala gramatické funkce pro jazyky s nedostatečnými zdroji a díky některým nástrojům podporovaným AI se strojový překlad pro tyto jazyky výrazně zlepšil.

Používáme také nástroje strojového učení na podporu dobrovolných strážců. Tyto nástroje udávají pravděpodobnost, zda je úprava produktivní. Musíme být opatrní. V dřívějších experimentech jsme používali AI k vedení editorů při práci na stránkách encyklopedie a návrhy AI vykazovaly zaujatost. Například u mužů navrhovaly nástroje AI přidat informace o kariéře, u žen o osobním životě.

Jsou otevřené projekty jako Wikipedia v době boomu umělé inteligence v ohrožení?

Doufáme, že přežijeme. Proto experimentujeme s věcmi jako Wikimedia Enterprise, abychom zajistili, že se do veřejného prostoru vrátí dostatečná hodnota. Naší největší obavou je, že bude ohrožen celý náš online systém. Wikipedia není pouze originální výzkum. Spoléháme se na další novináře, akademickou sféru a otevřený výzkum. Pokud se zhroutí mediální ekosystém, zhroutí se s ním i Wikipedia.

AI systémy nemohou fungovat na uměle vytvořeném obsahu. Potřebují obsah, který vytvářejí lidé. Wikipedia je lidská encyklopedie. Možná by se měly otevřené projekty, jako je Wikimedia, OpenStreetMap nebo Gutenberg, spojit.