-
A nagyméretű nyelvi modellek sebezhetősége: hogyan használható ki néhány mérgezett dokumentum?
Az utóbbi években a mesterséges intelligencia és különösen a nagyméretű nyelvi modellek (LLM-ek) robbanásszerű fejlődése forradalmasította a természetes nyelv feldolgozását. Ezek a modellek olyan hatalmas adathalmazokon alapulnak, amelyeket automatikusan gyűjtenek az interneten elérhető szöveges tartalmakból, legyen szó blogokról, híroldalakról vagy akár közösségi médiáról. Ez a módszer azonban nem csupán lehetőségeket, hanem jelentős kockázatokat is hordoz magában. Az egyik legaggasztóbb fenyegetés az úgynevezett „adatmérgezés” (data poisoning), amikor szándékosan rosszindulatú tartalmakat juttatnak be a tanítóadatok közé, hogy befolyásolják a modell működését. Érdekes módon a közelmúltban megjelent kutatások szerint nem szükséges az egész tanítóadat töredékét megfertőzni ahhoz, hogy jelentős hatást érjenek el a támadók. Egy friss tanulmány kimutatta, hogy mindössze néhány száz mérgezett…


