
Mára azok a cégek is érzik a változás szelét, melyek eleinte csak szkeptikusan szemlélték a mesterséges intelligencia mindennapi térhódítását. Sorra indulnak a különböző AI-projektek, egyre komplexebbek a technológián alapuló fejlesztések, mégis sok próbálkozás kudarcba fullad az indulás után nem sokkal.
A bukás vagy éppen a fejlődés korai megtorpanásának oka nem az AI, hanem valami sokkal triviálisabb dolog. Lássuk, miért veszélyesek a hibás adatok, és hogyan fojtja meg a data wall a mesterséges intelligenciát!
Kijózanító megállapításokkal szolgáltak egy 2024-es kutatás eredményei, melyeket a Fivetran ismertetett. A vizsgálat alapját az a felismerés szolgáltatta, hogy az AI körül most akkora a várakozás, hogy sok szervezetnél szinte már készpénznek veszik az ilyesfajta innovációk sikerét. Hiába van tökéletesre hangolt use case, máshol remekül működő modell, sőt van rá megfelelő büdzsé is, ha az alapok ingatag lábakon állnak, a végeredmény kijózanító, rosszabb esetben üzleti értelemben is fájdalmas lesz.
Az említett kutatás során 550 vállalatot vizsgáltak meg. A megkérdezett cégek 97 százaléka tervezett generatív AI-befektetést, ugyanakkor a felmérésben az is látszott, hogy a gyenge adatminőségre épülő, alulteljesítő AI-programok átlagosan az éves árbevétel 6 százalékát emésztik fel. A kutatásban résztvevő cégek esetében ez átlagosan 406 millió dolláros veszteséget jelentett.
Hatalmas kockázatot jelent, hogy a rendszer látszólag jól működik, a különböző funkciók folyamatosan szolgáltatják az elvárt formátumú outputot, és sokszor már rövid időn belül hajlamos a szervezet elkényelmesedni az AI adta komfortba. Pedig nem a fejlesztéssel szembeni bizalmatlanságról, hanem csupán az elvárt gondosságról van szó akkor, ha – különösen a bevezetést követő időszakban – ellenőrizzük a modell válaszait, prognózisait, ajánlásait vagy döntéseit.
A probléma aktualitását és jelentőségét jól jelzi, hogy a már idézett Fivetran-elemzés mellett más kutatások is foglalkoznak a témával. A Gitnux 2026-os tanulmánya például azt részletezi, hogy a vállalatok 95 százaléka adatminőségi problémát lát az AI alkalmazásának legfőbb akadályaként. Ugyanebben az anyagban az is szerepel, hogy az AI-projektek 76 százaléka a rossz input adatok miatt fullad kudarcba. Összességében kijelenthetjük: bár egyre több a látványosan induló, ígéretes pilot, az éles működés a kelleténél gyakrabban bizonyul sikertelennek.
Néhány hete részletesen foglalkoztunk azzal, hogy az AI-fejlesztésekre költött minden eurocent lényegében kidobott pénz, ha a felhasznált adatok minősége rossz. Mégis hogyan fordulhat elő, hogy mégis sokan futnak bele ilyen problémába? A válasz egyszerűbb, mint gondolnánk.
A pilot fázisban kisebb, tisztább és jobban ellenőrzött adatkészletet kapnak inputként a bevezetés alatt álló AI-modellek. Ekkor alapvetően az a cél, hogy a megrendelő delegáltjaival közösen dolgozó fejlesztők magát a modellt teszteljék, működését finomhangolják. Amikor tökéletesnek – vagy közel tökéletesnek – találják a rendszert, éles üzemmódba kapcsolnak, majd az AI-modellt gyakran az adatbázisok előzetes ellenőrzése nélkül ráengedik az újabb, komplexebb forrásokra.
Ha nem veszik számításba azt, hogy a mesterséges intelligencia ekkor már lényegesen nagyobb adatkészletből, több kivétellel, több eltéréssel és persze több zajjal találkozhat, akkor óriási hibát követnek el. Az AI ugyanis látszólag hibátlanul működik, teszi a dolgát, válaszokat ad, döntéseket hoz, mindezeket azonban rossz inputra alapozva. Az eredmény gyakran folyamatosan fals, és könnyen dollármilliókba kerül a cégnek.
Homoki István az üzleti kockázatok mellett más veszélyekre is figyelmeztet. A rossz adatok miatti rossz válaszok jogi és etikai problémákat is felvethetnek, és ezen a ponton a kérdés már nem pusztán technológiai jellegű. Ha ugyanis egy AI-rendszer torz adatokból tanul, akkor nem egyszerűen rosszabb lesz, hanem félre is viheti az értelmezést. Minél közelebb engedi a szervezet a hibás adatokból építkező AI-t a döntéstámogatáshoz vagy az automatizált döntésekhez, annál nagyobb veszélyeket szabadít a saját cégére.
Szerencsés esetben viszonylag hamar, néha azonban csak a komolyabb problémák felmerülésekor derül fény a rendellenes működésre. Sok szervezet ilyenkor újabb hibát követ el: az inputadatok ellenőrzése és javítása helyett erősebb infrastruktúrát állít szolgálatba, ettől remél megoldást.
Kollégánk a jelenség kapcsán a skálázási korlátok felismerésének fontosságát hangsúlyozza. Mint fogalmaz, többlet számítási kapacitással nem orvosolhatóak a hibás adatokból szolgáltatott rossz válaszok. Szorosan kapcsolódik ehhez az úgynevezett data wall problémaköre is. Ez az a szituáció, amikor a jó minőségű, valóban felhasználható adatok idő előtt elfogynak, és ezzel az AI fejlődése korlátba ütközik.
Különös félreértésekre hívják fel a figyelmet a Gitnux által március végén ismertetett kutatási eredmények is, melyek szerint az adattudósok idejük jelentős részét napjainkban leginkább adattisztítással töltik más, innovatív, az üzleti hatékonyságot jobban szolgáló feladatok helyett. Mindezt megelőzhetnék a cégek, ha megfelelő validációs szabályok mentén, a folyamatokba integrált minőségbiztosítási kapuk alkalmazásával építenék az üzleti adatbázisaikat. Kollégáink úgy tapasztalják, hogy ezek a megoldások érdemi javulást hoznak az adatminőség terén, végső soron pedig a bemeneti hibák kiszűrésében.
Összességében elmondható, hogy az AI-projektek bukásának oka jellemzően nem a technológiai korlátokban keresendő. Az adatminőség jelentősége egyre inkább felértékelődik, a cégek azonban még mindig túl kevés figyelmet fordítanak azok minőségének ellenőrzésére. Ez óriási hiba, hiszen az üzleti döntéseiket, ezzel együtt a vállalat sikerességét támogató AI-folyamatok kivétel nélkül az adatokra épülnek.
A projektek sorsa tehát lényegében már az AI-modell implementálása előtt eldől. Ha a cég nem fordít kellő figyelmet az adatok tesztelésére – akár szervezeten belül, külsős szakértők bevonásával –, akkor könnyen lehet, hogy az AI-ra fordított pénz, idő és humánkapacitás végül negatív előjellel kerül be az üzleti eredmények közé. Ha azonban időben felismerik a kockázatokat és lépéseket tesznek az adatminőség javítása érdekében, akkor a pilotból éles környezetbe átemelt AI-projekt valódi versenyelőnyt jelent majd.
A témával kapcsolatban itt olvashatsz bővebben, illetve a United Consult szakértő munkatársai is szívesen megosztják az adatminőség-teszteléssel kapcsolatos tapasztalataikat.