united consult
CRM Solutions
big data
software development
Quality Engineering
cybersecurity

Az AI-projektek fő buktatója nem a technológia – a hiba egészen triviális lehet!

Mára azok a cégek is érzik a változás szelét, melyek eleinte csak szkeptikusan szemlélték a mesterséges intelligencia mindennapi térhódítását. Sorra indulnak a különböző AI-projektek, egyre komplexebbek a technológián alapuló fejlesztések, mégis sok próbálkozás kudarcba fullad az indulás után nem sokkal.

A bukás vagy éppen a fejlődés korai megtorpanásának oka nem az AI, hanem valami sokkal triviálisabb dolog. Lássuk, miért veszélyesek a hibás adatok, és hogyan fojtja meg a data wall a mesterséges intelligenciát!

Kijózanító megállapításokkal szolgáltak egy 2024-es kutatás eredményei, melyeket a Fivetran ismertetett. A vizsgálat alapját az a felismerés szolgáltatta, hogy az AI körül most akkora a várakozás, hogy sok szervezetnél szinte már készpénznek veszik az ilyesfajta innovációk sikerét. Hiába van tökéletesre hangolt use case, máshol remekül működő modell, sőt van rá megfelelő büdzsé is, ha az alapok ingatag lábakon állnak, a végeredmény kijózanító, rosszabb esetben üzleti értelemben is fájdalmas lesz.

Miért buknak el az AI-projektek?

Az említett kutatás során 550 vállalatot vizsgáltak meg. A megkérdezett cégek 97 százaléka tervezett generatív AI-befektetést, ugyanakkor a felmérésben az is látszott, hogy a gyenge adatminőségre épülő, alulteljesítő AI-programok átlagosan az éves árbevétel 6 százalékát emésztik fel. A kutatásban résztvevő cégek esetében ez átlagosan 406 millió dolláros veszteséget jelentett.

Problémák esetén a legtöbb szervezet számára kézenfekvő megoldásnak tűnik, hogy az AI-modellben kezdjék a hibakeresést. Sokszor olyan, mintha nem vennének tudomást arról, hogy a rendszer abból tanul, amit inputként elérhetővé tesznek számára. Kollégánk, Homoki István (United Consult, Head of Quality Engineering) a hiányos, hibás vagy inkonzisztens adatok veszélyeire figyelmeztet. Ha ugyanis az AI-modell ilyenekkel dolgozik, akkor – legyen bármilyen fejlett is az alkalmazott technológia – hibás mintázatok alapján hibás eredmények és döntések születnek majd, ez pedig üzleti kockázatot jelent. Szakértőnk szerint a jól ismert AI-hallucinációk hátterében leggyakrabban rossz minőségű, ellentmondásos adatok állnak.

Látványos pilotok után keserű csalódás

Hatalmas kockázatot jelent, hogy a rendszer látszólag jól működik, a különböző funkciók folyamatosan szolgáltatják az elvárt formátumú outputot, és sokszor már rövid időn belül hajlamos a szervezet elkényelmesedni az AI adta komfortba. Pedig nem a fejlesztéssel szembeni bizalmatlanságról, hanem csupán az elvárt gondosságról van szó akkor, ha – különösen a bevezetést követő időszakban – ellenőrizzük a modell válaszait, prognózisait, ajánlásait vagy döntéseit.

A probléma aktualitását és jelentőségét jól jelzi, hogy a már idézett Fivetran-elemzés mellett más kutatások is foglalkoznak a témával. A  Gitnux 2026-os tanulmánya például azt részletezi, hogy a vállalatok 95 százaléka adatminőségi problémát lát az AI alkalmazásának legfőbb akadályaként. Ugyanebben az anyagban az is szerepel, hogy az AI-projektek 76 százaléka a rossz input adatok miatt fullad kudarcba. Összességében kijelenthetjük: bár egyre több a látványosan induló, ígéretes pilot, az éles működés a kelleténél gyakrabban bizonyul sikertelennek.

A legsúlyosabb hiba az, amit nem vesznek észre 

Néhány hete részletesen foglalkoztunk azzal, hogy az AI-fejlesztésekre költött minden eurocent lényegében kidobott pénz, ha a felhasznált adatok minősége rossz. Mégis hogyan fordulhat elő, hogy mégis sokan futnak bele ilyen problémába? A válasz egyszerűbb, mint gondolnánk.

A pilot fázisban kisebb, tisztább és jobban ellenőrzött adatkészletet kapnak inputként a bevezetés alatt álló AI-modellek. Ekkor alapvetően az a cél, hogy a megrendelő delegáltjaival közösen dolgozó fejlesztők magát a modellt teszteljék, működését finomhangolják. Amikor tökéletesnek – vagy közel tökéletesnek – találják a rendszert, éles üzemmódba kapcsolnak, majd az AI-modellt gyakran az adatbázisok előzetes ellenőrzése nélkül ráengedik az újabb, komplexebb forrásokra.

Ha nem veszik számításba azt, hogy a mesterséges intelligencia ekkor már lényegesen nagyobb adatkészletből, több kivétellel, több eltéréssel és persze több zajjal találkozhat, akkor óriási hibát követnek el. Az AI ugyanis látszólag hibátlanul működik, teszi a dolgát, válaszokat ad, döntéseket hoz, mindezeket azonban rossz inputra alapozva. Az eredmény gyakran folyamatosan fals, és könnyen dollármilliókba kerül a cégnek.

Homoki István az üzleti kockázatok mellett más veszélyekre is figyelmeztet. A rossz adatok miatti rossz válaszok jogi és etikai problémákat is felvethetnek, és ezen a ponton a kérdés már nem pusztán technológiai jellegű. Ha ugyanis egy AI-rendszer torz adatokból tanul, akkor nem egyszerűen rosszabb lesz, hanem félre is viheti az értelmezést. Minél közelebb engedi a szervezet a hibás adatokból építkező AI-t a döntéstámogatáshoz vagy az automatizált döntésekhez, annál nagyobb veszélyeket szabadít a saját cégére.

Sokan még a hibát is félreértik

Szerencsés esetben viszonylag hamar, néha azonban csak a komolyabb problémák felmerülésekor derül fény a rendellenes működésre. Sok szervezet ilyenkor újabb hibát követ el: az inputadatok ellenőrzése és javítása helyett erősebb infrastruktúrát állít szolgálatba, ettől remél megoldást. 

Kollégánk a jelenség kapcsán a skálázási korlátok felismerésének fontosságát hangsúlyozza. Mint fogalmaz, többlet számítási kapacitással nem orvosolhatóak a hibás adatokból szolgáltatott rossz válaszok. Szorosan kapcsolódik ehhez az úgynevezett data wall problémaköre is. Ez az a szituáció, amikor a jó minőségű, valóban felhasználható adatok idő előtt elfogynak, és ezzel az AI fejlődése korlátba ütközik.

Egyértelműen látszik, hogy egy ponton túl már nem a számítási kapacitás végessége, hanem a jó minőségű, valóban használható adatok korlátozott mennyisége fogja vissza az AI fejlődését. A mesterséges intelligencia számára elérhető, eredeti, emberalkotta adatkészletet vizsgáló tanulmányok szerint – a jelenlegi trendek és tempó mellett – a modellek 2026 és 2032 között lényegében teljes egészében felhasználhatják a készleteket. A Gartner mindezt gyakorlati oldalról közelíti meg. Szerintük a cégek az úgynevezett AI-ready adatok híján már rövid időn belül elengedhetik az AI-projektek 60 százalékát. Figyelmeztetnek arra is, hogy az AI-felhasználásra optimalizált adatkészlet kialakítása nem egyszeri feladat, hanem folyamatosan fenntartandó gyakorlatnak kell lennie a jövőben.

Különös félreértésekre hívják fel a figyelmet a Gitnux által március végén ismertetett kutatási eredmények is, melyek szerint az adattudósok idejük jelentős részét napjainkban leginkább adattisztítással töltik más, innovatív, az üzleti hatékonyságot jobban szolgáló feladatok helyett. Mindezt megelőzhetnék a cégek, ha megfelelő validációs szabályok mentén, a folyamatokba integrált minőségbiztosítási kapuk alkalmazásával építenék az üzleti adatbázisaikat. Kollégáink úgy tapasztalják, hogy ezek a megoldások érdemi javulást hoznak az adatminőség terén, végső soron pedig a bemeneti hibák kiszűrésében.

A sikeres AI-projektek kulcsa a megbízható adat

Összességében elmondható, hogy az AI-projektek bukásának oka jellemzően nem a technológiai korlátokban keresendő. Az adatminőség jelentősége egyre inkább felértékelődik, a cégek azonban még mindig túl kevés figyelmet fordítanak azok minőségének ellenőrzésére. Ez óriási hiba, hiszen az üzleti döntéseiket, ezzel együtt a vállalat sikerességét támogató AI-folyamatok kivétel nélkül az adatokra épülnek.

A projektek sorsa tehát lényegében már az AI-modell implementálása előtt eldől. Ha a cég nem fordít kellő figyelmet az adatok tesztelésére – akár szervezeten belül, külsős szakértők bevonásával –, akkor könnyen lehet, hogy az AI-ra fordított pénz, idő és humánkapacitás végül negatív előjellel kerül be az üzleti eredmények közé. Ha azonban időben felismerik a kockázatokat és lépéseket tesznek az adatminőség javítása érdekében, akkor a pilotból éles környezetbe átemelt AI-projekt valódi versenyelőnyt jelent majd.

A témával kapcsolatban itt olvashatsz bővebben, illetve a United Consult szakértő munkatársai is szívesen megosztják az adatminőség-teszteléssel kapcsolatos tapasztalataikat.