A Machine Learninggel (ML, gépi tanulás) foglalkozó szakemberek körében parázs vita folyik az AutoML-nek nevezett megközelítés hasznosságával kapcsolatban. A vita megértéséhez érdemes egy kicsit mélyebbre ásnunk az adat projektek folyamatában.
Mi kell egy sikeres gépi tanulás projekthez?
Minden ML projekt különböző fázisokból áll, melyek önmagukban is nagy kihívás elé állítják a szervezetet.
- Probléma azonosítása üzleti szempontok alapján (feladat és sikerkritérium kiválasztása)
- Adatgyűjtés (tisztítás, felfedezés)
- Modell építése és kiértékelése
- Modell telepítése éles környezetben és felügyelete
Minden fázis kritikus a projekt sikeréhez és önmagában is káoszba tudja taszítani az egyébként jól felépített folyamatot. De a gépi tanulás szempontjából a modell építése és kiértékelése a legnehezebb feladat. Egy jó modell építéséhez nagyon különböző típusú tudásra és tapasztalatra van szükségünk. Kell hozzá:
- Feature engineering tapasztalat
- Hyperváltozók, vagy hyperparaméterek jó kiválasztása, melyhez jól kell érteni a használandó algoritmust és az ML metodológiákat.
- Nem utolsósorban software engineer tapasztalat, hogy érthető és könnyen telepíthető kódot kapjunk a végén.
Hogyan segíthet az AutoML?
Az AutoML abban tudja segíteni a munkánkat, hogy átveszi tőlünk a fenti lépéseket, és segít olyan modellt építeni, ami szerinte a legjobban megoldja a folyamatot. Beküldjük a tisztított adatokat és az elvégzendő feladatot (klasszifikáció, regresszió, stb.), és a végén kapunk egy telepíthető modellt, ami képes megjósolni a még nem látott adatokat.
Túl szép, hogy igaz legyen? Nos, igen, ebből is ered a fentebb említett parázs vita az adattudósok közt. Egyesek szerint káros dolog az egyébként nagyon komplex modellezési folyamatot az üzleti döntéshozók fejében egyszerű algoritmus-futásra redukálni. Mégpedig azért, mert nem fogják elég komolyan venni és a megfelelő erőforrásokat fordítani a problémák megoldására, hiszen majd a gép megmondja.
A másik oldal szerint az AutoML segíthet abban, hogy “könnyű” belépési pontként meghozza azon cégek kedvét is a gépi tanuláshoz, akik eddig kapacitás hiány miatt nem tudtak modell építési kompetenciát szerezni. Abban mindkét oldal egyetért, hogy a rutinos emberek által épített modellek jelenleg még jobbak, mint az AutoML modelljei – de meglátjuk mennyi ideig marad így.
Mi itt a Crane-nél úgy gondoljuk, hogy az AutoML-nek is megvan a maga helye bizonyos projektekben, ahol még ismerkedés zajlik a ML-el, vagy kritikus az erőforrás ráfordítás mennyisége. A legtöbb helyzetben elégséges megoldást szállít a végén javasolt modell. De tényként kezeljük, hogy ritkán fog idővel érdemben javulni a hatékonysága függetlenül a tréning hosszától, és alacsonyabb pontszámokat fog kapni, mint egy tapasztalt data-scientist által készített modell.
Azt azonban biztosan ki merjük jelenteni, hogy bármilyen ML projekten is töröd a fejed, érdemes előtte egy tapasztalt szakértővel konzultálnod. Mert bár nagy probléma egy közepesen pontos modell használata egy jó modell helyett, de az odavezető úton sokkal több triviális csapba vár rád, mint ahogy számítanál rá.
Comments are closed.