Az adattudósok vagy data scientistek folyamatosan a gépi tanulási modellek javítására vannak kényszerítve annak érdekében, hogy a lehető legpontosabb “jóslás” születhessen. Ám amikor egy újabb algoritmus rosszabb eredményhez vezet, az egyetlen dolog, amihez nyúlhatunk, az az adat. Az adatszerzés viszont nem is olyan könnyű feladat.
A következő hat egyszerű lépés megmutatja, hogyan lehet olyan modellt létrehozni, ami meredeken tudja növelni az adatszerzés pontosságát. A pontosság javítása érdekében megpróbáljuk különböző metódusokkal – teszteléssel és további fejlesztéssel – javítani a modellt, ami időigényes és bonyolult lehet. Ennek számottevő hatása van a végső eredményre.
Ahogy a Dataconomyn is írják az adatgyűjtés folyamata hat alfeladatra bontható:
- Hipotézis felállítása: A legfontosabb, hogy minél jobban ismerd meg azokat a paramétereket, változókat, amik befolyásolhatják a problémát.
- Potenciális adatszolgáltatók összeírása: Olyan nyílt adatbázis-szolgáltatók összegyűjtése, amik számunkra relevánsnak vélt adatot képesek nyújtani.
- Az adatszolgáltatók megvizsgálása: Az egyik legfontosabb lépés, hogy megbizonyosodjunk arról, hogy csak azokkal az adatkészletekkel foglalkozzunk, amik olyan forrásból származnak, amik hitelesek vagy annak gondoljuk. Ez azért nagyon fontos, mert rengeteg időt tud megmenteni, ha eleve olyan adatból dolgozunk, ami megfelel a valóságnak.
- Adatszolgáltatók tesztelése: Az adatok objektív mérése szempontjából érdemes a megfelelőnek minősített szolgáltatók adatait objektív mutatókkal tesztelni.
- Megtérülés kiszámítása: Ezt akkor lehet a legkönnyebben megállapítani, amikor már kiszámoltuk a hátralévő teendők időigényét.
- Egyesítés és megvalósítás: Az utolsó lépés, hogy az általunk hitelesnek vélt adatkészletet beépítsük a folyamatba.
Ha ezeket a lépéseket követjük, akkor bízhatunk abban, hogy a lehető legjobb döntést hoztuk meg az adatforrás kiválasztásakor.
Comments are closed.