KÜLÖNBÖZŐ OSZTÁLYOZÁSI MÓDSZEREK ÖSSZEHASONLÍTÁSA
Horváth István és Márton Attila
JATE Szervetlen és Analitikai Kémiai Tanszék
Egy mérési adatokból álló számhalmaz elemei közötti kapcsolatok feltárására alkalmas lehet valamely osztályozási (klaszterezési) eljárás. A mérések hibaeloszlásáról rendelkezésre álló ismeretek (vagy feltételezések) birtokában adható meg a megfelelő osztályozási módszer. Sokdimenziós problémák esetén nehéz vagy lehetetlen az együttes hibaeloszlás meghatározása és az adekvát osztályozási eljárás kiválasztása. Ilyenkor eloszlásfüggetlen és robusztus eljárások alkalmazása kerülhet előtérbe.
Az osztályozást meghatározó műveletek:
1. Távolságdefiníció: |
euklideszi (független adatok, normális hibaeloszlás), |
||
Mahalanobis (korrelált adatok, normális eloszlás), |
|||
robusztus (ismeretlen adat- és hibaeloszlás). |
|||
2. Adattranszformáció: |
a.) komponensenként: |
klasszikus, |
|
robusztus, |
|||
b.) együttes: főkomponens analízis. |
|||
3. Csoportosítási eljárás: |
legközelebbi szomszéd megkeresése, |
||
súlyponttól való távolság: |
átlaggal, |
||
mediánnal. |
A különböző paraméterekkel jellemezhető osztályozási módszereket összehasonlítottuk az IRIS teszthalmazon és a Duna Bajánál mért vízkémiai adatainak halmazán.