KÜLÖNBÖZŐ OSZTÁLYOZÁSI MÓDSZEREK ÖSSZEHASONLÍTÁSA

Horváth István és Márton Attila

JATE Szervetlen és Analitikai Kémiai Tanszék

hopi@sol.cc.u-szeged.hu

 

Egy mérési adatokból álló számhalmaz elemei közötti kapcsolatok feltárására alkalmas lehet valamely osztályozási (klaszterezési) eljárás. A mérések hibaeloszlásáról rendelkezésre álló ismeretek (vagy feltételezések) birtokában adható meg a megfelelő osztályozási módszer. Sokdimenziós problémák esetén nehéz vagy lehetetlen az együttes hibaeloszlás meghatározása és az adekvát osztályozási eljárás kiválasztása. Ilyenkor eloszlásfüggetlen és robusztus eljárások alkalmazása kerülhet előtérbe.

Az osztályozást meghatározó műveletek:

1. Távolságdefiníció:

euklideszi (független adatok, normális hibaeloszlás),

 

Mahalanobis (korrelált adatok, normális eloszlás),

 

robusztus (ismeretlen adat- és hibaeloszlás).

   

2. Adattranszformáció:

a.) komponensenként:

klasszikus,

   

robusztus,

 

b.) együttes: főkomponens analízis.

   

3. Csoportosítási eljárás:

legközelebbi szomszéd megkeresése,

 

súlyponttól való távolság:

átlaggal,

   

mediánnal.

 

A különböző paraméterekkel jellemezhető osztályozási módszereket összehasonlítottuk az IRIS teszthalmazon és a Duna Bajánál mért vízkémiai adatainak halmazán.