EGY DICHOTOMIA ALAPÚ CLUSTER ANALÍZIS ELJÁRÁS
ÉS NÉHÁNY GEOKÉMIAI ALKALMAZÁSA

M. Tóth Tivadar

JATE Ásványtani, Geokémiai és Kőzettani Tanszék

 

A geológiában, és különösen a gyakran nagy méretű numerikus adatbázisokkal dolgozó geokémia területén gyakran alkalmazunk különböző osztályozási eljárásokat. Mivel számos esetben a geológiai, geokémiai objektumok természetes hierarchikus csoportstruktúrát alkotnak, az agglomeratív és a divizív hierarchikus cluster analízisek használata a legelterjedtebb. Ezek mindegyike valamely, több dimenziós térben értelmezett hasonlóság (távolság) definíció alapján építkezik, általában valamely rekurzív algoritmust követve.

A cluster analízisek fenti osztályába tartozó, széles körben elterjedt módszerek használhatósága számos esetben geológiai szempontok, vagy matematikai okok miatt kérdéses. Ezen okok közül a fontosabbak az alábbiak:

Ezen problémák figyelembevételével a közelmúltban (M Tóth, 1992, M Tóth, Engi, 1997) egy új cluster analízis eljárás került kidolgozásra, és tesztelésre, majd - főleg geokémiai kutatások során - alkalmazásra. Az algoritmus az alábbi:

  1. Minden változóra definiáljunk egy egydimenziós hasonlóságot (legegyszerűbb esetben különbségük abszolút értékét). Adjunk meg változónként egy-egy küszöbértéket, amely alatt a hasonlóságot szignifikánsnak tekintjük. (A gyakorlatban jól bevált az i*/n definíció, ahol i N; i a hasonlósági küszöb - “similarity level”.)
  2. A hagyományos adat mátrixból (n minta, m változó) a fenti küszöbérték, mint indikátor függvény alkalmazásával m darab, n*n típusú dichotom hasonlóság mátrix származtatható (Ai).
  3. Képezzük az A=Ai mátrixot, amely többváltozós hasonlóság mátrixként értelmezhető. A(i,j) az i és j mintákban hasonló változók száma.
  4. Az A mátrixban egymáshoz adott számú változóban hasonló minták csoportot alkotnak. Ezen szám (kapcsolódási küszöb - “connection level”) lépésenkénti csökkentése vagy növelése hierarchikus csoportstruktúrát definiál.

A bevezetett eljárás legfontosabb tulajdonságai az alábbiak:

Ihom,i(csoport)=2*ei/(k1*(k1-1)), ahol

ei a hasonló minták száma a csoporton belül az i változó esetén,

k1 a csoport elemszáma.

Ihet,i(csoport1,csoport2)=1-fi/(k1*k2), ahol

fi a hasonló minták száma a két csoport között az i változó esetén,

k1, k2 a két csoport elemszáma.

Id,i(csoport1,csoport2)=( Ihom,i(csoport1)* Ihom,i(csoport2)* Ihet,i(csoport1,csoport2))1/3

A bemutatott osztályozó eljáráshoz F77 (Todd, M Tóth, 1999) és Basic nyelven felhasználói szoftverek készültek. A módszert az alábbi kutatások során használtuk eredményesen:

Bár az itt bemutatott eljárás eredetileg geokémiai problémák megoldására került kidolgozásra, általánossága miatt egyéb osztályozási feladatok során is alkalmazható lehet.

 

Irodalom

Anderberg, M. R. (1973): Cluster analysis for application. Academic press, 359 p.

M Tóth, T. (1992): Földtani objektumok csoportosítása gráfelmélet segítségével Szeghalmi amfibolitok példáján. Földtani Közlöny, , 122/2-4: 251-263

M Tóth, T., Engi, M. (1997) : A new cluster analysis method for altered rock samples. Schweiz. Mineral. Petrogr. Mitt., 77: 439-447

Todd, C. S., M Tóth, T. (1999): Cluster1 and Cluster2; FORTRAN programs for cluster analysis using graph theory. Comp and Geosci, in press

Zahn, C. T. (1971): Graph-theoretical methods for detecting and describing gestalt clusters. IEEE Transactions on Computers C-20(1), 68-86.