A korrelációs együttható története

 

Szepesváry Pál

ELTE Kémiai Tanszékcsoport, Budapest

 

 

Számos helyen olvasható, hogy a változók függetlenségének vagy összefüggésének mérésére használt korrelációs együtthatót August Bravais (1811-1863) definiálta. Ez meglepő, mert Bravais-ról elsősorban azt tudjuk, hogy a kristályok osztályozását alkotta meg, amellett nem sejtettük volna, hogy a korrelációs együttható ilyen "régi". Az a Bravais azonban, akit természetesen érdekelt a pontok lehetséges síkbeli és térbeli elhelyezkedése, nem kerülte meg azt a problémát, hogy mi van akkor, ha a pontok helyzetét a véletlen is befolyásolja. 1846-ban közzétett "Analyse mathématique sur les probabilités des erreurs de situation d'un point," Mémoires de l'Institute de France, IX, 255-332. (1846) című munkájában lerajzolta két változó kontúrellipszisét, berajzolta a regressziós egyenest, megadta annak egyenletét…és nem szólt egy szót sem az állandók értelméről!

Az elképesztően sokoldalú Francis Galton (1822-1911) volt az az ember, aki a XIX. század utolsó negyedében megfogalmazta regressziószámítás fogalmait, ezzel együtt szükségszerűen a korrelációs együtthatót, nagyjából abban a formájában, ahogyan azt ma ismerjük. Pontosabban szólva, ahogyan azt ma Karl Pearson (1857-1936) tisztázása után ismerjük. A mód, ahogyan Galton a regresszió görbéihez és állandóihoz eljutott természetesen eltér a ma megszokott eljárásoktól, de észre kell vennünk, hogy ennek során sem a lineáris esetekre, sem a normális eloszlásúakra nem szorítkozik sőt sokváltozós esetekkel is foglalkozik.

A most már Bravais-Pearson féle korrelációs együtthatónak nevezett mennyiség (r = cov(x,y)/sx.sy) napjainkig használatos, több-kevesebb sikerrel. Miközben az oktatás során a korrelációs együtthatót ismertetik, nem győzik hangsúlyozni annak implikatív jellegét, azaz azt, hogy a korrelációs együttható adott értéke számos következtetésnek szükséges, de nem elégséges feltétele, mégis sokszor tévesen alkalmazzák. Vélhetően oktatási hiányokra vezethető vissza az is, hogy a paraméter-illesztés jóságát hajlamosak egyedül ezzel mérni, holott erre a korrelációs együttható csak egy a mérőszámok között és  nem is a legjobb.

Az eredetileg két változóra definiált korreláció sok változóra is általánosítható (többszörös korrelációs együttható). Ezzel (pontosabban négyzetével, COD, Coefficient of Determination) a többváltozós lineáris regresszió jósága valóban szemléletesen jellemezhető. A sokváltozós esetek tárgyalásánál azután hasznos mérőszámokként föllépnek a parciális korrelációs együtthatók.

A korrelációs együtthatók készlete ezzel még nincs kimerítve. A különböző (pl. KENDALL féle, SPEARMAN féle) rangkorrelációs együtthatók adott feladatok, többek között például rendszeres hibáktól mentes vagy éppen azokkal terhelt paraméter-illesztések megítélésénél perdöntőek lehetnek.