Analýza hlavných komponentov

Analýza hlavných komponentov (skratka: AHK) alebo analýza základných komponentov (angl. principal component analysis, skratka: PCA) je matematická štatistická metóda, ktorá využíva ortogonálnu transformáciu na to, aby previedla prvky množiny pozorovaní, u ktorých je možné, že sú korelované, na prvky takej množiny hodnôt, ktoré sú lineárne nekorelované. Tieto sa potom označujú ako hlavné komponenty alebo základné komponenty (angl. principal components).

Matematicky je analýza hlavných komponentov takmer to isté ako singulárny rozklad (iné názvy: singulárny rozklad matice, rozklad na singulárne hodnoty, dekompozícia singulárnej hodnoty; angl. singular value decomposition, skratka: SVD)^[1].

Pri analýze hlavných komponentov ide teda o to, že hľadáme takú množinu lineárnych kombinácií pôvodných premenných (pozorovaní), ktorá zachováva čo najväčšie množstvo informácií o pôvodných premenných (pozorovaniach) a zároveň jej dimenzia bude menšia alebo nanajvýš rovná ako dimenzia pôvodnej množiny (počet prvkov novej množiny bude menší alebo nanajvýš rovný ako počet prvkov pôvodnej množiny). Týmto postupom sa docieli to, že bude možné študovať daný štatistický problém v podpriestore s menšou dimenziou, čo má veľký význam pri ďalšej analýze štatistického súboru (testovanie hypotéz, hľadanie oblastí spoľahlivosti, grafické znázorňovanie pozorovaní, a pod.).

Počet hlavných komponentov je teda vždy menší alebo nanajvýš rovný pôvodnému počtu prvkov. Ortogonálna transformácia, ktorá sa pri tejto metóde používa, je definovaná tak, aby mal prvý hlavný komponent najväčšiu varianciu spomedzi všetkých možných lineárnych kombinácii vektora pozorovaní.

Metódu analýzy hlavných komponentov navrhol v roku 1901 anglický matematik Karl Pearson a v roku 1933 ju zovšeobecnil americký matematik Harold Hotelling.

Definícia

Uvažujme p-rozmerný náhodný vektor ${\mathbf {X} }=(X_{1},\cdots ,X_{p})^{T}$ , ktorého kovariančnú maticu označme ${\mathbf {\Sigma } }$ (táto matica je štvorcová typu $p\times p$ a kladne semidefinitná). Podľa Jordanovej spektrálnej dekompozičnej vety o symetrických maticiach vieme, že každú symetrickú štvorcovú maticu môžeme zapísať v nasledovnom tvare:

${\mathbf {\Sigma } }={\mathbf {U} }{\mathbf {A} }{\mathbf {U} }^{T}=\sum _{j=1}^{p}\alpha _{j}u_{j}u_{j}^{T}$

Kde:

matica ${\mathbf {A} }=diag(\alpha _{1},\cdots ,\alpha _{p})$ je diagonálna matica, ktorej prvky sú vlastné čísla matice ${\mathbf {\Sigma } }$ .

matica ${\mathbf {U} }=(u_{1},\cdots ,u_{p})$ je ortogonálna matica, ktorej stĺpce sú vlastné vektory normy 1 matice ${\mathbf {\Sigma } }$ . Tieto vektory $u_{1},\cdots ,u_{p}$ tvoria ortonormálny systém vlastných vektorov matice ${\mathbf {\Sigma } }$ .

$\alpha _{j}$ je vlastné číslo prislúchajúce vlastnému vektoru $u_{j}$ . Môžeme predpokladať, že pre tieto vlastné čísla platí: $\alpha _{1}\geq \cdots \geq \alpha _{p}$ .

Strednú hodnotu vektora ${\mathbf {X} }$ označme $\mu$ . Potom náhodný vektor ${\mathbf {Z} }$ , ktorý je definovaný nasledujúcim vzťahom:

${\mathbf {Z} }=U^{T}({\mathbf {X} }-\mu )$

nazývame vektorom hlavných komponentov náhodného vektora ${\mathbf {X} }$ .

Pre strednú hodnotu a kovariančnú maticu vektora ${\mathbf {Z} }$ platí nasledovné:

$E({\mathbf {Z} })=0$
$D({\mathbf {Z} })=diag(\alpha _{1},\alpha _{2},\cdots ,\alpha _{p})$

Zložky vektora sú nekorelované a pre disperzie týchto zložiek platí, že: $D(Z_{1})\geq D(Z_{2})\geq \cdots \geq D(Z_{p})$ . Jednotlivé zložky vektora ${\mathbf {Z} }$ sa nazývajú hlavné komponenty, teda pre $k=1,\cdots ,p$ je náhodná premenná tvaru:

$Z_{k}=u_{k}^{T}({\mathbf {X} }-\mu )$

k-ty hlavný komponent náhodného vektora ${\mathbf {X} }$ .

Vlastnosti

Základné vlastnosti hlavných komponentov sú nasledovné:

$E(Z_{j})=0$ pre $j=1,\cdots ,p$

$D(Z_{j})=\alpha _{j}$ pre $j=1,\cdots ,p$

$cov(Z_{i},Z_{j})=0$ pre $i\neq j$

$cov(X_{k};Z_{l})=u_{k,l}\alpha _{l}$

pre koeficient korelácie platí, že: $\rho (X_{k};Z_{l})=u_{kl}{\frac {\sqrt {\alpha _{l}}}{\sigma _{k}}}$

Kde $k,l\in \{1,\cdots ,p\}$ a $u_{kl}=(u_{l})_{k}$ je k, l-ty prvok matice $U$ a $\sigma _{k}={\sqrt {D(X_{k})}}$ .

Prvý hlavný komponent $Z_{1}$ náhodného vektora $X$ má najväčšiu disperziu spomedzi všetkých normovaných lineárnych kombinácií prvkov vektora $X$ . Matematicky môžeme túto vlastnosť zapísať nasledovne:

$D(Z_{1})\geq D(c^{T}{\mathbf {X} })$

kde $c$ je ľubovoľný p-rozmerný vektor normy 1.

Pre druhý a každý ďalší hlavný komponent, teda pre $i\geq 2$ , má i-ty hlavný komponent $Z_{i}$ náhodného vektora ${\mathbf {X} }$ najväčšiu disperziu spomedzi všetkých tých normovaných lineárnych kombinácií prvkov vektora ${\mathbf {X} }$ , ktoré sú nekorelované s hlavnými komponentmi $Z_{1},\cdots ,Z_{i-1}$ .

Hlavné komponenty sú závislé od mierky, v ktorej sa vyskytujú jednotlivé premenné. Teda máme štatistický súbor, ktorý obsahuje rôzne premenné, pričom niektoré sú merané napríklad v metroch, iné v kilometroch, a ďalšie napríklad v sekundách. Hlavné komponenty sa v tomto prípade zmenia. Preto sa v praxi niekedy pristupuje k tzv. štandardizácii premenných, čo znamená, že sa na odhady vektorov hlavných komponentov namiesto výberovej kovariančnej matici používa výberová korelačná matica. Po aplikovaní tejto metódy dostaneme vektory výberových hlavných komponentov, ktoré nezávisia od mierky.

Z teoretického pohľadu je však najvhodnejšie použiť metódu analýzy hlavných komponentov v takých prípadoch, kedy sú jednotlivé premenné skúmaného štatistického súboru rovnakého charakteru (teda boli zmerané v rovnakých jednotkách).

Referencie

↑ SHLENS, J. A Tutorial on Principal Component Analysis. 2014. S. 7 [1]

Iné projekty

Commons ponúka multimediálne súbory na tému Analýza hlavných komponentov

Zdroj

Tento článok je čiastočný alebo úplný preklad článku Principal component analysis na anglickej Wikipédii.
LAMOŠ, František; POTOCKÝ, Rastislav. Pravdepodobnosť a matematická štatistika - Štatistické analýzy. Bratislava : Univerzita Komenského v Bratislave, Vydavateľstvo UK, 1998. 344 s. ISBN 80-223-1262-2. Kapitola Analýza hlavných komponentov.
HARMAN, Radoslav. Mnohorozmerné štatistické analýzy [online]. Katedra aplikovanej matematiky a štatistiky UK v BA, 2013-03-06, [cit. 2013-10-20]. Dostupné online. ^{[nefunkčný odkaz]}
ANDREJIOVÁ, Miriam; OLEXA, Jozef. Analýza spotreby prenosných batérií na Slovensku prostredníctvom metódy hlavných komponentov. Forum Statisticum Slovacum (Slovenská štatistická a demografická spoločnosť), roč. 2011, čís. 5. Dostupné online [cit. 2013-10-20].

[1] SHLENS, J. A Tutorial on Principal Component Analysis. 2014. S. 7 [1]

[1]