A variancia az adathalmaz számai közötti különbség mérése. A variancia azt méri, hogy a halmaz egyes számai milyen távolságra vannak az átlagtól.
Adatkészlet diagram segítségével megfigyelhetjük, hogy mi a különféle adatpontok, vagy számok lineáris összefüggése. Ezt regressziós vonal meghúzásával hajtjuk végre, amely megkísérli minimalizálni az egyes adatpontok távolságát a vonaltól. Az alábbi táblázatban az adatpontok a kék pontok, a narancssárga vonal a regressziós vonal, a piros nyilak pedig a megfigyelt adatok és a regressziós vonal távolsága.
Kép: Julie Bang © Investopedia 2020
A variancia kiszámításakor az összes adatpont kapcsolatától függően megkérdezzük, hogy mekkora távolságot várunk el a következő adatponton? Ezt a "távolságot" hibaszámnak nevezzük, és ez az, amit a szórás mér.
Önmagában a variancia nem gyakran hasznos, mivel nincs egysége, ami megnehezíti a mérést és az összehasonlítást. A variancia négyzetgyöke azonban a szórás, és ez egyaránt mérési szempontból praktikus.
A variancia kiszámítása az Excelben
Az variancia kiszámítása az Excelben egyszerű, ha az adatkészlet már be van írva a szoftverbe. Az alábbi példában kiszámoljuk a napi hozam 20 napi szórását a SPY nevű, rendkívül népszerű tőzsdei alapban (ETF), amely az S&P 500-ba fektet be.
- A képlet = VAR.S (adatok kiválasztása)
A VAR.S, és nem a VAR.P (amely egy másik kínált képlet) használatát az okozza, hogy gyakran nem rendelkezik a teljes adatpopulációval. Például, ha a SPY ETF történetében minden visszatérés lenne a táblázatban, akkor felhasználhatnánk a VAR.P népességmérést, de mivel csak az elmúlt 20 napot mértük a koncepció szemléltetésére, akkor a VAR.S.
Mint láthatja, a.000018674 számított varianciaértéke önmagában keveset mond nekünk az adathalmazról. Ha tovább folytatnánk az négyzetes gyökér értéket, hogy megkapjuk a hozamok szórását, akkor ez hasznosabb lenne.