Estatistika deskribatzailea: ariketak/Alborapena eta kurtosia

Wikibooks(e)tik
Hona jo: nabigazioa, bilatu
1: Eguneko ekoiztutako pieza kopurua jaso da lantegi batean:
26-24-29-30-21-19-16-32-36-21-20-42-50-28-24

Datuak puntu-diagrama batean jarri eta adierazi datuek alborapen nabarmena erakusten duten. Batezbestekoa eta mediana kalkulatuz, adierazi norako alborapena dagoen. Fisherren alborapen-koefizientea kalkulatu datu guztiak hartuta eta ondoren bi datu handienak kenduta. Bi datu horien eragina nabarmena al da alborapenari dagokionean? Beraz, Fisher alborapen-koefizientea jasankorra dela esan al daiteke?

Simetria lortzearren datuen aldakuntzarako funtzioak erabiltzen dira. Horietako bat erro karratu funtzioa izaten da. Datuei aldakuntza hori aplikatuz, alborapena nabarmen jaisten al da?

Bi datu handienak ezabatuta eta kalkuluak R softwarearen bitartez eginez:

> y=c(26,24,29,30,21,19,16,32,36,21,20,28,24)
> mean(y)
[1] 25.07692
> y^2
 [1]  676  576  841  900  441  361  256 1024 1296  441  400  784  576
> sum(y^2)
[1] 8572
> round((y-mean(y))^3,digits=1)
 [1]    0.8   -1.2   60.4  119.3  -67.8 -224.4 -747.9  331.8 1303.3  -67.8
[11] -130.9   25.0   -1.2
> sum(round((y-mean(y))^3,digits=1))
[1] 599.4

Erro karratuz transformatutako datuak hartuz berriz hauek lirateke kalkuluak eta emaitzak Fisher koefizientea kalkulatzeko:

> x=c(26,24,29,30,21,19,16,32,36,21,20,42,50,28,24)
> z=round(sqrt(x),digits=1)
> mean(z)
[1] 5.233333
> round(z^2,digits=1)
 [1] 26.0 24.0 29.2 30.2 21.2 19.4 16.0 32.5 36.0 21.2 20.2 42.2 50.4 28.1 24.0
> sum(round(z^2,digits=1))
[1] 420.6
> round((z-mean(z))^3,digits=1)
 [1]  0.0  0.0  0.0  0.0 -0.3 -0.6 -1.9  0.1  0.5 -0.3 -0.4  2.0  6.5  0.0  0.0
> sum(round((z-mean(z))^3,digits=1))
[1] 5.6


2: Hainbat familiaren errentari buruzko datuak jaso eta tartetan bildu dira:
Errentak Familiak
200-300 126
300-400 459
400-500 896
500-600 367
600-700 292
700-800 85
Guztira: 2225

Batezbestekoa eta mediana kalkulatu eta horretan oinarrituz adierazi norako alborapena dagoen. Bowley alborapen koefizientea kalkulatu eta interpretatu. Moors koefizientea ere kalkulatu. Emaitza guztiak interpretatu banakuntza normalaren erabilerari buruz.


3: Autobus batek goizeko ibilbide bat egiteko behar dituen denborak jaso dira (minututan):
25-28-32-24-27-35-38-19-27-27-25-26-29-35-42-18-20-22-24-23-25-26-32-29-27-20-21-22-25-26-26

Datuak tartetan bilduz eta histograma eratuz, azter ezazu datuen eredu moduan banakuntza normala egokia den. Neurri jasankorrak erabiliz, egiazta itzazu aurreko ondorioak.

R kodea ikusteko, sakatu irudian.

Histograman datuen banakuntza eskuinera alboraturik dagoela ikus daiteke. Beraz, kurtosia aztertu gabe ere (kurtosia histogramari erreparatuz, gainera, ez da erraza aztertzen), banakuntza normala datuetarako eredu egokia baiezta daiteke (datuak aldakuntza batez simetriko bihurtzen ez badira behintzat).

Alborapen- eta kurtosi-neurri jasankorrak Bowley eta Moorsen koefizienteak dira, hurrenik hurren. Horiek kalkulatzeko, 12.5, 25, 37.5, 50, 62.5, 75 eta 87.5garren pertzentilak eman behar dira. Eta horretarako, datuak ordenatu behar dira lehendabizi:18-19-20-20-21-22-22-23-24-24-25-25-25-25-26-26-26-26-27-27-27-27-28-29-29-32-32-35-35-38-42.

Bowleyen alborapen koefizientea kalkulatu behar da:

Banakuntzak ezkerrerako alborapen arina erakusten du printzipioz, hau da, simetrikotzat jo ahal izateko 0tik aski gertu dagoela esan daiteke. Histograma aztertuz, eskuinerako alborapena zegoela ondorioztatu da hasieran, baina ez dago kontraesanik horretan, Bowleyen koefizienteak erdian dauden datuen %50ak soilik hartzen baititu kontuan.

Moorsen koefizientea, berriz, hau da:

Badirudi, lagin errorearen erreserbapean eta erdian dauden datuen %50ak soilik hartuz, banakuntza leptokurtikoa dela (1.88>1.23).

Beraz, banakuntza normala ez litzateke egokia izango datu horiek modelizatzeko (erdian nahiko simetrikoa izan arren, leptokurtikoa baita).

Emaitzek banakuntza normalaren egokitasuna adieraziko balute ere, emaitzak erdian dauden datuen %50ak soilik, alborapenaren kasuan, eta \%75ak soilik, kurtosiaren kasuan, jaso direla kontuan harturik, banakuntza normala banakuntzaren erdigunearen eredua izateko soilik litzateke egokia, muturretan gertatzen dena kontuan hartu gabe.

4: Test batean ikasle batzuek lortutako kalifikazioak bildu dira:
Kalifikazioak Ikasleak
20-30 8
30-40 26
40-50 86
50-60 32
60-70 14

Datuetan jasotzen den informazio guztia kontuan hartzen duten neurriak kalkulatuz, azter ezazu datu horietarako banakuntza normala egokia izan daitekeen.



5: 30 urteko pinu batzuen diametroa jaso da (cm):
45-48-56-34-47-38-52-44

Datuetan jasotzen den informazio guztia kontuan hartzen duten neurriak kalkulatuz, azter ezazu datu horietarako banakuntza normala egokia izan daitekeen. Datuak metrotan izango balira, aldatuko al lirateke neurrien balioak?

Fisher alborapen-koefizientea eta Pearson kurtosi-koefizientea kalkulatu behar dira, beraz. Horietarako azken kalkuluak egiteko bitarteko kalkuluak ondorengo R aginduetan zehazten dira.

> x=c(45,48,56,34,47,38,52,44)
> sum(x)
[1] 364
> mean(x)
[1] 45.5
> x^2
[1] 2025 2304 3136 1156 2209 1444 2704 1936
> sum(x^2)
[1] 16914
> (x-mean(x))^3
[1]    -0.125    15.625  1157.625 -1520.875     3.375  -421.875   274.625
[8]    -3.375
> sum((x-mean(x))^3)
[1] -495
> (x-mean(x))^4
[1]     0.0625    39.0625 12155.0625 17490.0625     5.0625  3164.0625  1785.0625
[8]     5.0625
> sum((x-mean(x))^4)
[1] 34643.5

Emaitza hauek taula honetan ezarri beharko lirateke:

... ... ... ...
364 16914 -495 34643.5

Eta horietatik:

Metrotan emaitzak aldatuko liratekeen aztertzeko, aski da datuak zati 100 egin eta neurriak berriz ere kalkulatzea.

Kalkulu guztiak egin gabe, Rk baditu aginduak bi koefiziente horiek emateko (moments paketea deskargatuta eta skewness (euskaraz, alborapen) eta kurtosis aginduekin:

> y=x/100
> y
[1] 0.45 0.48 0.56 0.34 0.47 0.38 0.52 0.44
> library(moments)
> skewness(y)
[1] -0.2120002
> kurtosis(y)
[1] 2.236796

Emaitzak ez dira aldatzen kasu honetan eta ezta kasu orokorrean ere. Hau gertatzen denean, neurria eskala-inbariantea dela esaten da.

Edozein kasuetan, banakuntza edo datu-multzoa ezker alboratua eta platikurtikoa denez, banakuntza normala ez litzateke egokia izango datu hauetarako.