Statistika i Minitab program - linearna regresija i metoda najmanjih kvadrata

Statistika i Minitab program - praktična primena

Kada koristiti linearnu regresiju?

Kada koristiti linearnu regresiju? Matematičkim jezikom odgovor je: kada su zavisna promenjiva (Y) i nezavisne promenjive koje možda utiču na nju (X1,2,…) kontinualne veličine i kada pretpostavljamo da je uticaj linearan.

Nematematički odgovor bi bio: ako pretpostavljamo da:

  • rezultat našeg eksperimenta zavisi od određenog broja faktora
  • zavisnost je linearna, tj. ako neki faktor raste ili opada, naša merena veličina raste ili opada istom brzinom (ili opada i raste)
  • merena veličina i faktori koji utiču na nju se mogu prikazati kao decimalni brojevi (napr. visina, težina, cena,…)

koristeći Minitab program, lako ćemo proveriti našu pretpostavku primenom linearne regresije.

Linearna regresija i primena metode najmanjih kvadrata – šta to znači?

METODA NAJMANJIH KVADRATA OBJAŠNJENA NEMATEMATIČKIM JEZIKOM

Vršimo uzorkovanje i prikupili smo podatke. Primetili smo da za svaku vrednost neke promenjive X, ono što smo merili – naše Y, menja vrednost.

Ako je promena vrednosti Y-a slična promeni vrednosti X-a, pretpostavljamo da postoji linijska zavisnost.

U tom slučaju možemo odrediti pravu na grafiku koja prikazuje linearnu zavisnost Y-a od X-a i kažemo da je:

Y= βo + β1*X

U realnom svetu, dobijene vrednosti Y nikada nisu apsolutno identične očekivanim vrednostima (onome što izračunamo kada X-u dodelimo određenu vrednost).

Za svako X, izmereno Y se razlikuje od očekivanog Y. Te razlike su REZIDUALI.

U matematici, a i u praksi, je prihvaćeno da je jedan od najboljih načina za određivanje koeficijenata βo i β1 (koji nam određuju linearnu regresionu pravu) METODA NAJMANJIH KVADRATA.

Objasnjenje metoda najmanjih kvadrata i reziduala
  • Plavo je regresiona prava- na njoj se nalaze očekivane vrednosti Y-a za razne vrednosti X-a.
  • Crveno su izmerene vrednosti, vrednosti dobijene uzorkovanjem.
  • Zeleno su reziduali, razlike izmedju očekivane i dobijene vrednosti.

Za svako izmereno Y, računa se razlika dobijenog i očekivanog Y-a.

Neke razlike su pozitivne, neke su negativne, tj. neke dobijene vrednosti Y-a su veće od očekivanih, a neke su manje. Da se ne bi anulirala (potrla) odstupanja (reziduali), kvadriramo ih.

Najbolju linearnu pravu biramo (računamo) tako da je suma razlika svih odstupanja dobijenih Y-a od očekivanih (izračunatih) minimalna. Optimalna prava, kod koje je razlika kvadrata minimalna se naziva FITOVANA prava.

Zbog toga se ovaj način zove Metoda najmanjih kvadrata.

Minitab sam računa fitovanu pravu, reziduale, koeficijente βo i β1.

Statistika i Minitab u određivanju i tumačenju KOEFICIJENTA KORELACIJE ρ

Koeficijent korelacije je statistička mera jačine veze izmedju dve promenjive.

Vrednosti se kreću od -1 do 1.

  • kada je ρ= 0, ne postoji veza izmedju promenjivih.
  • kada je ρ= -1 i kada je ρ= 1, u pitanju je apsolutna povezanost dve promenjive.
  • u praksi se najčešće uzima da je jaka korelacija ako je [-1, 0.65] < ρ < [1, 0.65].

VAŽNO: i ako je ρ ≈ 1 ili -1, NE PODRAZUMEVAJTE uzročno- posledičnu vezu. Analizirajte podatke, pa onda donesite zaključak.

Primer: nekoliko studija je ukazalo na jaku pozitivnu korelaciju izmedju prodaje sladoleda i broja davljenja u primorskim mestima.

Kako prodaja sladoleda doprinosi slučajevima davljenja?

Baš nikako.

Bez obzira što je korelacioni koeficijent blizu jedinici, uzročnost ne postoji.

Uzročnost postoji izmedju sezone i broja sunčanih dana i prodaje sladoleda,  sa jedne strane i broja sunčanih dana i povećanog broja slučajeva davljenja, sa druge strane.

Ako želite više da saznate o ovome, pogledajte video Koeficijent korelacije i Pearsonov koeficijent. (8 min)

Metoda najmanjih kvadrata i objašnjenje NAGIBA I ODSEČKA (koeficijenti βo i β1)

Sta su nagib i odsecak kod metoda najmanjih kvadrata

Koeficijent βo određuje ODSEČAK (intercept). To je očekivana vrednost Y-a, kada je X=0.

Koeficijent β1 nam govori kakav je NAGIB prave.

  • Ako je β1 > 0, Y raste kada X raste. 
  • Ako je β1 < 0, Y opada kada X raste.
  • Ako je β1 = 0, Y je paralelno sa X-osom. U tom slučaju, za bilo koju vrednost X-a, Y je konstantna veličina i jednaka je βo.
  • Ako je β1 = 1,  prava je pod uglom od 45o.
  • Što je β1 veće od 1, Y brže raste u odnosu na X.
Sta su nagib i odsecak kod regresije i na sta ukazuju

Metoda najmanjih kvadrata i linearna regresija - ZADATAK 1

U tabeli je dat bruto godišnji prihod 10 država (u milijardama dolara) i dužina puteva (u hiljadama kilometara) koji se izgrade tokom godine u svakoj od tih država.

 

Metoda najmanjih kvadrata reseni zadaci tabela sa podacima 1
  1. Odrediti koeficijente βo i β1 tako da prava y=βo + β1*x najbolje odgovara podacima iz tabele u smislu metoda najmanjih kvadrata.
  2. Kolika je varijansa slučajne greške?
  3. Koliko je y za x= 50?
  4. Kolika je fitovana vrednost i rezidual za x=31,33?
  5. Testirati pouzdanost regresije. Obrazložiti.
  6. Kolika je standardna greška za nagib (slope) i odsečak (intercept)?
  7. Odrediti koeficijent korelacije izmedju x i y.
  8. Testirati hipotezu da je ρ=0.
  9. Prikazati grafik regresione prave sa granicama intervala poverenja i intervala predikcije.
  10. Analizirati reziduale.

Metoda najmanjih kvadrata i linearna regresija - ZADATAK 2

U tabeli je dat iznos investicija jedne firme tokom 14 godina i iznosi profita kao rezultat investiranja (u milionima dinara).

Metoda najmanjih kvadrata reseni zadaci tabela 2
  1. Odrediti koeficijente βo i β1 tako da prava y=βo + β1*x najbolje odgovara podacima iz tabele u smislu metoda najmanjih kvadrata.
  2. Kolika je varijansa slučajne greške?
  3. Koliki je fitovani profit ako se investira 20 miliona, a koliki je ako se investira 300 miliona?
  4. Kolika je fitovana vrednost i rezidual za x=51,44?
  5. Testirati pouzdanost regresije. Obrazložiti.
  6. Koliko je model dobar?
  7. Kolika je standardna greška za nagib (slope) i odsečak (intercept)?
  8. Odrediti koeficijent korelacije izmedju x i y.
  9. Testirati hipotezu da je ρ=0. Obrazložiti izračunati koeficijent.
  10. Prikazati grafik regresione prave sa granicama intervala poverenja i intervala predikcije.
  11. Analizirati reziduale. Postaviti hipoteze i izvući zaključke.

Časovi Minitab i statistika, 1200 din / 1h, online. Prilagodjeno svakom polazniku prema prethodnom znanju i potrebama.

Kurs za zaposlene, online ili u Vašim prostorijama.

Kontaktirajte nas.