Kas yra „Winsorized“?
Winsorized vidurkis yra vidurkio metodas, kuris iš pradžių pakeičia mažiausią ir didžiausią reikšmes artimiausiais joms stebėjimais. Tai daroma siekiant apriboti nenormalių kraštutinių verčių arba iškrypimų poveikį skaičiavimui. Pakeitus vertes, apskaičiuojant vidutinį laimėjimo koeficientą, naudojama aritmetinė vidurkio formulė.
Winsorizuoto vidurkio formulė yra
Visiem, kas noklusina, tacu Winsorized vidurkis = Nxn… xn + 1 + xn + 2… xn, kur: n = didžiausių ir mažiausių duomenų taškų, kuriuos reikia pakeisti stebėjimu, skaičius
Winsorizuotos priemonės išreiškiamos dviem būdais. „K n “ laimėtu reikšme reiškia „k“ mažiausių ir didžiausių stebėjimų pakeitimą, kai „k“ yra sveikasis skaičius. „X%“ laimėtas vidurkis apima tam tikro vertės procentų pakeitimą iš abiejų duomenų galų.
Kaip apskaičiuoti winsorizuotą vidurkį
Laimėtas vidurkis apskaičiuojamas pakeičiant mažiausius ir didžiausius duomenų taškus, tada sudėjus visus duomenų taškus ir sumą padalijant iš bendro duomenų taškų skaičiaus.
Ką tau sako „Winsorized“?
Vidutinis laimėjimo koeficientas yra mažiau jautrus nuokrypiams, nes jis gali juos pakeisti mažesnėmis reikšmėmis. T. y., Jis yra mažiau linkęs į kontūrus, palyginti su vidurkiu. Tačiau jei pasiskirstymas turi riebalų uodegas, aukščiausių ir žemiausių pasiskirstymo verčių pašalinimas nedaro įtakos, nes pasiskirstymo skaičiai yra labai įvairūs.
Pagrindiniai išvežamieji daiktai
- Vidutinis metodas, į kurį įeina mažiausių ir didžiausių verčių pakeitimas artimiausiais jiems stebėjimais.Mažiau jautrus nuokrypiams, nes gali jas pakeisti mažiau kraštutinėmis reikšmėmis. Tai skirtingai nei apkarpytas vidurkis, susijęs su duomenų taškų pašalinimu, nors šių dviejų rezultatų rezultatas linkę būti arti.
„Winsorized Mean“ naudojimo pavyzdys
Galima apskaičiuoti šių duomenų rinkinio laimėtų koeficientų vidurkį: 1, 5, 7, 8, 9, 10, 14. Šiame pavyzdyje mes manome, kad laimėjimo koeficiento vidurkis yra pirmos eilės, o mažiausias ir didžiausias reikšmes pakeičiame jų artimiausi stebėjimai.
Duomenų rinkinys dabar yra toks: 5, 5, 7, 8, 9, 10, 10. Paėmus aritmetinį naujojo rinkinio vidurkį, gaunamas koeficientas, kurio vidurkis yra 7, 7, arba (5 + 5 + 7 + 8 + 9 + 10 +). 10) padalinta iš 7.
Arba apsvarstykite 20% laimėtą vidurkį, kuris užima aukščiausią 10% ir apatinį 10% ir pakeičia juos kita artimiausia verte. Mes naudosime šiuos duomenų rinkinius: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Du mažiausi ir didžiausi duomenų taškai, arba 10%, bus pakeisti kita artimiausia reikšme. Taigi, naujas duomenų rinkinys yra: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. vidurkis yra 33, 9, arba visa duomenų dalis (678) padalinta iš bendro duomenų taškų skaičiaus (20).
Skirtumas tarp winsorizuoto ir sutrumpinto vidurkio
Paprasčiausias vidurkis apima duomenų taškų modifikavimą, o sutrumpintas vidurkis apima duomenų taškų pašalinimą. Įprasta, kad laimesto vidurkis ir sutrumpintas vidurkis yra artimi.
Winsorizuoto vidurkio naudojimo apribojimai
Vienas iš pagrindinių „Winorized“ priemonių neigiamų aspektų yra tas, kad jos į duomenų rinkinį įtraukia šališkumą. Duomenų rinkinyje, atlikus pakeitimą, idealiu atveju jis būtų mažiau šališkas nei tuo atveju, jei ribinės vertės būtų paliktos.
Sužinokite daugiau apie „Winsorized Mean“
Susiję įžvalgos duomenys apie pagrindinių skaičiavimų skirtumus.
