M_R_W22_M1 Statystyka
2. Wariancja i odchylenie standardowe

Na pewno wiesz, że Sahara to największa najgorętsza pustynia na Ziemi. Zapewne kojarzy ci się z bezkresnym piaszczystym obszarem. A jak jest w rzeczywistości? Jak myślisz – ile procent powierzchni Sahary pokrywa piasek?
Nie wiem jaką dasz odpowiedź, ale większość ludzi twierdzi, że około , choć jest wręcz przeciwnie – tylko powierzchni Sahary pokrywa piasek. Dzieje się tak dlatego, że powierzchnia pustyni jest bardzo zróżnicowana, w dużej mierze skalista.
Widać więc, że uśrednianie danych, w przypadku dużego ich zróżnicowania, może całkowicie wypaczyć obraz pewnego zjawiska czy sytuacji. Aby unikać takich pułapek, w statystyce, oprócz miar tendencji centralnej, stosuje się jeszcze inne miary. Z niektórymi z nich zapoznasz się w tym materiale.
Poznasz niektóre miary rozproszenia i porównasz je z miarami tendencji centralnej.
Obliczysz rozstęp, odchylenie przeciętne i wariancję danych przedstawionych w różny sposób.
Przeanalizujesz i zinterpretujesz wariancję danego zestawu danych statystycznych.
Obliczysz odchylenie standardowe danych przedstawionych w różny sposób.
Miary rozproszenia
Rozpatrzymy wyniki dwóch serii rzutów kostką do gry.
Seria 1 | Seria 2 |
|---|---|
W obu przypadkach średnia arytmetyczna liczby wyrzuconych oczek jest równa . Mediana obu zestawu danych też jest równa i wynosi . Jednak oba te zestawy danych wyraźnie się różnią. Pierwszy zestaw nie jest zróżnicowany, a drugi – zróżnicowany. Widać więc, że zastosowanie miar tendencji centralnej nie opisuje dobrze różnic między tymi zestawami.
Aby więc analiza danych była pełniejsza, warto zastosować jeszcze charakterystyki zróżnicowania (rozproszenia) danych, zwane miarami rozproszenia (dyspersji). Miary te pozwalają na określenie, jak duże są różnice (odchylenia) między poszczególnymi wartościami jednostek zbiorowości, a ich wartością przeciętną (średnią).
Miary rozproszenia (rozrzutu, zmienności, dyspersji) to miary charakteryzujące stopień zróżnicowania między sobą jednostek statystycznych pod względem badanej cechy.
Przykładowe miary rozproszenia to rozstęp, wariancja, odchylenie standardowe.
Rozstęp
Rozstęp jest miarą służącą do wstępnej analizy rozproszenia.
Rozstępem (obszarem zmienności) nazywamy różnicę między największą a najmniejszą wartością cechy w szeregu statystycznym.
Rozstęp oznaczamy literą .
gdzie:
– największa wartość cechy,
– najmniejsza wartość cechy.
W tabeli przedstawiono oceny z historii uzyskane przez Anię, Ewę i Julka.
Osoba | Oceny z historii |
|---|---|
Ania | |
Ewa | |
Julek |
Odchylenie przeciętne
Odchyleniem wartości cechy statystycznej od średniej arytmetycznej nazywamy liczbę .
Policzono ile bombek zawieszono na choinkach stojących na Placu Ratuszowym. Otrzymano następujące wyniki: , , , .
Obliczymy średnią arytmetyczną liczby bombek i dla każdego wyniku podamy odchylenie od średniej liczb bombek.
Rozwiązanie:
Obliczamy średnią arytmetyczną:
Obliczamy odchylenie od średniej.
Argumenty i Wartości | ||||
|---|---|---|---|---|
Wniosek:
Największe odchylenie od średniej jest w przypadku choinki, na której zawieszono bombki.
Miarą rozproszenia, która uwzględnia wszystkie dane rozkładu (a nie poszczególne elementy – tak jak odchylenie od średniej), jest odchylenie przeciętne (średnie).
Odchyleniem przeciętnym zestawu danych statystycznych od ich średniej arytmetycznej nazywamy liczbę:
Obliczymy odchylenie przeciętne dla zestawu danych z Przykładu .
Możemy powiedzieć, że liczby bombek na poszczególnych choinkach różnią się o ok. od średniej dla wszystkich choinek.
Wariancja
Podstawową miarą zmienności obserwowanych wyników jest wariancja. Wariancja informuje o tym, jak duże jest zróżnicowanie wyników w danym zbiorze danych – czy wyniki są bardziej czy mniej skoncentrowane wokół średniej.
Wariancją zestawu danych statystycznych nazywamy średnią arytmetyczną kwadratów odchyleń od ich średniej arytmetycznej .
Wariancję oznaczamy symbolem ( – sigma) i określamy wzorem:
W loterii fantowej wzięły udział osoby. Każda wyciągnęła losów. Pierwsza z osób wyciągnęła 4 losy pełne, druga , a trzecia . Obliczymy wariancję wyciagnięcia losów pełnych.
Obliczamy średnią arytmetyczną liczb: , , .
Obliczamy wariancję.
Wariancja jest równa w przybliżeniu .
Obliczymy wariancję dla zestawu danych zapisanych w tabeli liczebności.
Argumenty i Wartości | ||||
|---|---|---|---|---|
Wartość cechy | ||||
Liczebność | ||||
Obliczamy średnią arytmetyczną.
Obliczymy wariancję.
WariancjaWariancja dla podanego zestawu danych jest równa .
Obliczymy rozstęp, średnią arytmetyczną, odchylenie przeciętne i wariancję dla zestawu danych: , , , , .
Rozwiązanie:
Zapisujemy dane w postaci uporządkowanego szeregu statystycznego.
Obliczamy rozstęp.
Obliczamy średnią arytmetyczną.
Obliczamy odchylenie przeciętne.
Obliczamy wariancję.
Na podstawie wartości uzyskanych parametrów zauważamy, że zróżnicowanie danych jest duże (różnica między wartością największą a najmniejszą to aż , wariancja to ).
Zapoznaj się z przykładami wyznaczania miar rozproszenia pokazanymi w galerii zdjęć interaktywnych. Zinterpretuj w każdym przypadku uzyskane wyniki.
Zapoznaj się z poniższymi przykładami wyznaczania miar rozproszenia. Zinterpretuj w każdym przypadku uzyskane wyniki.
Przykład 1
Uczniowie oceniali w skali 1 do 10 prezentacje przygotowane przez dwie grupy. Wystawione oceny dla grupy pierwszej to: 1, 2, 5, 5, 8, 9. Wystawione oceny dla grupy drugiej to: 4, 5, 5, 5, 5, 6. Obliczymy średnią dla obu grup. Grupa pierwsza:
.
Grupa druga:
.
Zauważ, że średnia ocen w każdym przypadku jest taka sama. Teraz wyznaczymy dla każdej grupy danych rozstęp, czyli w tym wypadku różnicę między oceną najwyższą a najniższą. Grupa pierwsza:
.
Grupa druga: .
Wniosek:
Oceny, które uzyskała grupa druga bardziej skupione są wokół średniej. > > Oceny wystawione grupie pierwszej są bardziej rozproszone.
Przykład 2
Obliczymy odchylenie przeciętne dla podanego zestawu danych. Wartości dla to: 2, 4, 10.
Wartości dla to: 7, 9, 4.
Najpierw obliczamy, ile jest wszystkich obserwacji.
Następnie obliczamy średnią arytmetyczną.
Teraz dla podanych wyników obliczamy odchylenie od średniej.
W ostatnim kroku obliczamy odchylenie od przeciętnej, korzystając ze wzoru:
.
Obliczamy.
Odchylenie od przeciętnej w tym zestawie danych jest równe
Przykład 3
Cztery osoby zapytano o liczbę wysłanych dzisiaj sms‑ów. Uzyskano następujące wyniki: 7, 12, 8, 13. Obliczymy wariancję uzyskanych danych. Najpierw liczymy średnią arytmetyczną liczb wysłanych sms‑ów.
Aby obliczyć wariancję, skorzystamy ze wzoru:
gdzie
Podstawiamy dane do wzoru i obliczamy.
Wariancja liczby wysłanych sms‑ów jest równa
Dla zestawu danych:
Odchylenie standardowe

Znamy już wariancję – jedną z miar rozproszenia. Nie jest to jednak najlepszy środek do wnioskowania, bowiem podnoszenie do kwadratu odchyleń liczb od średniej powoduje, że rozrzut określany jest w kwadratowych jednostkach pomiaru.
Z tego powodu do analizy rozrzutu wartości jakiejś wielkości (np. inflacji, kursu akcji) wokół średniej, wykorzystuje się odchylenie standardowe. Pojęcie to zostało wprowadzone stosunkowo niedawno, bo w 1894 r. Wprowadził je angielski matematyk, prekursor statystyki Karl Pearson.
Warto wiedzieć, że w 1911 r. Pearson utworzył w Londynie pierwszy na świecie uniwersytecki wydział statystyki.
Odchylenie standardowe jest najczęściej stosowaną miarą rozproszenia. Jest miarą określającą przeciętne zróżnicowanie poszczególnych wartości cechy statystycznej od poziomu średniej arytmetycznej. Odchylenie standardowe to pierwiastek kwadratowy ze średniej arytmetycznej kwadratów odchyleń poszczególnych wartości cechy od wartości średniej arytmetycznej.
Odchyleniem standardowym zestawu danych statystycznych
Podstawowe własności
Odchylenie standardowe:
to miara mianowana – ma miano takie, jak badana cecha statystyczna,
jest liczone na podstawie wszystkich obserwacji,
bazuje na średniej arytmetycznej, a więc nie może być wyznaczone w szeregach, w których nie można wyznaczyć średniej,
określa miarę rozrzutu jednej zbiorowości pod względem jednej cechy,
im ma wyższą wartość, tym bardziej zróżnicowana jest badana zbiorowość statystyczna.
Zbadano liczbę czekoladek w pudełkach z napisem „zawartość
Rozwiązanie:
Porządkujemy dane według rosnących wartości.
Określamy liczbę danych:
Obliczamy średnią arytmetyczną.
Obliczamy odchylenia od średniej dla każdej z danych.
Obliczamy odchylenie standardowe, podstawiając do wzoru wyznaczone odchylenia od średniej.
Odpowiedź:
Odchylenie standardowe jest równe
Zbadano cenę pączków w kilku sklepach. Otrzymano następujące wyniki:
Rozwiązanie:
Porządkujemy dane:
Obliczamy średnią arytmetyczną cen.
Obliczamy odchylenie od średniej dla każdej z danych.
Obliczamy odchylenie standardowe.
Odpowiedź:
Odchylenie standardowe jest równe w przybliżeniu
W tabeli zapisano dane na temat wieku uczniów. Obliczymy odchylenie standardowe wieku uczniów od średniej.
Wiek uczniów | ||||
|---|---|---|---|---|
Liczba uczniów |
Rozwiązanie:
Określamy liczbę uczniów.
Obliczamy średnią arytmetyczną wieku.
Obliczamy odchylenie od średniej dla każdej z wartości danych.
Obliczamy odchylenie standardowe.
Odpowiedź:
Odchylenie standardowe od średniej wieku uczniów jest równe w przybliżeniu
Odchylenie standardoweOdchylenie standardowe można wykorzystać do porównywania parametrów statystycznych danych liczbowych dotyczących tych samych cech w kilku zbiorowościach statystycznych.
W tabeli przedstawiono dane dotyczące wzrostu (z dokładnością do
Wzrost | |||||
|---|---|---|---|---|---|
Grupa | |||||
Grupa |
Obliczamy średnią arytmetyczną wzrostu.
Grupa 1
Grupa 2
Obliczamy odchylenie standardowe.
Grupa 1
Grupa 2
Odpowiedź:
Odchylenie standardowe w grupie drugiej jest znacznie mniejsze niż w pierwszej – zróżnicowanie wzrostu w grupie drugiej jest mniejsze niż w grupie pierwszej.
Przeanalizuj przykłady wyznaczania odchylenia standardowego. Zastanów się, w jaki sposób można zinterpretować wyniki obliczeń.

Film dostępny pod adresem /preview/resource/R10XDsgFoX7Hr
Film nawiązujący do treści materiału dotyczącego zagadnienia odchylenia standardowego.
Korzystające ze wzoru zapisanego w animacji, oblicz odchylenie standardowe zestawu danych:
Oblicz dla każdego wyniku odchylenie od średniej x liczb zebranych grzybów. Przeciągnij odpowiedni wynik w prawidłowe miejsce. wartość bezwzględna z, sześć, minus, wartość średnia x, koniec wartości bezwzględnej, równa się luka do uzupełnienia
wartość bezwzględna z, dziesięć, minus, wartość średnia x, koniec wartości bezwzględnej, równa się luka do uzupełnienia
wartość bezwzględna z, siedem, minus, wartość średnia x, koniec wartości bezwzględnej, równa się luka do uzupełnienia
wartość bezwzględna z, dwanaście, minus, wartość średnia x, koniec wartości bezwzględnej, równa się luka do uzupełnienia
wartość bezwzględna z, pięć, minus, wartość średnia x, koniec wartości bezwzględnej, równa się luka do uzupełnienia
Korzystając z danych podanych przez sprzedawczynię, określ które z podanych zdań są prawdziwe. Możliwe odpowiedzi: 1. Mediana tego zestawu danych jest równa rozstępowi., 2. Odchylenie przeciętne tego zestawu danych jest mniejsze od trzy., 3. Mediana tego zestawu danych jest równa dominancie., 4. Średnia arytmetyczna tego zestawu danych jest ponad dziesięciokrotnie wyższa od odchylenia przeciętnego., 5. Wariancja rozmiarów sprzedanych bluzek jest równa dziesięć przecinek osiem., 6. Odchylenie przeciętne tego zestawu danych jest równe dwa przecinek siedem pięć.
Wariancja danych zapisanych w tabelce poniżej jest równa:
Argumenty i Wartości | ||||
|---|---|---|---|---|
Wartość | ||||
Liczebność | ||||
Maciek w tym semestrze otrzymał z geografii trzy czwórki, dwie piątki, cztery trójki i szóstkę. Oblicz wariancję dla tych danych.
trzydzieści osiem, luka do uzupełnienia , czterdzieści sześć, luka do uzupełnienia , sześćdziesiąt.
Obliczenie średniej:
luka do uzupełnienia równa się, początek ułamka, trzydzieści osiem, plus, czterdzieści dwa, plus, czterdzieści sześć, plus, pięćdziesiąt cztery, plus, sześćdziesiąt, mianownik, pięć, koniec ułamka, równa się luka do uzupełnienia
Obliczenie odchylenia standardowego:
luka do uzupełnienia równa się, pierwiastek kwadratowy z początek ułamka, trzysta dwadzieścia, mianownik, pięć, koniec ułamka koniec pierwiastka, razy luka do uzupełnienia
Korzystając z tych danych, określ wszystkie zdania prawdziwe. Możliwe odpowiedzi: 1. Dominanta tego zestawu danych jest równa medianie., 2. Odchylenie przeciętne tego zestawu danych jest mniejsze od dwa., 3. Odchylenie standardowe wyraża się liczbą całkowitą., 4. Średnia arytmetyczna tego zestawu danych jest równa medianie., 5. Wariancja jest równa dwa.
Przeanalizowano liczbę uczniów nieobecnych w dwóch klasach w marcu.
Wyniki przedstawiono w tabelce.
Liczba dni nieobecności | ||||
|---|---|---|---|---|
Liczba uczniów | ||||
Liczba uczniów |
Oblicz odchylenie standardowe danych zapisanych w tabelce. Wynik zaokrąglij do całości.
Wartość | ||||
|---|---|---|---|---|
Liczebność |
Anka otrzymała za rozwiązania trzech zadań po
Słownik
średnia arytmetyczna kwadratów odchyleń od ich średniej arytmetycznej
odchyleniem standardowym zestawu danych statystycznych od średniej arytmetycznej nazywamy liczbę równą pierwiastkowi kwadratowemu z wariancji