Geen resultaten gevonden
We kunnen momenteel niets met die term vinden, probeer iets anders te zoeken.
Rekenmachine voor gemiddelde, mediaan en modus in de statistiek. Gebruik deze rekenmachine om het gemiddelde, de mediaan, de modus, het bereik en het gemiddelde voor elke gegevensset te berekenen.
Resultaat | |||
---|---|---|---|
Gemiddelde x̄ | 16.75 | Uitschieters | 6, 33, 35 |
Mediaan x̃ | 15 | Kwartiel Q1 | 12.5 |
Modus | 15 verscheen 3 keer | Kwartiel Q2 | 15 |
Bereik | 29 | Kwartiel Q3 | 16 |
Minimum | 6 | Interkwartielbereik IQR | 3.5 |
Maximum | 35 | ||
Som | 201 | ||
Aantal n | 12 |
Er was een fout met uw berekening.
Het bekijken van tabellen en grafieken met statistische gegevens kan moeilijk te interpreteren zijn voor ons. Vaak moeten we gegevenssets samenvatten en belangrijke kenmerken identificeren om nuttigere informatie uit statistieken te halen.
In de statistiek worden verschillende maten gebruikt om gegevens samen te vatten. Sommige beschrijven het centrum van de gegevens; ze worden maten van centrale tendens genoemd. Anderen vertellen hoe verspreid de gegevenswaarden zijn; deze worden dispersiemaatregelen genoemd. Weer anderen, positie maten genoemd, onthullen het aandeel van de gegevens dat minder is dan een bepaalde waarde.
Het primaire doel van deze rekenmachine is het berekenen van maten van centrale tendens—het gemiddelde en de mediaan—die de typische of centrale waarde in een gegevensset kunnen vertegenwoordigen. Het secundaire doel van deze rekenmachine is het bepalen van de mate van variatie in een gegevensset door het bereik, de kwartielen en de interkwartielafstand te berekenen.
Het gemiddelde is de som van de waarden gedeeld door het totale aantal waarden. Het is het eenvoudigst te begrijpen en te berekenen met behulp van de volgende formule voor het berekenen van het gemiddelde voor een steekproef:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
De formule voor het gemiddelde voor de populatie is:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
Hier vertegenwoordigt de teller de som van de waarden in de gegevensset. En de noemer vertegenwoordigt het aantal waarden in de gegevensset.
Het belangrijkste kenmerk van het gebruik van het rekenkundig gemiddelde is dat het alle datapunten betrekt die aanwezig zijn in de gegevensset.
De belangrijkste beperking van het gemiddelde is dat het gevoelig is voor extreme waarden die ofwel te groot of te klein zijn. Zulke waarden staan bekend als uitschieters, en ze beïnvloeden het gemiddelde aanzienlijk.
Merk ook op dat de gemiddelde waarde niet noodzakelijk de typische waarde voor de gegevens is. De gemiddelde waarde kan een waarde zijn die helemaal niet aanwezig is in de gegevensset.
De populatie bestaat uit de volledige set van waarden waarover informatie wordt verkregen. De steekproef bestaat uit een kleinere groep genomen uit de populatie.
De methode voor het berekenen van de gemiddelde waarde is dezelfde voor zowel steekproeven als populaties. Alleen de aanduidingen verschillen.
Als x₁, x₂,..., xₙ een steekproef is, wordt het gemiddelde aangeduid als het steekproefgemiddelde en wordt vertegenwoordigd door het symbool x̄. Het gemiddelde van de populatie wordt aangegeven door de Griekse letter 𝜇.
In de statistiek gebruiken we de kleine letter n om de grootte van de steekproef aan te duiden en de hoofdletter N om de grootte van de populatie aan te geven.
Laten we naar het volgende voorbeeld kijken: Luigi is een eersteklas chef-kok en pizzaliefhebber. Hij heeft besloten zijn pizzeria in Bali te openen. Om een investeerder te vinden, schrijft Luigi een bedrijfsplan. Hij wil de gemiddelde kosten van pizza in verschillende restaurants op het eiland bepalen om toekomstige financiële prestaties te waarderen.
Hij deed een klein onderzoek naar de prijs van Margherita-pizza in restaurants in Bali en kreeg een gegevensset van pizzaprijzen. Voor het gemak van berekening laten we de laatste drie nullen weg en gebruiken we het aantal duizenden in de prijs. Dat wil zeggen, 60 in onze berekeningen zal betekenen 60.000 Indonesische roepia's.
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Luigi heeft niet elke pizzeria op het eiland bezocht. Hij selecteerde willekeurig 20 van hen. Zo hebben we te maken met een steekproef.
Laten we de gemiddelde waarde voor deze gegevensset berekenen met behulp van de formule:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
We eindigen met het gemiddelde x̄ = 71,9.
Luigi's onderzoek toont aan dat 71.900 Indonesische roepia het gemiddelde prijs van een Margherita-pizza in Bali is. Hij kan nu zijn berekeningen baseren op deze prijs.
De mediaan is een positionele maat die de gemiddelde waarde van een in oplopende of aflopende volgorde gerangschikte gegevensset vertegenwoordigt.
Door de mediaan te berekenen, proberen we een getal te vinden dat de gegevensset in tweeën deelt. De helft van de gegevenswaarden is minder dan de mediaan, en de helft is groter dan de mediaan. Daarom moeten we, als we handmatig de mediaan bepalen zonder rekenmachine voor de mediaan, de waarden in oplopende of aflopende volgorde sorteren.
Het berekenen van de mediaan verschilt afhankelijk van of het aantal waarden in de gegevensset even of oneven is.
Als het totaal aantal elementen oneven is, dat wil zeggen, n of N is oneven, dan geldt de volgende formule:
$$Mediaan=(\frac{n+1}{2})\text{-de\ element}$$
Als het aantal elementen echter even is, wat betekent dat n een even aantal is, dan wordt de volgende formule gebruikt:
$$Mediaan=\frac{\left[(\frac{n}{2})\text{-de\ element}+(\frac{n}{2}+1)\text{-de\ element}\right]}{2}$$
Het belangrijkste voordeel van het gebruik van de mediaan is dat deze het minst wordt beïnvloed door extreem hoge of extreem lage waarden.
Voor een gegeven set van twintig waarden,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Kunnen we de mediaan als volgt berekenen:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Bepaal het aantal waarden in de gegevensset. We hebben n = 20.
Als n oneven is, kiezen we de centrale waarde van de gegevens als de mediaan. Als n even is, vinden we het rekenkundig gemiddelde van de twee mediane waarden. Tel ze bij elkaar op en deel de som door 2.
20 is een even aantal.
De centrale waarden in onze steekproef zijn 69 en 70. We vinden de mediaan op deze manier:
$$Mediaan = \frac{69 + 70}{2} = 69,5$$
Als Luigi een set van 21 waarden had, bijvoorbeeld,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Kon hij de waarden sorteren:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
en de waarde in het midden op de 11e positie selecteren, dat wil zeggen, 70.
Zowel het gemiddelde als de mediaan worden gebruikt als maatstaven voor centrale tendens. Maar het is essentieel om te weten hoe ze verschillen.
Een cruciaal verschil tussen het gemiddelde en de mediaan is dat de formule voor het gemiddelde alle waarden in de gegevensset gebruikt. Daarentegen hangt de formule voor de mediaan alleen af van het centrale getal of van twee centrale getallen.
Dit is vooral belangrijk voor gegevenssets waarbij een of meer getallen ongewoon groot of ongewoon klein zijn. Zulke getallen worden uitschieters genoemd. In de meeste gevallen zullen deze uitschieters het gemiddelde aanzienlijk beïnvloeden, maar ze zullen weinig of geen effect hebben op de mediaan.
In de statistiek zeggen we dat een maat resistent is als de waarde niet sterk wordt beïnvloed door extreme waarden in de gegevensset. Dus we kunnen zeggen dat de mediaan resistent is, en het gemiddelde is dat niet.
Het gemiddelde en de mediaan meten het centrum van de gegevensset op verschillende manieren. Het gemiddelde is het punt waarop de gegevensset in balans is. De mediaan is het gemiddelde dat 50% van de gegevens aan de ene kant scheidt van 50% van de gegevens aan de andere kant. Wanneer de gegevensset symmetrisch is, zijn het gemiddelde en de mediaan gelijk.
Echter, het gemiddelde en de mediaan zijn mogelijk niet gelijk.
In sommige gegevenssets kan het gemiddelde kleiner zijn dan de mediaan, of de mediaan kleiner dan het gemiddelde. In dit geval zeggen we dat de gegevensset scheef is.
Als de gemiddelde waarde links of minder dan de mediaan gepositioneerd is, zeggen we dat de dataset naar links scheef is. Als het gemiddelde rechts of groter dan de mediaan gepositioneerd is, zeggen we dat de dataset naar rechts scheef is.
Noch het gemiddelde noch de mediaan is beter als maatstaf voor centrale tendens. Ze meten beide het centrum op verschillende manieren. Sommige deskundigen geven de voorkeur aan het gebruik van de mediaan wanneer de gegevens sterk scheef zijn of extreme waarden bevatten, omdat de mediaan representatiever is voor een typische waarde.
Een modus is de waarde van een gegevensset die het meest voorkomt in de gegevensset. De modus van een gegevensset is de waarde die het meest frequent verschijnt.
Een gegevensset is unimodaal als het één waarde heeft die vaker voorkomt dan enige andere.
Als een gegevensset twee waarden heeft met dezelfde hoogste frequentie, dan worden beide waarden als modaal beschouwd, en de gegevensset wordt als bimodaal beschouwd.
Als een gegevensset meer dan twee waarden heeft met dezelfde hoogste frequentie, dan wordt elke waarde als een modus gebruikt, en de gegevensset wordt als multimodaal beschouwd.
Als geen enkele gegevenswaarde meer dan één keer voorkomt, dan wordt gezegd dat de gegevensset geen modus heeft. In dit geval zou het onjuist zijn om te zeggen dat de modus nul is. Eigenlijk kan nul de werkelijke waarde zijn in sommige gegevenssets, zoals temperatuurmetingen.
Het belangrijkste voordeel van het berekenen van een modus is dat het het gemakkelijkst te vinden is en niet wordt beïnvloed door extreme waarden. Het nadeel van de modusberekening is dat in bepaalde situaties een moduswaarde mogelijk niet bestaat voor sommige gegevenssets.
Voor een gegeven set van twintig waarden,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Kunnen we de modus als volgt vinden:
Rangschik de gegevensset in oplopende of aflopende volgorde. Hier is de volgorde als volgt:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Vervolgens vinden we de waarde die het meest herhaald wordt. Hier is de meest frequente waarde 70. Dus, voor een gegeven gegevensset, is de modale waarde 70.
Hoewel de modus een maatstaf van centrale tendens is, weerspiegelt het mogelijk niet altijd de centrale waarde van een distributie, vooral in scheve distributies. De modus kan de grootste waarde in de gegevensset zijn, de kleinste waarde, of elke andere waarde. Als we bijvoorbeeld de volgende getallen in de gegevensset hadden:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Dan zou de modus 120 zijn. Hoewel het in dit geval de centrale tendens niet zou weerspiegelen.
Interessant is dat we het gemiddelde en de mediaan alleen kunnen berekenen voor kwantitatieve gegevens. En we kunnen de modus berekenen voor zowel kwantitatieve als kwalitatieve gegevens.
Gemiddeld eet Anna 12 keer per maand pizza.
In dit geval hebben we twee modi: pizza Napoletana en pizza Margherita.
Maten van spreiding, ook bekend als maten van variabiliteit, worden gebruikt om de spreiding of variabiliteit binnen een gegevensset te bepalen. Ze weerspiegelen meestal de mate van variatie in de gegevens ten opzichte van de centrale waarde. We kunnen de variatie in een gegevensset onderzoeken met behulp van het bereik, kwartielen en de interkwartielafstand.
Het bereik voor een gegevensset is het verschil tussen de hoogste en de laagste waarde in de gegevensset. We kunnen dit berekenen door de maximale en minimale waarden van de gegevensset te bepalen. De formule voor het berekenen van het bereik is:
$$Bereik = Grootste\ waarde - Kleinste\ waarde$$
Voor een gegeven set van twintig waarden,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
kunnen we het bereik als volgt berekenen:
Schik de gegevensset in oplopende of aflopende volgorde. Hier ziet de volgorde er zo uit:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Verder is de hoogste waarde 160 en de laagste waarde 42. Vandaar het bereik:
$$Bereik = grootste\ waarde - kleinste\ waarde = 160 - 42 = 118$$
Daarom is voor deze gegevensset het bereik 118.
Kwartielen zijn waarden die de gegevensset verdelen in vier kwartalen door drie punten, namelijk het eerste, tweede en derde kwartiel.
Het eerste kwartiel, aangeduid met Q₁, is de waarde waaronder 25% van de gegevens valt, met de resterende 75% erboven.
Het tweede kwartiel, aangeduid met Q₂, staat ook bekend als de mediaan. Het verdeelt de dataset in twee gelijke delen, met 50% van de waarden eronder en 50% erboven.
Het derde kwartiel, aangeduid met Q₃, is de waarde waaronder 75% van de gegevens valt, met de resterende 25% erboven.
Een procedure voor het berekenen van de kwartielen van een gegevensset:
Schik de gegevens in oplopende volgorde.
Bereken het tweede kwartiel door de mediaan te berekenen. Ga voor het eerste en derde kwartiel als volgt te werk. Bepaal n - het aantal waarden in de gegevensset.
Voor het eerste kwartiel, bereken L = 0,25n. Voor het derde kwartiel, bereken L = 0,75n.
Als L een geheel getal is, dan is het kwartiel het gemiddelde van het getal op positie L en het getal op positie L + 1.
Als L geen geheel getal is, rond het dan naar boven af tot het dichtstbijzijnde hogere geheel getal. Het kwartiel is het getal op de positie die overeenkomt met de afgeronde waarde.
Voor een gegeven set van twintig waarden,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Kunnen we de kwartielen als volgt berekenen:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Mediaan = 70
L voor het eerste kwartiel: 0,25 × 20 = 5. L voor het derde kwartiel: 0,75 × 20 = 15.
5 is een geheel getal, dus Q₁ in ons geval is:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73,5$$
Daarom is voor deze gegevensset het eerste kwartiel 57, het tweede is 70 en het derde is 73,5.
De interkwartielafstand (IQR) is het verschil tussen het derde Q₃ en het eerste Q₁ kwartiel van een gegevensset. Het is een maat voor de gemiddelde spreiding, die als volgt kan worden berekend:
IQR = Q₃ - Q₁
In de vorige sectie hebben we al het eerste en derde kwartiel berekend. Deze zijn 57 en 73,5. Het enige wat we nu moeten doen is simpelweg de formule toepassen.
IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5
Dus, voor deze gegevensset is de interkwartielafstand 16,5.
In ons geval, met Luigi's mini-enquête naar de prijzen van Margherita pizza's, zou hij de volgende conclusies kunnen trekken: Het gemiddelde en de mediaan kwamen niet overeen; er was een lichte scheefheid in de gegevens gevormd. Maar het is niet erg opvallend. Dus zowel het gemiddelde als de mediaan zouden gebruikt kunnen worden om de centrale tendens te meten.
Als Luigi een gemiddelde prijs voor een Margherita pizza wilde bepalen, kon hij overwegen om ofwel het gemiddelde ofwel de mediaan te gebruiken. Echter, prijzen zoals 71.900 IDR of 69.500 IDR zijn misschien niet zo makkelijk te onthouden. Gelukkig valt de modale prijs voor Margherita pizza binnen deze reeks, namelijk 70.000 IDR, wat het een handig getal maakt voor Luigi om in zijn prijsstrategie te gebruiken.
Als hij een pizzeria wilde creëren voor een zuinigere doelgroep, kon hij zich richten op cijfers dichter bij het eerste kwartiel. Dat is een prijs van ongeveer 57.000 Indonesische roepia's. Het is niet erg handig om zich te focussen op het derde kwartiel om de prijs voor veeleisender klanten te bepalen, omdat het derde kwartiel niet erg representatief is.