결과를 찾을 수 없습니다
현재 그 용어로는 아무것도 찾을 수 없습니다, 다른 것을 검색해보세요.
통계에서평균, 중앙값, 최빈값을계산하는계산기입니다. 이계산기를사용하여데이터세트의평균, 중앙값, 최빈값, 범위및평균을얻으십시오.
결과 | |||
---|---|---|---|
평균 x̄ | 16.75 | 이상치 | 6, 33, 35 |
중앙값 x̃ | 15 | 사분위 Q1 | 12.5 |
최빈값 | 15가 3번 나타났다 | 사분위 Q2 | 15 |
범위 | 29 | 사분위 Q3 | 16 |
최소 | 6 | 사분위 범위 IQR | 3.5 |
최대 | 35 | ||
합계 | 201 | ||
개수 n | 12 |
계산에 오류가 있었습니다.
통계데이터의표와그래프를보는것은해석하기어려울수있습니다. 우리는종종데이터세트를요약하고중요한특성을식별하여통계에서더유용한정보를얻기위해필요합니다.
통계에서는데이터를요약하기위해다양한척도가사용됩니다. 일부는데이터의중심을설명합니다; 이러한척도를중심경향의척도라고합니다. 다른척도는데이터값이얼마나흩어져있는지를알려줍니다; 이러한척도를분산척도라고합니다. 다른척도는위치척도라고하며, 주어진값보다작은데이터의비율을밝힙니다.
이계산기의주요목적은데이터세트에서전형적이거나중앙값을나타낼수있는중심경향의척도인평균과중앙값을계산하는것입니다. 이계산기의부차적인목적은범위, 사분위수및사분위수범위를계산하여데이터세트의변동정도를결정하는것입니다.
평균은값의합을값의총개수로나눈것입니다. 다음과같은공식을사용하여샘플에대한평균을계산하는것이가장쉽게이해하고계산할수있습니다:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
모집단에대한평균의공식은다음과같습니다:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
여기서, 분자는데이터세트의값의합을나타냅니다. 그리고분모는데이터세트의값의개수를나타냅니다.
산술평균을사용하는주요특징은데이터세트에있는모든데이터포인트를포함한다는것입니다.
평균의주요제한사항은너무크거나너무작은극단적인값에민감하다는것입니다. 이러한값은이상치로알려져있으며평균에큰영향을미칩니다.
또한평균값이반드시데이터의전형적인값이아닐수도있다는점에유의해야합니다. 평균값은데이터세트에전혀없는값일수도있습니다.
모집단은얻고자하는정보의전체값세트를구성합니다. 샘플은모집단에서가져온더작은그룹으로구성됩니다.
샘플과모집단모두에대한평균값을계산하는방법은동일합니다. 다만명칭이다릅니다.
x₁, x₂,..., xₙ가샘플인경우, 평균은샘플평균으로참조되며 x̄ 기호로나타납니다. 모집단의평균은그리스문자𝜇로표시됩니다.
통계에서우리는샘플크기를나타내기위해소문자 n을사용하고모집단크기를나타내기위해대문자 N을사용합니다.
다음예를봅시다: 루이지는일류셰프이자피자애호가입니다. 그는발리에자신의피자리아를열기로결정했습니다. 투자자를찾기위해루이지는사업계획을작성했습니다. 그는미래재무성과를평가하기위해섬의다른레스토랑에서피자의평균비용을결정하고자합니다.
그는발리의레스토랑에서마르게리타피자의가격에대한조사를조금했으며피자가격의데이터세트를얻었습니다. 계산의용이성을위해마지막세자리를생략하고가격의천단위수를사용합시다. 즉, 우리의계산에서 60은 60,000 인도네시아루피아를의미합니다.
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
루이지는섬의모든피자리아를방문하지않았습니다. 그는무작위로 20개를선택했습니다. 따라서우리는샘플을다루고있습니다.
다음공식을사용하여이데이터세트의평균값을계산합시다:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
우리는평균 x̄ = 71.9를얻었습니다.
루이지의연구에따르면 71,900 인도네시아루피아가발리에서마르게리타피자의평균가격입니다. 이제그는이가격을기준으로계산을할수있습니다.
중앙값은오름차순이나내림차순으로배열된데이터세트의평균값을나타내는위치측정값입니다.
중앙값을계산함으로써, 우리는데이터세트를반으로나누는숫자를찾으려고합니다. 데이터값의절반은중앙값보다작고, 절반은중앙값보다큽니다. 이것이바로우리가중앙값계산기없이수동으로중앙값을결정할때값들을오름차순이나내림차순으로정렬해야하는이유입니다.
중앙값계산은데이터세트의값수가짝수인지홀수인지에따라달라집니다.
총요소수가홀수인경우, 즉 n이나 N이홀수인경우다음공식이적용됩니다:
$$중앙값=(\frac{n+1}{2})-번째 \ 요소$$
그러나요소수가짝수인경우, 즉 n이짝수인경우다음공식이사용됩니다:
$$중앙값=\frac{\left[(\frac{n}{2})-번째 \ 요소+(\frac{n}{2}+1)-번째 \ 요소\right]}{2}$$
중앙값을사용하는주요장점은매우높거나매우낮은값의영향을가장적게받는다는것입니다.
20개값이주어진경우,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
우리는다음과같이중앙값을계산할수있습니다:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
데이터세트의값수를결정합시다. 우리는 n = 20을가지고있습니다.
n이홀수인경우, 데이터의중앙값을중앙값으로선택합니다. n이짝수인경우, 두중앙값의산술평균을찾습니다. 그것들을더하고 2로나눕니다.
20은짝수입니다.
우리샘플의중앙값은 69와 70입니다. 우리는다음과같은방식으로중앙값을찾습니다:
$$중앙값 = \frac{69 + 70}{2} = 69.5$$
루이지가 21개의값을가지고있다면, 예를들어,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
그는값을순서대로나열할수있습니다:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
그리고 11번째위치에있는중앙값인 70을선택할수있습니다.
평균과중앙값은모두중심경향의척도로사용됩니다. 하지만그들이어떻게다른지아는것이중요합니다.
평균과중앙값사이의중요한차이점중하나는평균의공식이데이터세트의모든값을사용한다는것입니다. 반면중앙값의공식은중앙의숫자또는중앙의두숫자에만의존합니다.
이것은하나이상의숫자가특별히크거나작은데이터세트에특히중요합니다. 이러한숫자를이상치라고합니다. 대부분의경우이러한이상치는평균에상당한영향을미치지만, 중앙값에는거의또는전혀영향을미치지않습니다.
통계에서우리는데이터세트의극단적인값에의해그값이크게영향받지않는경우그척도를저항성이있다고말합니다. 따라서우리는중앙값이이상치에저항성이있는반면평균은그렇지않다는결론을내릴수있습니다.
평균과중앙값은데이터세트의중심을다르게측정합니다. 평균은데이터세트가균형을이루는지점입니다. 중앙값은한쪽에데이터의 50%를다른쪽에데이터의 50%를분리하는평균입니다. 데이터세트가대칭일때평균과중앙값은같습니다.
그러나평균과중앙값은같지않을수있습니다.
일부데이터세트에서평균은중앙값보다작거나중앙값이평균보다작을수있습니다. 이경우데이터세트가치우쳤다고말합니다.
평균값이중앙값보다왼쪽또는적으면데이터세트가왼쪽으로치우쳤다고말합니다. 평균이오른쪽또는중앙값보다크면데이터세트가오른쪽으로치우쳤다고말합니다.
평균과중앙값중어느것이중심경향의척도로서더낫다고할수는없습니다. 그들은모두다른방식으로중심을측정합니다. 데이터가매우치우쳐있거나극단적인값이포함되어있을때일부전문가들은중앙값이전형적인값을더잘대표하기때문에중앙값을사용하는것을선호합니다.
데이터세트에서가장많이나타나는값은최빈값입니다. 데이터세트의최빈값은가장자주나타나는값입니다.
데이터세트가하나의값이다른어떤값보다더자주발생하는경우단일최빈값을가지고있다고합니다.
데이터세트에동일한최고빈도를가진두개의값이있는경우, 두값모두최빈값으로간주되며데이터세트는이모달(bimodal)로간주됩니다.
데이터세트에동일한최고빈도를가진두개이상의값이있는경우, 각값은최빈값으로사용되며데이터세트는다중최빈값(multimodal)으로간주됩니다.
단일데이터값이한번이상발생하지않는경우, 데이터세트는최빈값이없다고말합니다. 이경우최빈값이 0이라고말하는것은정확하지않습니다. 사실 0은온도측정과같은일부데이터세트에서실제값일수있습니다.
최빈값을계산하는주요장점은찾기가장쉽고극단적인값에영향을받지않는다는것입니다. 최빈값계산의단점은특정상황에서일부데이터세트에대한최빈값이존재하지않을수있다는것입니다.
20개값이주어진경우,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
우리는다음과같이최빈값을찾을수있습니다:
데이터세트를오름차순또는내림차순으로배열합니다. 여기서순서는다음과같습니다:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
다음으로, 가장많이반복된값을찾습니다. 여기에서가장빈번한값은 70입니다. 따라서주어진데이터세트에대한최빈값은 70입니다.
최빈값은중앙경향의척도이지만, 특히치우친분포에서중심값을항상반영하지는않습니다. 최빈값은데이터세트에서가장큰값, 가장작은값또는다른어떤값일수있습니다. 예를들어, 데이터세트에다음과같은숫자가있는경우:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
최빈값은 120이됩니다. 이경우에는중앙경향을반영하지않을수있습니다.
흥미롭게도, 우리는평균과중앙값을정량적데이터에대해서만계산할수있습니다. 그리고우리는정량적및정성적데이터모두에대해최빈값을계산할수있습니다.
평균적으로, 안나는한달에 12번피자를먹습니다.
이경우, 우리는두개의최빈값을가질것입니다: 나폴리타나피자와마르게리타피자.
분산척도, 또한변동성척도로알려져있으며, 데이터세트내의분포또는변동성을결정하는데사용됩니다. 범위, 사분위수및사분위수범위를사용하여데이터세트의분산을검토할수있습니다.
데이터세트의범위는데이터세트에서가장높은값과가장낮은값사이의차이입니다. 데이터세트의최대및최소값을결정하여계산할수있습니다. 범위를계산하는공식은다음과같습니다:
$$범위 = 최대값 - 최소값$$
20개값이주어진경우,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
우리는다음과같이범위를계산할수있습니다:
데이터세트를오름차순또는내림차순으로배열합니다. 여기서순서는다음과같습니다:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
더욱이, 가장높은값은 160이고가장낮은값은 42입니다. 따라서범위:
$$범위 = 최대값 - 최소값 = 160 - 42 = 118$$
따라서이데이터세트의범위는 118입니다.
사분위수는세개의점, 즉첫번째, 두번째및세번째사분위수로데이터세트를네부분으로나누는값을의미합니다.
첫번째사분위수, Q₁로표시,는데이터의 25%가이값아래에있으며나머지 75%가이보다위에있는값을의미합니다.
두번째사분위수, Q₂로표시,는또한중앙값으로알려져있습니다. 이는데이터세트를동등한두부분으로나눕니다. 50%의값들이이값아래에있고 50%가위에있습니다.
세번째사분위수, Q₃로표시,는데이터의 75%가이값아래에있으며나머지 25%가이보다위에있는값을의미합니다.
데이터세트의사분위수를계산하는절차:
데이터를오름차순으로정렬합니다.
두번째사분위수, 즉중앙값을계산합니다. 첫번째및세번째사분위수에대해서는다음과같이진행합니다. 데이터세트의값수인 n을결정합니다.
첫번째사분위수의경우 L = 0.25n을계산합니다. 세번째사분위수의경우 L = 0.75n을계산합니다.
L이정수인경우, 사분위수는위치 L의수와위치 L + 1의수의평균입니다.
L이정수가아닌경우, 그것을다음높은정수로올립니다. 사분위수는반올림된값에해당하는위치의수입니다.
20개값이주어진경우,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
우리는다음과같이사분위수를계산할수있습니다:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
중앙값 = 70
첫번째사분위수를위한 L: 0.25 × 20 = 5. 세번째사분위수를위한 L: 0.75 × 20 = 15.
5는정수이므로우리경우의 Q₁은:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
따라서, 이데이터세트의첫번째사분위수는 57, 두번째는 70, 세번째는 73.5입니다.
사분위수범위(IQR)는데이터세트의세번째 Q₃와첫번째 Q₁사분위수사이의차이입니다. 평균분산의척도로, 다음과같이계산할수있습니다:
IQR = Q₃ - Q₁
이전섹션에서, 우리는이미첫번째와세번째사분위수를계산했습니다. 그것들은 57과 73.5입니다. 우리가해야할일은단순히공식을적용하는것입니다.
IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5
따라서, 이데이터세트의사분위수범위는 16.5입니다.
우리의경우, 루이지의마르게리타피자가격에대한소규모조사에서, 그는다음과같은결론을내릴수있습니다: 평균과중앙값이일치하지않았습니다; 데이터에약간의치우침이형성되었습니다. 하지만그것은매우눈에띄지않습니다. 따라서평균과중앙값모두중앙경향을측정하는데사용될수있습니다.
루이지가마르게리타피자의평균가격을결정하고싶다면평균또는중앙값을고려할수있습니다. 그러나 71,900 IDR 또는 69,500 IDR과같은가격은기억하기에그리편리하지않을수있습니다. 다행히마르게리타피자의최빈값가격은이범위내에있으며, 70,000 IDR로서, 루이지가가격전략에사용하기에편리한숫자입니다.
그가더절약을중시하는타겟그룹을위한피자리아를만들고자한다면, 첫번째사분위수에가까운수치에집중할수있습니다. 즉, 대략 57,000 인도네시아루피아의가격입니다. 더요구가많은고객을위한가격을결정하기위해세번째사분위수에집중하는것은그리편리하지않습니다. 왜냐하면세번째사분위수가대표적이지않기때문입니다.