結果が見つかりません
現在、その用語では何も見つかりません。他の検索を試してください。
統計の平均、中央値、および最頻値の計算機。この計算機を使用して、データセットの平均、中央値、最頻値、範囲、および平均を取得します。
結果 | |||
---|---|---|---|
平均 x̄ | 16.75 | 外れ値 | 6, 33, 35 |
中央値 x̃ | 15 | 四分位数 Q1 | 12.5 |
最頻値 | 15は3回現れた | 四分位数 Q2 | 15 |
範囲 | 29 | 四分位数 Q3 | 16 |
最小 | 6 | 四分位範囲 IQR | 3.5 |
最大 | 35 | ||
合計 | 201 | ||
カウント n | 12 |
計算にエラーがありました。
統計データの表やグラフを見ると、解釈が難しい場合があります。統計からより有用な情報を得るために、データセットを要約し、重要な特徴を特定する必要があることがよくあります。
統計では、データを要約するためにさまざまな尺度が使用されます。データの中心を説明するものもあります; それらは中心傾向の尺度と呼ばれます。他の人は、データ値がどれほど散在しているかを示します; それらは分散対策と呼ばれます。位置メジャーと呼ばれるその他のものは、特定の値よりも小さいデータの割合を明らかにします。
この計算機の主な目的は、中心傾向の測定値を計算することです—平均と中央値—これは、データセットの典型的な値または中心的な値を表すことができます。この計算機の二次的な目的は、範囲、四分位数、および四分位範囲を計算することによって、データセットの変動の程度を決定することです。
平均は、値の合計を値の総数で割ったものです。サンプルの平均を計算するために次の式を使用して理解して計算するのが最も簡単です:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
母集団の平均の式は次のとおりです:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
ここで、分子はデータセット内の値の合計を表します。また、分母はデータセット内の値の数を表します。
算術平均を使用する主な特徴は、データセットに存在するすべてのデータポイントが含まれることです。
平均の主な制限は、大きすぎるか小さすぎる極値の影響を受けやすいことです。このような値は外れ値と呼ばれ、平均に大きく影響します。
なお、平均値は必ずしもデータの典型的な値ではないことにも留意されたい。平均値は、データセットにまったく存在しない値であってもよい。
母集団は、どの情報が得られるかについての値のセット全体で構成されます。サンプルは、母集団から採取した小さなグループで構成されています。
平均値の計算方法は、サンプルと母集団の両方で同じです。指定のみが異なります。
x₁, x₂,..., xₙ がサンプルの場合、平均はサンプル平均と呼ばれ、記号 x̄で表されます。人口の平均はギリシャ文字の𝜇で表されます。
統計では、小文字のnを使用してサンプルサイズを示し、大文字のNを使用して母集団サイズを示します。
次の例を見てみましょう: ルイージは一流のシェフでありピザ愛好家です。彼はバリ島にピッツェリアを開くことにしました。投資家を見つけるために、ルイージは事業計画を書きます。彼は、将来の財務実績を評価するために、島のさまざまなレストランでのピザの平均コストを決定したいと考えています。
彼はバリのレストランでマルゲリータピザの価格について少し調べて、ピザの価格のデータセットを入手しました。計算を容易にするために、最後の3つのゼロを破棄し、価格に数千の数を使用しましょう。つまり、計算の60は60,000 インドネシアルピアを意味します。
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
ルイージは島のすべてのピザ屋を見学したわけではありません。彼はそれらのうちの20をランダムに選びました。したがって、サンプルを扱っています。 式を使用して、このデータセットの平均値を計算してみましょう:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
最終的に平均 x̄ = 71.9 になります。
ルイージの調査によると、71,900インドネシアルピアはバリのマルゲリータピザの平均価格です。これで、この価格に基づいて計算できます。
中央値は、昇順または降順に配置されたデータセットの平均値を表す位置尺度です。
中央値を計算することにより、データセットを半分に分割する数値を見つけようとします。データ値の半分は中央値より小さく、半分は中央値より大きいです。これが、中央値計算機なしで中央値を手動で決定する場合、値を昇順または降順で並べ替える必要がある理由です。
中央値の計算方法は、データセット内の値の数が偶数か奇数かによって異なります。
要素の総数が奇数の場合、つまりnまたはNが奇数の場合、次の式が適用されます:
$$中央値=(\frac{n+1}{2})エレメント$$
ただし、要素の数が偶数の場合、つまり n が偶数である場合は、次の式が使用されます:
$$中央値=\frac{\left[(\frac{n}{2})エレメント+(\frac{n}{2}+1)エレメント\right]}{2}$$
中央値を使用する主な利点は、極端に高い値または極端に低い値の影響が最も少ないことです。
与えられた20個の値のセットに対して,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
中央値は次のように計算できます:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
データセット内の値の数を決定しましょう。n = 20です。
nが奇数の場合、データの中心値を中央値として選択します。nが偶数の場合、2つの中央値の算術平均を求めます。それらを加算し、合計を2で割ります。
20は偶数です。 サンプルの中心値は69と70です。この方法で中央値を見つけます:
$$中央値 = \frac{69 + 70}{2} = 69.5$$
ルイージが21個の値のセットを持っていた場合、例えば、
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
彼は値を注文することができました:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
中央の11番目の位置の値、つまり70を選択します。
平均と中央値の両方が中心傾向の尺度として使用されます。しかし、それらがどのように異なるかを知ることが不可欠です。
平均と中央値の決定的な違いの1つは、平均の式がデータセット内のすべての値を使用することです。対照的に、中央値の式は、中心数または中心数の2つだけに依存します。
これは、1 つ以上の数値が異常に大きいか、異常に小さいデータセットでは特に重要です。このような数値は外れ値と呼ばれます。ほとんどの場合、これらの外れ値は平均に大きく影響しますが、中央値にはほとんどまたはまったく影響を与えません。
統計では、その値がデータセットの極値の影響を大きく受けない場合、メジャーは耐性があると言います。したがって、中央値は耐性があり、平均は耐性がないと言えます。
平均と中央値は、データセットの中心を異なる方法で測定します。平均は、データセットのバランスをとるポイントです。中央値は、一方のデータの50%と反対側のデータの50%を分ける平均です。データセットが対称の場合、平均と中央値は等しくなります。
しかし、平均と中央値は等しくないかもしれません。
一部のデータセットでは、平均が中央値より小さい場合や、中央値が平均より小さい場合があります。この場合、データセットが歪んでいると言います。
平均値が中央値より左または小さい位置にある場合、データセットは左に歪んでいると言います。平均が中央値よりも右または大きい位置にある場合、データセットは右に歪んでいると言います。 平均も中央値も、中心傾向の尺度として優れていません。どちらも異なる方法で中心を測定します。一部の専門家は、中央値が典型的な値をより代表しているため、データが大きく歪んでいる場合、または極値が含まれている場合に中央値を使用することを好みます。
モードは、データセット内で最大回数発生するデータセットの値です。これは、最も頻繁に発生する値です。
最も頻繁に出現する値が 1 つだけのデータセットは、ユニモーダルと呼ばれます。
データ・セットに同じ最高頻度の 2 つの値がある場合、両方の値がモーダルと見なされ、データ・セットはバイモーダルと見なされます。
データセットに同じ最高頻度の値が 2 つ以上ある場合、各値がモードとして使用され、データセットはマルチモーダルと見なされます。
単一のデータ値が複数回出現しない場合、そのデータ・セットにはモードがないと言われます。この場合、モードがゼロであると言うのは正しくありません。実際には、温度測定などの一部のデータセットでは、ゼロが実際の値である可能性があります。
モードを計算する主な利点は、見つけやすく、極値の影響を受けないことです。モード計算の欠点は、特定の状況では、一部のデータ・セットにモード値が存在しない可能性があることです。
与えられた20個の値のセットに対して,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
モードは次のように見つけることができます:
データ・セットを昇順または降順で整列します。ここでの順序は次のとおりです:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
次に、値が最大回数繰り返されていることがわかります。ここで、最も頻度の高い値は 70 です。したがって、特定のデータセットの場合、モーダル値は70です。
モードは、中心傾向測度とも呼ばれます。しかし、これは完全に正確ではありません。モードは、データ・セット内の最大値、最小値、またはその他の任意の値にすることができます。たとえば、データセットに次の数値があるとします:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
モードは 120 になります。この場合、それは中心的な傾向を反映しません。 興味深いことに、定量的データの平均と中央値しか計算できません。そして、定量的データと定性的データの両方のモードを計算できます。
たとえば、アンナは月に平均12回ピザを食べます。
この場合、2つのモードがあります:ナポレターナピザとマルゲリータピザ。
分散測度を使用して、データセットの変動性を判断します。それらは通常、中心値からのデータの変動の程度を反映しています。範囲、四分位数、および四分位範囲を使用してデータセットの分散を調べることができます。
データセットの範囲は、データセットの最大値と最小値の差です。データセットの最大値と最小値を決定することで計算できます。範囲の計算式は次のとおりです:
$$レンジ = 最大値 - 最小値$$
与えられた20個の値のセットに対して,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
次のように範囲を計算できます:
データ・セットを昇順または降順で整列します。ここでは、順序は次のようになります:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
さらに、最大値は 160、最小値は 42 です。したがって、範囲:
$$レンジ = 最大値 - 最小値 = 160 - 42 = 118$$
したがって、このデータ・セットの場合、範囲は 118 です。
四分位数は、データセットを4つの四半期、つまり第1、第2、第3四分位数で3ポイントに分割する値です。
Q₁というラベルの付いた最初の四分位数は、この値より小さいデータ セット内の値の最初の 25% を表すポイントを表します。そして、値の残りの75%は大きくなります。
Q₂というラベルの付いた2番目の四分位数は中央値です。これは、データ・セットの 50% がこの値より小さく、残りの 50% が Q2 より大きいことを意味します。
Q₃と示される 3 番目の四分位数は、この値より小さい値の 75% を表し、残りの 25% が大きいポイントです。
データ・セットの四分位数を計算するプロシージャー:
データを昇順に並べます。
第2四分位数を計算するには、中央値を計算します。 第1四分位数と第3四分位数については、次の手順に従います。n - データ・セット内の値の数を決定します。
最初の四分位数については、L = 0.25nを計算します。3番目の四分位数については、L = 0.75nを計算します。
Lが整数の場合、四分位数は位置Lの数と位置L + 1の数の平均です。
L が整数でない場合は、次に大きい整数に切り上げます。四分位数は、丸められた値に対応する位置の数値です。
与えられた20個の値のセットに対して,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
四分位数は次のように計算できます:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
中央値= 70
最初の四分位数のL: 0.25 × 20 = 5.第3四分位数のL: 0.75 × 20 = 15.
5は整数なので、この場合の Q₁ は:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
したがって、このデータセットでは、最初の四分位数は57、2番目の四分位数は70、3番目の四分位数は73.5です。
四分位範囲 (IQR) は、データ セットの 3 番目の $(Q₃)$ 四分位数と最初の Q₁ 四分位数の差です。これは平均分散の尺度であり、次のように計算できます:
IQR = Q₃ - Q₁
前のセクションでは、すでに第1四分位数と第3四分位数を計算しました。彼らは57と73.5です。私たちがしなければならないのは、単に式を適用することだけです。
IQR = Q₃ - Q₁ = 73.5 - 57 = 16.5
したがって、このデータセットの場合、四分位範囲は16.5です。
私たちの場合、マルゲリータピザの価格に関するルイージのミニ調査で、彼は次の結論を引き出すことができました:平均と中央値は一致しませんでした。データにわずかなスキューが形成されました。しかし、それはあまり目立ちません。したがって、平均と中央値の両方を使用して中心傾向を測定できます。
ルイージがマルゲリータピザの平均価格で行きたいのなら、彼は平均か中央値のどちらかを取るべきでした。しかし、IDR 71,900またはIDR 69,500は、思い出に残るピザの価格としてはあまり便利ではなかったでしょう。幸いなことに、マルゲリータのピザのモード価格はちょうどその範囲にあり、70,000インドネシアルピーです。したがって、ルイージは彼の計算にその正確な価格を使用した可能性があります。
彼がより倹約的なターゲットグループのためにピザ屋を作りたいのなら、彼は最初の四分位数に近い数字に集中することができます。それは約57,000 インドネシアルピーの価格です。第3四分位数はあまり代表的ではないため、より要求の厳しいクライアントの価格を決定するために第3四分位数に焦点を当てることはあまり便利ではありません。