未找到结果
我们目前无法使用该术语找到任何内容,请尝试搜索其他内容。
用于统计的平均值、中位数和众数的计算器。使用此计算器可得到任何数据集的平均值、中位数、众数、极差和平均值。
结果 | |||
---|---|---|---|
平均值 x̄ | 16.75 | 离群值 | 6, 33, 35 |
中位数 x̃ | 15 | 四分位数 Q1 | 12.5 |
众数 | 15出现3次 | 四分位数 Q2 | 15 |
范围 | 29 | 四分位数 Q3 | 16 |
最小 | 6 | 四分位距 IQR | 3.5 |
最大 | 35 | ||
总和 | 201 | ||
计数 n | 12 |
您的计算出现错误。
只看统计数据表格和图表可能难以理解。通常,我们需要对数据集进行汇总并确定重要特征,以从统计数据中获取更有用的信息。
在统计学中,使用不同的度量来汇总数据。有些描述数据的中心位置,它们称为集中趋势度量。其他告诉数据值有多分散,它们称为离散趋势度量 。还有一些称为位置度量,表示数据比例小于某个给定值。
这个计算器的主要目的是计算集中趋势度量 – 平均值和中位数,它们可以表示数据集的典型值或中心值。此计算器的次要目的是通过计算极差、四分位数和四分位距来确定数据集中的变异程度。
平均数是数值总和除以数值总数。使用下面的样本平均数计算公式理解和计算是最容易的:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
总体平均值的公式是:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
这里,分子表示数据集所有数值的总和。分母表示所有数值的个数。
使用算术平均值的主要特点是它涵盖了数据集所有数据点。
平均值的主要局限性在于,它很容易受到过大或过小的极端值的影响。这些值被称为离群值,它们会对平均值产生重大影响。
还要注意的是,平均值并不一定是数据的典型值。平均值可能是数据集中根本不存在的值。
总体由从所获信息中全部数值组成。样本是从总体中抽取的一个较小的群体。
计算样本和总体平均值的方法是相同的。只是代表符号不同。
如果 x₁,x₂,...,xₙ 是一个样本,其平均值称为样本平均值,用符号 x̄ 表示。总体的平均值用希腊字母 𝜇 表示。
在统计学中,我们用小写字母 n 表示样本量,用大写字母 N 表示总体量。
我们来看下面这个例子: 路易吉(Luigi)是一位顶级厨师,非常喜欢披萨。他决定在巴厘岛开一家披萨店。为了寻找投资者,路易吉制定了一份商业计划书。他想确定岛上不同餐馆披萨的平均成本,以评估未来的财务表现。
他对巴厘岛餐厅的玛格丽塔披萨价格做了一些调查,得到了一组披萨价格数据。为了便于计算,我们舍弃最后三个零,以1千为单位 。也就是说,在我们的计算中,60 表示 60,000 印尼盾。
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
路易吉并没有走遍岛上所有的披萨店。他随机选择了其中的 20 家。因此,我们面对的是一个样本。
让我们用公式计算一下这个数据集的平均值:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
最后得出平均值 x̄ = 71.9。
路易吉的研究表明,71,900 印尼盾是巴厘岛玛格丽塔披萨的平均价格。他现在可以根据这个价格进行计算。
中位数是一种位置度量,代表按升序或降序排列的数据集的平均值。
通过计算中位数,我们试图找到一个将数据集分成两半的数字。一半的数据值小于中位数,一半的数据值大于中位数。这就是为什么当我们在没有中位数计算器的情况下手动确定中位数时,需要按升序或降序对数值进行排序。
计算中位数的方法因数据集内的数值是偶数还是奇数而不同。
如果元素的个数为奇数,即 n 或 N 为奇数,则适用以下公式:
$$中位数=(\frac{n+1}{2})-th \元素$$
但是,如果元素的个数是偶数,即 n 是偶数,则使用下面的公式:
$$中位数=\frac{\left[(\frac{n}{2})-th \ 元素+(\frac{n}{2}+1)-th \ 元素\right]}{2}$$
使用中值的主要优势在于,它受极高或极低值的影响最小。
对于一组包含20个值的数据:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
中位数的计算方法如下:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
我们来确定数据集中的数值个数。n = 20。
如果 n 为奇数,我们选择数据的中间值作为中位数。如果 n 为偶数,则求出两个中间值的算术平均数。将它们相加,再除以 2。
20 是偶数。
我们样本中的中心值是 69 和 70。我们可以这样求中位数
$$中位数 = \frac{69 + 70}{2} = 69.5$$
如果路易吉有一组 21 个数值,例如:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
他可以对数值进行排序:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
并选择中间第 11 位的数值,即 70。
平均数和中位数都是用来衡量集中趋势的指标。但了解它们之间的差异至关重要。
平均数和中位数的一个重要区别是,平均数的计算公式使用数据集中的所有值。相比之下,中位数的计算公式只取决于中心数或中心数中的两个数。
这对于一个或多个数字异常大或异常小的数据集尤为重要。这些数字被称为离群值。在大多数情况下,这些异常的值会对平均值产生重大影响,但对中位数的影响很小或没有影响。
在统计学中,如果一个指标值没有受到数据集中极端值的显著影响,我们就会说这个指标是"抗干扰的"。因此,我们可以说中位数是抗干扰的,而平均数不是。
平均数和中位数以不同的方式测量数据集的中心。平均值是数据集的平衡点。中位数是将一边 50%的数据与另一边 50%的数据分开的平均值。当数据集对称时,平均数和中位数相等。
但平均数和中位数不总是相等。
在某些数据集中,平均数可能小于中位数,或者中位数可能小于平均数。在这种情况下,我们说数据集是“倾斜的”。
如果平均值偏左或小于中位数,我们就说数据集偏左。如果均值偏右或大于中位数,我们就说数据集向右倾斜。
平均值和中位数作为集中趋势的度量都不理想。它们都以不同的方式衡量中心。当数据高度偏斜或包含极端值时,一些专家更倾向于使用中位数,因为中位数更能代表典型值。
众数是数据集中出现次数最多的值。也就是出现频率最高的值。
只有一个值出现频率最高的数据集被称为单众数集。
如果数据集中有两个具有相同最高出现频率的值,那么这两个值都被认为是众数,数据集被称为是双众数集。
如果数据集中有两个以上的值具有相同的最高出现频率,那么每个值都被用作众数,数据集被称为多众数集。
如果没有一个数据值出现超过一次,那么数据集就被称为无众数集。在这种情况下,说众数为零是不正确的。事实上,在一些数据集中零可能是一个实际的值,比如温度的测量值。
计算众数的主要优点是最容易找到,并且不受极端值的影响。计算众数的缺点是,在某些情况下,某些数据集可能不存在众数值。
对于一组包含20个值的数据:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
我们可以按以下方法找出众数:
按升序或降序排列数据集。这里的顺序如下
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
接下来,我们找出重复次数最多的值。在这里,重复次数最多的值是 70。因此,对于给定的数据集,众数为 70。
众数也被称为集中趋势度量。但这并不完全准确。众数可以是数据集中的最大值、最小值或任何其他值。例如,如果数据集中有以下数字:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
众数为 120。尽管在这种情况下,它并不能反映集中趋势。
有趣的是,我们只能计算定量数据的平均数和中位数。而众数可以用于定量和定性数据。
举个例子,安娜平均每月吃 12 次披萨。
我们使用方差度量来确定数据集的变异性。它们通常反映数据与中心值的差异程度。我们可以使用极差、四分位数和四分位数间距来检验数据集的方差。
数据集的极差是数据集中最高值和最低值之间的差值。我们可以通过确定数据集的最大值和最小值来计算它。计算极差的公式是:
范围 = 最大值 - 最小值
对于一组包含20个值的数据:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
我们可以按照以下步骤计算极差:
按升序或降序排列数据集,排序如下:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
这里,最高值是 160,最低值是 42。因此,极差是:
范围 = 最大值 - 最小值 = 160 - 42 = 118
因此,这个数据集的极差是 118。
四分位数是将数据集通过三个点(即第一、第二和第三四分位数)分成四个部分的值。
第一个四分位数,即 Q₁,代表数据集中小于该值的前 25% 的值。而其他 75% 的值都大于这个值。
标有 Q₂ 的第二个四分位数是中位数。这意味着数据集中有 50%的值小于该值,另外 50%的值大于 Q₂。
第三个四分位点标为 Q₃,代表 75% 的数值小于该值,其余 25% 的数值大于该值。
计算数据集的四分位数的步骤如下:
按升序排列数据。
计算第二个四分位数,即计算中位数。计算第一和第三四分位数的步骤如下。确定数据集中的数值个数n。
对于第一四分位数,计算 L = 0.25n。对于第三个四分位数,计算 L = 0.75n。
如果 L 是整数,那么四分位数就是 L 位置的数值和 L + 1 位置的数值的平均值。
如果 L 不是整数,将其四舍五入到最接近的整数。四分位数就是与四舍五入值相对应的位置上的数字。
对于一组包含20个值的数据:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
我们可以按以下方法计算四分位数:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
中位数 = 70
第一四分位数的 L: 0.25 × 20 = 5. 第三四分位数的 L: 0.75 × 20 = 15.
5 是整数,所以我们的 Q₁ 是:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73.5$$
因此,对于这个数据集,第一四分位数是 57,第二四分位数是 70,第三四分位数是 73.5。
四分位距 (IQR) 是指数据集的第三个四分位数 Q₃ 和第一个四分位数 Q₁ 之间的差值。它是平均离散趋势的度量,计算公式如下:
四分位距 = Q₃ - Q₁
在前面的部分,我们已经计算了第一和第三四分位数。它们分别为 57 和 73.5。我们只需简单地应用这个公式。
四分位距 = Q₃ - Q₁ = 73.5 - 57 = 16.5
因此,该数据集的四分位距为 16.5。
在我们的案例中,通过路易吉对玛格丽塔披萨价格的小型调查,他可以得出以下结论: 平均值和中位数不一致;数据略有倾斜。但并不明显。因此,平均值和中位数都可以用来衡量集中趋势。
如果路易吉想用玛格丽塔披萨的平均价格,他应该取平均值或中位数。但是,71,900 印尼盾或 69,500 印尼盾作为披萨的价格就不太方便了。好在玛格丽塔披萨的众数价格正好在这个范围内,即 70,000印尼盾。因此,路易吉完全可以用这个价格来计算。
如果他的目标客户为比较节俭的群体,他可以把重点放在更接近第一四分位数的价格上。即大约为 57,000 印尼盾。如果只关注第三四分位数来定价格,效果可能并不理想,因为第三四分位数不太能代表整体数据分布情况。