Không tìm thấy kết quả nào
Chúng tôi không thể tìm thấy bất cứ điều gì với thuật ngữ đó vào lúc này, hãy thử tìm kiếm cái gì đó khác.
Máy tính giá trị trung bình, trung vị và mốt trong thống kê. Bạn có thể sử dụng máy tính này để tìm giá trị trung bình, trung vị, mốt, phạm vi và giá trị bình quân cho bất kỳ tập dữ liệu nào.
Kết quả | |||
---|---|---|---|
Trung bình x̄ | 16.75 | Ngoại lệ | 6, 33, 35 |
Trung vị x̃ | 15 | Tứ phân vị Q1 | 12.5 |
Yếu vị | 15 xuất hiện 3 lần | Tứ phân vị Q2 | 15 |
Phạm vi | 29 | Tứ phân vị Q3 | 16 |
Tối thiểu | 6 | Phạm vi tứ phân vị IQR | 3.5 |
Tối đa | 35 | ||
Tổng | 201 | ||
Số lượng n | 12 |
Có lỗi với phép tính của bạn.
Khi nhìn vào các bảng và biểu đồ dữ liệu thống kê thường khiến chúng ta khó hiểu. Thường thì, chúng ta cần tóm tắt, tổng quan các tập dữ liệu và xác định các đặc điểm quan trọng để thu được các thông tin hữu ích hơn từ các thống kê.
Trong thống kê, có các phương pháp khác nhau được sử dụng để giúp chúng ta có cái nhìn tổng quan về dữ liệu. Một số mô tả giá trị trung tâm của dữ liệu; chúng được gọi là các phép đo trung tâm. Các phương pháp khác nói cho chúng ta biết dữ liệu phân tán như thế nào; chúng được gọi là các phép đo độ phân tán. Các phương pháp khác, được gọi là các phép đo vị trí, thể hiện tỷ lệ của dữ liệu nhỏ hơn một giá trị cụ thể.
Mục đích chính của công cụ tính toán này là tính toán các phép tính trung tâm - giá trị trung bình và trung vị - là các giá trị có thể đại diện cho giá trị điển hình hoặc giá trị trung tâm trong một tập dữ liệu. Mục đích phụ của công cụ tính toán này là xác định mức độ biến động trong một tập dữ liệu bằng cách tính toán phạm vi, phân vị và phạm vi phân vị.
Giá trị trung bình là tổng của các giá trị chia cho tổng số lượng các giá trị. Để dễ hiểu và tính toán nhất, bạn có thể sử dụng công thức sau để tính giá trị trung bình cho một mẫu:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Công thức tính giá trị trung bình của một tổng thể là:
$$\mu=\frac{x₁+x₂+x₃+\ldots+x_n}{N}=\frac{\sum_{}^{}x}{N}$$
Ở đây, tử số biểu thị tổng các giá trị trong tập dữ liệu. Và mẫu số biểu thị số lượng các giá trị trong tập dữ liệu đó.
Đặc điểm quan trọng khi sử dụng trung bình cộng là nó liên quan đến tất cả các giá trị dữ liệu có trong tập dữ liệu.
Hạn chế chính của giá trị trung bình là nó dễ bị ảnh hưởng bởi các giá trị cực trị quá lớn hoặc quá nhỏ so với các giá trị còn lại trong tập dữ liệu. Những giá trị như vậy được gọi là giá trị outlier và chúng ảnh hưởng đáng kể đến giá trị trung bình cộng.
Cũng lưu ý rằng giá trị trung bình cộng không hẳn phải là giá trị tiêu biểu cho dữ liệu đó. Giá trị trung bình có thể là giá trị hoàn toàn không có trong tập dữ liệu.
Một tổng thể bao gồm toàn bộ tập hợp các giá trị về thông tin thu được. Mẫu bao gồm một nhóm nhỏ hơn được lấy từ tổng thể.
Phương pháp tính giá trị trung bình là giống nhau cho cả mẫu và tổng thể. Chỉ có các ký hiệu là khác nhau .
Nếu x₁, x₂,..., xₙ là mẫu thì giá trị trung bình được gọi là giá trị trung bình của mẫu và được biểu thị bằng ký hiệu x̄. Giá trị trung bình của tổng thể được ký hiệu bằng chữ cái Hy Lạp 𝜇.
Trong thống kê, chúng ta sử dụng chữ n viết thường để biểu thị quy mô mẫu và chữ N viết hoa để biểu thị quy mô của tổng thể.
Hãy cùng xem ví dụ sau: Luigi là một đầu bếp hạng nhất và là người yêu thích pizza. Anh ấy đã quyết định mở tiệm bánh pizza của mình ở Bali. Để tìm nhà đầu tư, Luigi đã lên kế hoạch kinh doanh. Anh ấy muốn xác định chi phí trung bình của một chiếc bánh pizza tại các nhà hàng khác nhau trên khu vực đảo để đánh giá hiệu quả tài chính trong tương lai.
Anh ấy đã thực hiện một nghiên cứu nhỏ về giá pizza Margherita tại các nhà hàng ở Bali và nhận được một bộ dữ liệu về giá pizza. Để dễ tính toán, hãy bỏ ba số 0 cuối cùng và sử dụng số hàng nghìn của mức giá. Nghĩa là, 60 theo tính toán của chúng tôi sẽ có nghĩa là 60.000 rupiah Indonesia.
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Luigi chưa đi khảo sát hết mọi tiệm bánh pizza trên đảo. Anh ấy chọn ngẫu nhiên 20 tiệm bánh trong số đó. Vì vậy, chúng ta đang xử lý một mẫu.
Hãy tính giá trị trung bình cho tập dữ liệu này bằng công thức:
$$\bar{x}=\frac{x₁+x₂+x₃+\ldots+x_n}{n}=\frac{\sum_{}^{}x}{n}$$
Chúng ta thu được giá trị trung bình x̄ = 71,9.
Nghiên cứu của Luigi cho thấy 71.900 rupiah Indonesia là giá trung bình của một chiếc pizza Margherita ở Bali. Bây giờ anh ấy có thể đã có căn cứ để tính toán mức giá cho pizza của mình.
Trung vị là thước đo vị trí biểu thị giá trị trung bình của tập dữ liệu được sắp xếp theo thứ tự tăng dần hoặc giảm dần.
Bằng cách tính trung vị, chúng ta có thể tìm ra một số chia tập dữ liệu làm đôi. Một nửa dữ liệu có giá trị nhỏ hơn trung vị và một nửa có giá trị lớn hơn trung vị. Đây là lý do tại sao chúng ta có thể xác định số trung vị theo cách thủ công mà không cần máy tính trung vị, chúng ta cần sắp xếp các giá trị của tập dữ liệu theo thứ tự tăng dần hoặc giảm dần.
Cách tính toán giá trị trung vị là khác nhau tùy thuộc vào số lượng giá trị trong tập dữ liệu là chẵn hay lẻ.
Nếu tổng số phần tử là số lẻ, tức là n hoặc N là số lẻ thì chúng ta có thể áp dụng công thức sau:
$$Trung\ vị = Phần\ tử\ thứ \left(\frac{n+1}{2}\right)$$
Tuy nhiên, nếu số phần tử là số chẵn, nghĩa là n là số chẵn thì chúng ta sử dụng công thức sau:
$$Trung\ vị = \frac{\left[\text{Phần\ tử\ thứ }\left(\frac{n}{2}\right) + \text{Phần\ tử\ thứ }\left(\frac{n}{2}+1\right)\right]}{2}$$
Ưu điểm chính của việc sử dụng giá trị trung vị là nó ít bị ảnh hưởng nhất bởi các giá trị rất cao hoặc rất thấp so với những giá trị còn lại trong tập dữ liệu.
Đối với một tập hợp gồm 20 giá trị,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Chúng ta có thể tính trung vị như sau:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Hãy xác định số lượng giá trị trong tập dữ liệu. Chúng ta có n = 20.
Nếu n lẻ thì ta chọn giá trị trung tâm của dữ liệu làm trung vị. Nếu n chẵn thì ta tìm giá trị trung bình cộng của hai giá trị trung vị. Cộng chúng lại và chia tổng thu được cho 2.
20 là số chẵn.
Giá trị trung tâm trong mẫu của chúng ta là 69 và 70. Chúng ta tìm giá trị trung vị như sau:
$$Trung\ vị = \frac{69 + 70}{2} = 69,5$$
Nếu Luigi có một bộ gồm 21 giá trị, ví dụ:
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 90, 55, 72, 70
Anh ấy có thể sắp xếp các giá trị:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 90, 95, 120, 160
và chọn giá trị ở giữa, ở vị trí thứ 11, tức là 70.
Cả giá trị trung bình và trung vị đều được sử dụng làm thước đo xu hướng trung tâm. Nhưng điều quan trọng là chúng ta phải biết chúng khác nhau như thế nào.
Một điểm khác biệt quan trọng giữa giá trị trung bình và giá trị trung vị là công thức tính giá trị trung bình sử dụng tất cả các giá trị trong tập dữ liệu. Ngược lại, công thức tính số trung vị chỉ phụ thuộc vào một hoặc hai số trung tâm.
Điều này đặc biệt quan trọng đối với các tập dữ liệu có một hoặc nhiều giá trị rất lớn hoặc rất nhỏ bất thường. Những con số như vậy được gọi là outlier. Trong hầu hết các trường hợp, những giá trị outlier này sẽ ảnh hưởng đáng kể đến giá trị trung bình, nhưng chúng sẽ có ít hoặc không ảnh hưởng đến giá trị trung vị.
Trong thống kê, chúng ta nói rằng một thước đo có tính ổn định nếu giá trị của nó không bị ảnh hưởng nhiều bởi các giá trị cực trị (outlier) trong tập dữ liệu. Vì vậy, chúng ta có thể kết luận rằng giá trị trung vị có khả năng chống lại các giá trị outlier, trong khi giá trị trung bình (trung bình cộng) thì không.
Giá trị trung bình và giá trị trung vị đo trung tâm của tập dữ liệu theo cách khác nhau. Giá trị trung bình là điểm mà tại đó tập dữ liệu cân bằng. Trung vị là mức trung bình phân tách 50% dữ liệu ở phía bên phải và 50% dữ liệu ở phía bên trái. Khi tập dữ liệu là đối xứng, thì giá trị trung bình và trung vị bằng nhau.
Tuy nhiên, giá trị trung bình và giá trị trung vị không phải lúc nào cũng bằng nhau.
Trong một số tập dữ liệu, giá trị trung bình có thể nhỏ hơn giá trị trung vị hoặc giá trị trung vị có thể nhỏ hơn giá trị trung bình. Trong trường hợp này, chúng ta nói rằng tập dữ liệu phân bổ lệch.
Nếu giá trị trung bình được đặt ở bên trái hoặc nhỏ hơn giá trị trung vị, chúng ta nói rằng tập dữ liệu bị lệch sang trái. Nếu giá trị trung bình được đặt ở bên phải hoặc lớn hơn giá trị trung vị thì chúng ta nói rằng tập dữ liệu bị lệch sang bên phải.
Cả giá trị trung bình và giá trị trung vị đều không có giá trị nào tốt hơn giá trị nào khi dùng làm thước đo xu hướng trung tâm. Cả hai đều đo trung tâm theo những cách khác nhau. Một số chuyên gia thích sử dụng số trung vị khi dữ liệu có độ lệch cao hoặc chứa các giá trị cực trị (rất lớn và rất nhỏ so với phần còn lại) vì số trung vị mang tính chất đại diện hơn cho một giá trị điển hình.
Mốt (mode) là giá trị của tập dữ liệu xuất hiện với số lần nhiều nhất trong tập dữ liệu. Mode của tập dữ liệu là giá trị xuất hiện thường xuyên nhất.
Một tập dữ liệu được gọi là unimodal (một mốt) nếu chỉ có một giá trị xuất hiện thường xuyên nhất.
Nếu một tập dữ liệu có 2 giá trị có cùng tần số xuất hiện cao nhất thì cả 2 giá trị này đều được coi là mốt (mode) và tập dữ liệu được coi là bimodal (hai mốt).
Nếu một tập dữ liệu có nhiều hơn hai giá trị có cùng tần số xuất hiện cao nhất thì mỗi giá trị đó sẽ được gọi là mốt (mode) và tập dữ liệu được coi là multimodal (đa mốt).
Nếu không có giá trị dữ liệu nào xuất hiện nhiều lần thì tập dữ liệu được cho là không có mốt. Trong trường hợp này, có thể nói rằng mode bằng 0. Trên thực tế, 0 có thể là giá trị thực trong một số bộ dữ liệu, chẳng hạn như các phép đo nhiệt độ.
Ưu điểm chính của việc tính toán mốt (mode) là dễ thực hiện nhất và không bị ảnh hưởng bởi các giá trị cực trị quá lớn hoặc quá nhỏ. Nhược điểm của tính toán mốt là trong một số trường hợp nhất định, giá trị mốt có thể không tồn tại đối với một số tập dữ liệu.
Đối với một tập hợp gồm 20 giá trị,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Chúng ta có thể tìm thấy mode như sau:
Sắp xếp tập dữ liệu theo thứ tự tăng dần hoặc giảm dần. Ở đây trình tự như sau:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Tiếp theo, chúng ta tìm giá trị được lặp lại số lần nhiều nhất. Ở đây, giá trị lặp lại nhiều nhất là 70. Do đó, đối với một tập dữ liệu này, giá trị mode là 70.
Mặc dù mốt (mode) là một thước đo xu hướng trung tâm, nhưng nó không phải lúc nào cũng phản ánh giá trị trung tâm của một tập hợp, đặc biệt là trong các tập hợp phân phối bị lệch. Mode có thể là giá trị lớn nhất trong tập dữ liệu, giá trị nhỏ nhất hoặc bất kỳ giá trị nào khác. Ví dụ: nếu chúng ta có các số sau trong tập dữ liệu:
42, 45, 50, 53, 55, 57, 59, 60, 63, 69, 70, 72, 79, 82, 83, 95, 96, 120, 120, 120
Mode sẽ là 120. Mặc dù trong trường hợp này, nó sẽ không phản ánh xu hướng trung tâm.
Điều thú vị là chúng ta chỉ có thể tính giá trị trung bình và giá trị trung vị cho dữ liệu định lượng. Nhưng chúng ta có thể tính toán mode cho cả dữ liệu định lượng và định tính.
Trung bình, Anna ăn pizza 12 lần mỗi tháng.
Trong trường hợp này, chúng ta sẽ có hai mốt (mode): pizza Napoletana và pizza Margherita.
Các thước đo độ phân tán, còn được gọi là thước đo độ biến thiên, được sử dụng để xác định độ chênh lệch hoặc độ biến thiên trong một tập dữ liệu. Chúng ta có thể kiểm tra phương sai trong một tập dữ liệu bằng cách sử dụng phạm vi, tứ phân vị và phạm vi tứ phân vị.
Phạm vi cho một tập dữ liệu là mức chênh lệch giữa giá trị cao nhất và thấp nhất trong tập dữ liệu đó. Chúng ta có thể tính toán nó bằng cách xác định giá trị cực đại (cao nhất) và cực tiểu (thấp nhất) trong tập dữ liệu. Công thức tính phạm vi là:
Phạm vi = Giá trị lớn nhất - Giá trị nhỏ nhất
Đối với một tập hợp gồm 20 giá trị,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
chúng ta có thể tính toán phạm vi như sau:
Sắp xếp tập dữ liệu theo thứ tự tăng dần hoặc giảm dần. Ở đây, thứ tự được sắp xếp như sau:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Hơn nữa, giá trị cao nhất là 160 và giá trị thấp nhất là 42. Do đó, phạm vi sẽ là
Phạm vi = Giá trị lớn nhất - Giá trị nhỏ nhất = 160 - 42 = 118
Do đó, đối với tập dữ liệu này, phạm vi là 118.
Tứ phân vị là các giá trị chia tập dữ liệu thành bốn phần bởi ba điểm, cụ thể là tứ phân vị thứ nhất, thứ hai và thứ ba.
Tứ phân vị đầu tiên, được ký hiệu là Q₁, là giá trị mà 25% dữ liệu có giá trị thấp hơn, và 75% còn lại có giá trị lớn hơn.
Tứ phân vị thứ hai, được ký hiệu là Q₂, còn được gọi là trung vị. Nó chia tập dữ liệu thành hai phần bằng nhau, với 50% có giá trị thấp hơn và 50% có giá trị cao hơn.
Tứ phân vị thứ ba, ký hiệu là Q₃, là giá trị mà 75% dữ liệu có giá trị thấp hơn, và 25% còn lại có giá trị cao hơn.
Quy trình tính các tứ phân vị của một tập dữ liệu:
Chúng ta hãy sắp xếp dữ liệu theo thứ tự tăng dần.
Để tính tứ phân vị thứ hai, chúng ta hãy tính trung vị. Đối với tứ phân vị thứ nhất và thứ ba, tiến hành như sau. Xác định n - là số giá trị trong tập dữ liệu.
Đối với tứ phân vị thứ nhất, tính L = 0,25n. Đối với tứ phân vị thứ ba, tính L = 0,75n.
Nếu L là số nguyên thì tứ phân vị là trung bình cộng của số ở vị trí L và số ở vị trí L + 1.
Nếu L không phải là số nguyên, hãy làm tròn nó lên số nguyên cao hơn tiếp theo. Tứ phân vị là số tại vị trí tương ứng với giá trị được làm tròn.
Đối với một tập hợp gồm 20 giá trị,
60, 60, 84, 45, 59, 70, 42, 59, 53, 70, 69, 70, 120, 160, 95, 50, 75, 55, 72, 70
Chúng ta có thể tính các tứ phân vị như sau:
42, 45, 50, 53, 55, 59, 59, 60, 60, 69, 70, 70, 70, 70, 72, 75, 84, 95, 120, 160
Trung vị = 70
L cho tứ phân vị đầu tiên: 0,25 × 20 = 5. L cho tứ phân vị thứ ba: 0,75 × 20 = 15.
5 là một số nguyên, vì vậy Q₁ trong trường hợp của chúng ta là:
$$Q₁=\frac{55+59}{2}=57$$
$$Q₃=\frac{72+75}{2}=73,5$$
Do đó, đối với tập dữ liệu này, tứ phân vị thứ nhất là 57, tứ phân vị thứ hai là 70 và tứ phân vị thứ ba là 73,5.
Phạm vi tứ phân vị (IQR) là sự khác biệt giữa tứ phân vị Q₃ thứ ba và tứ phân vị Q₁ đầu tiên của một tập dữ liệu. Nó là thước đo độ phân tán trung bình, có thể được tính như sau:
IQR = Q₃ - Q₁
Trong phần trước, chúng ta đã tính được tứ phân vị thứ nhất và tứ phân vị thứ ba. Chúng là 57 và 73,5. Tất cả những gì chúng ta cần làm chỉ đơn giản là áp dụng công thức ở trên.
IQR = Q₃ - Q₁ = 73,5 - 57 = 16,5
Do đó, đối với tập dữ liệu này, phạm vi tứ phân vị là 16,5.
Trong trường hợp của chúng ta, với cuộc khảo sát nhỏ về giá bánh pizza Margherita của Luigi, anh ấy có thể rút ra kết luận sau: Giá trị trung bình và giá trị trung vị không bằng nhau; vì vậy dữ liệu ban đầu có độ lệch. Nhưng nó không đáng kể. Vì vậy, cả giá trị trung bình và giá trị trung vị đều có thể được sử dụng để đo lường xu hướng trung tâm.
Nếu Luigi muốn xác định mức giá trung bình cho một chiếc bánh pizza Margherita, anh ấy có thể tham khảo giá trị trung bình hoặc giá trị trung vj. Tuy nhiên, những mức giá như 71.900 IDR hoặc 69.500 IDR có thể hơi khó nhớ. Tuy nhiên, mức giá phổ biến (mode) cho pizza Margherita nằm trong phạm vi này, ở mức 70.000 IDR, đây là một con số hợp lý để Luigi sử dụng trong việc định giá cho sản phẩm của mình.
Nếu anh ấy muốn tạo ra một tiệm bánh pizza cho nhóm phân khúc khách hàng thích tiết kiệm hơn, anh ấy có thể tập trung vào những số liệu gần với tứ phân vị đầu tiên. Đó là mức giá khoảng 57.000 rupee Indonesia. Sẽ không thuận tiện lắm khi tập trung vào tứ phân vị thứ ba để xác định giá cho những khách hàng khó tính hơn vì tứ phân vị thứ ba không mang tính phổ biến cho lắm (ít khách hàng hơn).