Понятие вариации и вариационного ряда

Понятие вариации и вариационного ряда

Выделяют три типа данных:

Атрибутивные (параметрические) данные: категориальные (качественные) данные, представляющие собой качественные единиц наблюдения. Например, цвет глаз у испытуемых. Эти данные нельзя измерить, но можно оценить их частоту встречаемости. На основе этих данных строят атрибутивные ряды распределения

Ранговые данные, соответствующие местам этих элементов в последовательности, полученной при их расположении в возрастающем порядке какого-то свойства. Эти данные можно упорядочить по возрастанию (по убыванию). Их можно сравнивать, но нет смысла складывать (светло-синий, синий, темно-синий).

Метрические данные: количественные данные, получаемые путем измерения какого-то значения признака у единицы наблюдения (вес, длина, сумма денег и т.п.). Их можно сравнивать, складывать, делить. Именно на основе количественных данных строятся вариационные ряды.

Понятие вариационного ряда, виды вариационных рядов

Вариация означает различия в значениях какого-либо признака у разных единиц изучаемой совокупности в один и тот же период (момент времени). Вариация возникает в результате того, что сами значения признака складываются под влиянием разнообразных условий (все люди в изучаемой группе имеют разный вес по многим причинам).

Обычно полученные в результате исследований количественные данные представляют собой множество чисел. Просматривая это множество чисел, не всегда можно выявить какую-либо закономерность их изменения. Для изучения закономерностей изменения и свойств изучаемой статистической совокупности полученные данные подвергают группировке, в результате которой формируют вариационные ряды дискретные или интервальные.

Вариационный ряд – это результат группировки первичных данных, представленный в виде таблицы, в которой указано какие значения признака встречаются в изучаемой статистической совокупности и сколько раз они встречаются (какие оценки получили студенты на экзамене и сколько студентов получило каждый вид оценки). Значением изучаемого признака является значение того свойства, которое мы изучаем (изучаем количество детей в семье – это и есть значение признака, изучаем посещаемость кафе – количество посетителей за период является значением признака).

По характеру изменения все признаки разделяют на дискретные (прерывные) и непрерывные признаки.

Дискретные признаки изменяются только условно «целыми» числами, промежуточные значения не имеют смысла (сколько монет разного номинала в кармане, количество комнат в квартире, количество детей в семье, профессиональный разряд слесаря).

Непрерывные признаки могут принять любое значение в пределах изучаемой совокупности (сумма денег в кармане в копейках, площадь квартиры, рост ребенка, зарплата слесарей).

Дискретный вариационный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). Эти признаки могут принимать только конечное число определённых значений.

Оценки, полученные на экзамене

Число студентов

2

8

3

12

4

23

5

17

Всего

60

Если изучаемый признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость имущества предприятия и т.д.) или количество значений дискретного признака очень велико (оценивается в каждом случае отдельно по сравнению с количеством единиц наблюдения), то нужно строить интервальный вариационный ряд.

рост детей (см)

количество детей

90-100

16

100-110

24

110-130

46

больше 130

34

Всего

120

Построение дискретного вариационного ряда

Дискретный вариационный ряд строится для дискретный признаков.

Для того, чтобы построить дискретный вариационный ряд нужно выполнить следующие действия:1) упорядочить единицы наблюдения по возрастанию изучаемого значения признака,

2) определить все возможные значения признака xi, упорядочить их по возрастанию,

3) подсчитать сколько раз встречается каждое значение признака в изучаемой совокупности, т.е. определить частоту каждого значения признака fi.

4) записать полученные данные в таблицу из двух строк (столбцов) - xi и fi .

Значение случайной величины, соответствующее отдельной группе наблюдаемых данных, называют значением признака, вариантом (вариантой) и обознпчают xi.

Число, которое показывает, сколько раз встречается соответствующее значение признака в ряде наблюдений называют частота значения признака и обозначают  fi. Сумма всех частот ряда равна количеству элементов в изучаемой совокупности.

Пример 1.

Список оценок полученных студентами на экзаменах: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Здесь число Х – оценка является дискретной случайной величиной, а полученный список оценок - статистические (наблюдаемые) данные.

упорядочить единицы наблюдения по возрастанию изучаемого значения признака:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) определить все возможные значения признака xi, упорядочить их по возрастанию:

В данном примере все оценки можно разделить на четыре группы со следующими значениями: 2; 3; 4; 5.

Значение случайной величины, соответствующее отдельной группе наблюдаемых данных, называют значением признака, вариантом (вариантой) и обознпчают xi.

3) подсчитать сколько раз встречается каждое значение признака в изучаемой совокупности, т.е. определить частоту каждого значения признака fi.

Число, которое показывает, сколько раз встречается соответствующее значение признака в ряде наблюдений называют частота значения признака и обозначают  fi. Сумма всех частот ряда равна количеству элементов (единиц наблюдения) в изучаемой совокупности.

Для нашего примера

оценка 2 встречается - 8 раз,

оценка 3 встречается - 12 раз,

оценка 4 встречается - 23 раза,

оценка 5 встречается - 17 раз.

Всего 60 оценок.

4) записать полученные данные в таблицу из двух строк (столбцов) - xi и fi .

На основании этих данных можно построить дискретный вариационный ряд

Дискретный вариационный ряд – это таблица, в которой указаны встречающиеся значения изучаемого признака как отдельные значения по возрастанию и их частоты

xi (оценка)

fi (кол-во студентов с такой оценкой)

2

8

3

12

4

23

5

17

Всего

60

Построение интервального вариационного ряда

Кроме дискретного вариационного ряда часто встречается такой способ группировки данных, как интервальный вариационный ряд.

Интервальный ряд строится если:

признак имеет непрерывный характер изменения;

дискретных значений получилось очень много (больше 10)

частоты дискретных значений очень малы (не превышают 1-3 при относительно большем количестве единиц наблюдения);

много дискретных значений признака с одинаковыми частотами.

Интервальный вариационный ряд – это способ группировки данных в виде таблицы, которая имеет две графы (значения признака в виде интервала значений и частота каждого интервала).

В отличие от дискретного ряда значения признака интервального ряда представлены не отдельными значениями, а интервалом значений («от - до»).

Число, которое показывает, сколько единиц наблюдения попало в каждый выделенный интервал, называется частота значения признака и обозначают  fi. Сумма всех частот ряда равна количеству элементов (единиц наблюдения) в изучаемой совокупности.

Если единица обладает значением признака, равным величине верхней границы интервала, то ее следует относить к следующему интервалу.

Например, ребёнок с ростом 100 см попадёт во 2-ой интервал, а не в первый; а ребёнок с ростом 130 см попадёт в последний интервал, а не в третий.

На основании этих данных можно построить интервальный вариационный ряд.

xi (рост ребенка)

fi (кол-во детей с таким ростом)

90-100

16

100-110

24

110-130

46

больше 130

34

Всего

120

У каждого интервала есть нижняя граница (хн), верхняя граница (хв) и ширина интервала (i).

Граница интервала – это значение признака, которое лежит на границе двух интервалов.

рост детей (см)

рост детей (см)

количество детей

хн

хв

90-100

90

100

16

100-110

100

110

24

110-130

110

130

46

больше 130

130

-

34

Всего

120

Если у интервала есть верхняя и нижняя граница, то он называется закрытый интервал. Если у интервала есть только нижняя или только верхняя граница, то это – открытый интервал. Открытым может быть только самый первый или самый последний интервал. В приведённом примере последний интервал – открытый.

Ширина интервала (i) – разница между верхней и нижней границей.

i = хн - хв

Ширина открытого интервала принимается такой же, как ширина соседнего закрытого интервала.

рост детей (см)

количество детей

Ширина интервала (i)

хн

хв

90

100

16

100-90=10

100

110

24

110-100=10

110

130

46

130-110=20

130

для расчётов 130+20=150

34

20 (потому что ширина соседнего закрытого интервала – 20)

всего

120

Все интервальные ряды делятся на интервальные ряды с равными интервалами и интервальные ряды с неравными интервалами. В интервальных рядах с равными интервалами ширина всех интервалов одинаковая. В интервальных рядах с неравными интервалами ширина интервалов разная.

В рассматриваемом примере - интервальный ряд с неравными интервалами.

Алгоритм построения интервального вариационного ряда с равными интервалами

Определяем число интервалов (групп) вариационного ряда

Число групп (интервалов) приближенно определяется по формуле Стерджесса:

m = 1 + 3,322 × lg(n)

где n - общее число единиц наблюдения (общее количество элементов в совокупности и т.д.), lg(n) – десятичный логарифм от n.

Полученную по формуле Стерджесса величину округляют обычно до целого большего числа, поскольку количество групп не может быть дробным числом.

Если ряд интервальный ряд с таким количеством групп по каким-то критериям не устраивает, то можно построить другой интервальный ряд, округлив m до целого меньшего числа и выбрать из двух рядов более подходящий.

Число групп не должно быть больше 15.

Также можно пользоваться следующей таблицей, если совсем нет возможности вычислить десятичный логарифм.

Объем выборки, n

25-40

40-60

60-100

100-200

Больше 200

Число интервалов, m

5-6

6-8

7-10

8-12

10-15

Определяем ширину интервала

Ширина интервала для интервального вариационного ряда с равными интервалами определяется по формуле:

i =xмакс-xминm

где Xмакс - максимальное из значений xi, Xмин - минимальное из значений xi; m - число групп (интервалов).

Величину интервала (i) обычно округляют до целого числа, исключение составляют лишь случаи, когда изучаются малейшие колебания признака (например, при группировке деталей по величине размера отклонений от номинала, измеряемого в долях миллиметра).

Часто применяется следующее правило:

Количество знаков до запятой

Количество знаков после запятой

Пример ширины интервала по формуле

До какого знака округляем

Пример округленной ширины интервала

0

3

0,375

0,01

0,38

0

2

0,56

0,1

0,6

1

3

4,658

0,01

4,66

1

2

2,54

0,1

2,5

2

любое

12,54

1,0

13

3

любое

672,54

10,00

670

4

любое

3472,45

100,00

3500

и т.д.

Определяем границы интервалов

Нижнюю границу первого интервала принимают равной минимальному значению признака (чаще всего его предварительно округляют до целого меньшего числа с таким же разрядом как ширина интервала). Например, хмин= 15, i=130, хн первого интервала = 10.

хн1 ≈ хмин

Верхняя граница первого интервала соответствует значению (Хmin + i).

Нижняя граница второго интервала всегда равно верхней границе первого интервала. Для последующих групп границы определяются аналогично, т е. последовательно прибавляется величина интервала.

i = xнi + i

i = xвi-1

Определяем частоты интервалов.

Считаем, сколько значений попало в каждый интервал. При этом помним, что если единица обладает значением признака, равным величине верхней границы интервала, то ее следует относить к следующему интервалу.

Строим интервальный ряд в виде таблицы.

Определяем середины интервалов.

Для дальнейшего анализа интервального ряда понадобится выбрать значение признака для каждого интервала. Это значение признака будет общим для всех единиц наблюдения, попавшим в этот интервал. Т.е. отдельные элементы «теряют» свои индивидуальные значения признака и им присваивается одно общее значение признака. Таким общим значением является середина интервала, которая обозначается x'i .

xi'= xвi+ xнi2

Рассмотрим на примере с ростом детей, как построить интервальный ряд с равными интервалами.

Имеются первоначальные данные.

 90, 91, 92, 93, 94, 95, 96, 97, 98, 99,  92, 93, 94, 95, 96, 98, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109,  100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 100, 101, 102, 104,  110, 112, 114, 116, 117, 120, 122, 123, 124, 129,  110, 111, 113, 115, 116, 117, 121, 125, 126, 127,  110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,  111, 113, 116, 127, 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

Основные элементы вариационного ряда

Все значения изучаемого свойства, которые встречаются в изучаемой совокупности, называет значением признака (вариантом, вариантой), а изменение этого значения варьированием. Варианты обозначают малыми буквами латинского алфавита с соответствующими порядковому номеру группы индексами - xi.

Число, которое показывает, сколько раз встречается каждое значение признака в изучаемой совокупности частотой и обозначают  fi. Сумма всех частот ряда равна объему изучаемой совокупности.

Очень часто нужно подсчитать накопленную частоту (S). Накопленная частота для каждого значения признака показывают, сколько единиц совокупности имеют значение признака не больше, чем данное значение. Накопленная частота исчисляются путем последовательного прибавления к частоте первого значения признака частот следующих значений признака:

Si=fi+ Si-1

Накопленную частоту начинают рассчитывать с самого первого значения признака

Отношение частоты к общему количеству элементов в изучаемой совокупности называют относительной частотой или частостью (ω):

ωi=fifi=nin

Сумма частостей всегда равна единице или 100 %. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

Частоты ряда (fi) в некоторых случаях могут быть заменены частостями (ωi).

Если вариационный ряд дан с неравными интервалами, то для правильного представления о характере распределения необходимо произвести расчет абсолютной или относительной плотности распределения.

Абсолютная плотность распределения (рf) представляет собой величину частоты, приходящейся на единицу размера интервала отдельной группы ряда:

рf = f/i.

Относительная плотность распределения (рω) представляет собой величину частости, приходящейся на единицу размера интервала отдельной группы ряда :

рω = ω/i.

Для рядов с неравными интервалами только эти характеристики дает более правильное представление о характере распределения, чем частота и частость.

Статистическим распределением выборки называют перечень вариантов (значений признака) и соответствующих им частот или плотностей распределения, относительных частот или относительных плотностей распределения.

Разные ряды распределения характеризуются разным набором частотных характеристик:

минимальным – атрибутивные ряды (частота, частость),

для дискретных используются четыре характеристики (частота, частость, накопленная частота, накопленная частость),

для интервальных – все пять (частота, частость, накопленная частота, накопленная частость, абсолютная и относительная плотности распределения).

Правила построения интервального вариационного ряда

Графическое изображение вариационных рядов

Первым этапом изучения вариационного ряда является построение его графического изображения. Графическое изображение вариационных рядов облегчает их анализ и позволяет судить о форме распределения. Для графического изображения вариационного ряда в статистике строят гистограмму, полигон и кумуляту распределения.

Дискретный вариационный ряд изображается в виде так называемого полигона частот.

Для изображения интервального ряда применяются полигон распределения частот и гистограмма частот.

Строятся графики в прямоугольной системе координат.

Построение полигона частот

При построении полигона частот

на оси абсцисс откладываются направо в порядке возрастания значения признака (для дискретного рядов) или центральные значения интервалов – середины интервалов,

по оси ординат откладываются частоты,

строим точки, показывающие значение частоты для каждого значения признака,

крайние точки полученной ломаной соединяются с лежащими на оси абсцисс следующими (меньшими и большими) возможными, но фактически не наблюдающимися значениями признака, частота которых, очевидно, равна 0,

замкнутая с осью абсцисс ломаная линия представляет полигон распределения частот.

Построение гистрограммы

Гистограмма - столбиковая диаграмма, для построения которой на оси абсцисс откладывают отрезки, равные величине интервалов вариационного ряда.

Для построения гистограммы по оси абсцисс откладывают величины интервалов, а частоты изображаются прямоугольниками, построенными на интервалах с высотой, равной частоте в масштабе оси ординат.

В случае неравенства интервалов гистограмма строится не по частотам или частостям, а по плотности распределения.

Очевидно, что гистограмма легко может быть преобразована в полигон распределения, если середины верхних сторон прямоугольников соединить отрезками прямых, при этом середины верхних сторон двух крайних прямоугольников соединить с осью абсцисс в точках, отстоящих в принятом масштабе на величину интервалов от середины первого и последнего интервалов.

Построение кумуляты

В ряде случаев для изображения вариационных рядов используется кумулятивная кривая (кумулята), она особенно удобна для сравнения вариационных рядов. Кумулята строится на основе накопленной частоты.

Накопленные частоты наносятся в виде ординат; соединяя вершины отдельных ординат прямыми, получают ломаную линию, которая, начиная с нуля, непрерывно поднимается над осью абсцисс до тех пор, пока не достигнет высоты, соответствующей общей сумме частот.

При построении кумуляты интервального ряда (рис. 5.3) нижней границе первого интервала соответствует нулевая частота (частость), верхней - вся частота (частость) первого интервала. Верхней границе второго интервала – сумма частот (частостей) первого и второго интервалов и т.д., верхней границе последнего интервала - сумма накопленных частот (частостей) во всех интервалах, что соответствует общей численности изучаемой совокупности или 100%.

← Предыдущая
Страница 1
Следующая →

Атрибутивные (параметрические) данные, Ранговые данные, Метрические данные. Все признаки разделяют на дискретные (прерывные) и непрерывные признаки. Построение дискретного вариационного ряда. Построение интервального вариационного ряда. Алгоритм построения интервального вариационного ряда с равными интервалами

У нас самая большая информационная база в рунете, поэтому Вы всегда можете найти походите запросы

Искать ещё по теме...

Похожие материалы:

Гражданское право. Собственность

Общая правовая основа для решения вопросов, связанных с отношениями собственности – гражданское право РФ, поскольку право собственности – это основной вид имущественных прав, составляющий, наряду с производными правами и сервитутами

Испарение электронной бомбардировкой

Метод термо-вакуумного напыления. Метод получения тонких пленок термическим вакуумным напылением является универсальным и наиболее освоенным методом. Схема термического напыления. Резистивное термическое испарение в вакууме. Испарители с косвенным резистивным нагревом. Электронно-лучевые испарители. Достоинства и недостатки термического испарения

Обробка грунту

Анаітичний огляд літератури про сучасний стан та проблеми обробітку грунту. Найпоширеніші способи обробітки грунту. Генетичний та функціональний, екологічний підходи до оцінки біосферних наслідків грунтогенезу, утворення чорноземного тиру грунтів. Фактори та умови грунтотворення

Виробництво залізобетонних одношарових панелей

Курсова робота. Виробництво залізобетонних одношарових панелей ПС 60.6.3.5 – Л проводиться за агрегатним способом. При цьому способі вироби виготовляються на спеціально обладнаних постах – в формах.

Специфика школьной дезадаптации, методы ее диагностики

Диагностика межличностных отношений. Диагностика межличностных отношений ЛИРИ. Диагностика детско-родительских отношений.

Сохранить?

Пропустить...

Введите код

Ok