Критерий стьюдента комментарии. Классические методы статистики: t-критерий Стьюдента

Метод позволяет проверить гипотезу о том, что средние значения двух ге-неральных совокупностей, из которых извлечены сравниваемые зависимые вы-борки, отличаются друг от друга. Допущение зависимости чаще всего значит, что признак измерен на одной и той же выборке дважды, например, до воз-действия и после него. В общем же случае каждому представителю одной вы-борки поставлен в соответствие представитель из другой выборки (они по-парно объединены) так, что два ряда данных положительно коррелируют друг с другом. Более слабые виды зависимости выборок: выборка 1 — мужья, вы-борка 2 — их жены; выборка 1 — годовалые дети, выборка 2 составлена из близнецов детей выборки 1, и т. д.

Проверяемая статистическая гипотеза, как и в предыдущем случае, Н 0: М 1 = М 2 (средние значения в выборках 1 и 2 равны). При ее отклонении принимается альтернативная гипотеза о том, что М 1 больше (меньше) М 2 .

Исходные предположения для статистической проверки:

Каждому представителю одной выборки (из одной генеральной совокупно-сти) поставлен в соответствие представитель другой выборки (из другой генеральной совокупности);

Данные двух выборок положительно коррелируют (образуют пары);

Распределение изучаемого признака и в той и другой выборке соответству-ет нормальному закону.

Структура исходных данных: имеется по два значения изучаемого признака для каждого объекта (для каждой пары).

Ограничения: распределения признака и в той, и в другой выборке должно суще-ственно не отличаться от нормального; данные двух измерений, соответству-ющих той и другой выборке, положительно коррелируют.

Альтернативы: критерий Т-Вилкоксона , если распределение хотя бы для одной выборки существенно отличается от нормального; критерий t-Стьюдента для независимых выборок — если данные для двух выборок не корре-лируют положительно.

Формула для эмпирического значения критерия t-Стьюдента отражает тот факт, что единицей анализа различий является разность (сдвиг) значений при-знака для каждой пары наблюдений. Соответственно, для каждой из N пар значений признака сначала вычисляется разность d i = х 1 i - x 2 i .

где M d - средняя разность значений; σ d - стандартное отклонение разностей.

Пример расчета:

Предположим, в ходе проверки эффективности тренинга каждому из 8 членов груп-пы задавался вопрос «Насколько часто твое мнение совпадаете мнением группы?» — дважды, до и после тренинга. Для ответов использовалась 10-балльная шкала: 1 — никогда, 5 — в половине случаев, 10 — всегда. Проверялась гипотеза о том, что в результате тренинга самооценка конформизма (стремления быть как другие в группе) участников возрастет (α = 0,05). Составим таблицу для промежуточных вычислений (таблица 3).


Таблица 3

Среднее арифметической для разности M d = (-6)/8 = -0,75. Вычтем это значение из каждого d (предпоследний столбец таблицы).

Формула для стандартного отклонения отличается лишь тем, что вместо Х в ней фигурирует d. Подставляем все нужные значения, получаем:

σ d = = 0,886.

Ш а г 1. Вычисляем эмпирическое значение критерия по формуле (3): средняя раз-ность M d = -0,75; стандартное отклонение σ d = 0,886; t э = 2,39; df = 7.

Шаг 2. Определяем по таблице критических значений критерия t-Стьюдента р-уровень значимости. Для df = 7 эмпирическое значение находится меж-ду критическими для р = 0,05 и р — 0,01. Следовательно, р < 0,05.

df Р
0,05 0,01 0,001
2,365 3,499 5,408

Шаг 3. Принимаем статистическое решение и формулируем вывод. Статистичес-кая гипотеза о равенстве средних значений отклоняется. Вывод: показатель само-оценки конформизма участников после тренинга увеличился статистически досто-верно (на уровне значимости р < 0,05).

К параметрическим методам относится и сравнение дисперсий двух выборок по критерию F-Фишера . Иногда этот метод приводит к ценным содержатель-ным выводам, а в случае сравнения средних для независимых выборок срав-нение дисперсий является обязательной процедурой.

Для вычисления F эмп нужно найти отношение дисперсий двух выборок, причем так, чтобы большая по величине дисперсия находилась бы в числителе, а меньшая знаменателе.

Сравнение дисперсий . Метод позволяет проверить гипотезу о том, что дисперсии двух генераль-ных совокупностей, из которых извлечены сравниваемые выборки, отлича-ются друг от друга. Проверяемая статистическая гипотеза Н 0: σ 1 2 = σ 2 2 (дисперсия в выборке 1 равна дисперсии в выборке 2). При ее отклонении принимается альтернативная гипотеза о том, что одна дисперсия больше другой.

Исходные предположения : две выборки извлекаются случайно из разных ге-неральных совокупностей с нормальным распределением изучаемого признака.

Структура исходных данных: изучаемый признак измерен у объектов (ис-пытуемых), каждый из которых принадлежит к одной из двух сравниваемых выборок.

Ограничения: распределения признака и в той, и в другой выборке суще-ственно не отличаются от нормального.

Альтернатива методу: критерий Ливена (Levene"sTest), применение которого не требует проверки предположения о нормальности (используется в программе SPSS).

Формула для эмпирического значения критерия F-Фишера:

(4)

где σ 1 2 большая дисперсия, a σ 2 2 — меньшая дисперсия. Так как заранее не известно, какая дисперсия больше, то для определения р-уровня применяется Таблица критических значений для ненаправленных альтернатив. Если F э > F Kp для соответствующего числа степеней свободы, то р < 0,05 и статистическую гипотезу о равенстве дисперсий можно отклонить (для α = 0,05).

Пример расчета:

Детям давались обычные арифметические задания, после чего одной случайно выбранной половине учащихся сообщали, что они не выдержали испытания, а ос-тальным — обратное. Затем у каждого ребенка спрашивали, сколько секунд ему потребовалось бы для решения аналогичной задачи. Экспериментатор вычислял разность между называемым ребенком временем и результатом выполненного за-дания (в сек.). Ожидалось, что сообщение о неудаче вызовет некоторую неадекват-ность самооценки ребенка. Проверяемая гипотеза (на уровне α = 0,005) состояла в том, что дисперсия совокупности самооценок не зависит от сообщений об удаче или неудаче (Н 0: σ 1 2 = σ 2 2).

Были получены следующие данные:

Ш а г 1. Вычислим эмпирическое значение критерия и числа степеней свободы по формулам (4):

Шаг 2. По таблице критических значений критерия f-Фишера для ненаправлен-ных альтернатив находим критическое значение для df числ = 11; df знам = 11. Однако критическое значение есть только для df числ = 10 и df знам = 12. Боль-шее число степеней свободы брать нельзя, поэтому берем критическое значение для df числ = 10: Для р = 0,05 F Kp = 3,526; для р = 0,01 F Kp = 5,418.

Шаг 3. Принятие статистического решения и содержательный вывод. Поскольку эмпирическое значение превышает критическое значение для р = 0,01 (и тем бо-лее — для р = 0,05), то в данном случае р < 0,01 и принимается альтернативная гипо-теза: дисперсия в группе 1 превышает дисперсию в группе 2 (р < 0,01). Следователь-но, после сообщения о неудаче неадекватность самооценки выше, чем после сооб-щения об удаче.

Эквивалентным подходом к интерпретации результатов теста будет следующий: допустив, что нулевая гипотеза верна, мы можем рассчитать, насколько велика вероятность получить t -критерий, равный или превышающий то реальное значение, которое мы рассчитали по имеющимся выборочным данным. Если эта вероятность оказывается меньше, чем заранее принятый уровень значимости (например, Р < 0.05), мы вправе отклонить проверяемую нулевую гипотезу. Именно такой подход сегодня используется чаще всего: исследователи приводят в своих работах P-значение, которое легко рассчитывается при помощи статистических программ. Рассмотрим, как это можно сделать в системе R.

Предположим, у нас имеются данные по суточному потреблению энергии, поступающей с пищей (кДж/сутки), для 11 женщин (пример заимствован из книги Altman D. G. (1981) Practical Statistics for Medical Research , Chapman & Hall, London ):


Среднее значение для этих 11 наблюдений составляет:


Вопрос: отличается ли это выборочное среднее значение от установленной нормы в 7725 кДж/сутки? Разница между нашим выборочным значением и этим нормативом довольно прилична: 7725 - 6753.6 = 971.4. Но насколько велика эта разница статистически? Ответить на этот вопрос поможет одновыборочный t -тест. Как и другие варианты t -теста, одновыборочный тест Стьюдента выполняется в R при помощи функции t.test() :


Вопрос: различаются ли эти средние значения статистически? Проверим гипотезу об отсутствии разницы при помощи t -теста:

Но как в таких случаях оценить наличие эффекта от воздействия статистически? В общем виде критерий Стьюдента можно представить как

Критерий Стьюдента для независимых выборок

Критерий Стьюдента (t -тест Стьюдента или просто «t -тест») применяется, если нужно сравнить только две группы количественных признаков с нормальным распределением (частный случай дисперсионного анализа). Примечание: этим критерием нельзя пользоваться, сравнивая попарно несколько групп, в этом случае необходимо применять дисперсионный анализ. Ошибочное использование критерия Стьюдента увеличивает вероятность «выявить» несуществующие различия. Например, вместо того, чтобы признать несколько методов лечения равно эффективными (или неэффективными), один из них объявляют лучшим.

Два события называются независимыми, если наступление одного из них никак не влияет на наступление другого. Аналогично, две совокупности можно назвать независимыми, если свойства одной из них никак не связаны со свойствами другой.

Пример выполнения t -теста в программе STATISTICA.

Женщины в среднем ниже мужчин, однако, это не является результатом того, что мужчины оказывают какое-либо влияние на женщин - дело здесь в генетических особенностях пола. С помощью t- теста необходимо проверить, имеется ли статистически значимое различие между средними значениями роста в группах мужчин и женщин. (В учебных целях мы допускаем, что данные о росте подчиняются закону нормального распределения и поэтому t- тест применим).

Рисунок 1. Пример оформления данных для выполнения t-

Обратите внимание на то, как оформлены данные на рисунке 1. Как и при построении графиков типа Whisker plot или Box-whisker plot , в таблице имеются две переменные: одна из них - группирующая (Grouping variable ) («Пол») - содержит коды (муж и жен), позволяющие программе установить, какие из данных о росте принадлежат какой группе; вторая - т.н. зависимая переменная (Dependent variable ) («Рост») - содержит собственно анализируемые данные. Однако при выполнении t- теста для независимых выборок в программе STATISTICA возможен и другой вариант оформления - данные для каждой из групп («Мужчины» и «Женщины») можно ввести в отдельные столбцы (рисунок 2).

Рисунок 2. Еще один вариант оформления данных для выполнения t- теста для независимых выборок

Для выполнения t- теста для независимых выборок необходимо выполнить следующие действия:

1-а. Запустить модуль t- теста из меню Statistics > Basic statistics/Tables > t -test , independent, by groups (если в таблице с данными есть группирующая переменная, см.рисунок 3)​

ИЛИ

1-б. Запустить модуль t- теста из меню Statistics > Basic statistics/Tables > t -test, independent, by variables (если данные внесены в самостоятельные столбцы, см. рисунок 4).

Ниже описывается вариант теста, при котором в таблице с данными имеется группирующая переменная.

2. В открывшемся окне нажать кнопку Variables и указать программе, какая из переменных таблицы Sreadsheet является группирующей, а какая - зависимой (рисунки 5-6).

Рисунок 5. Выбор переменных для включения в t -тест

Рисунок 6. Окно с выбранными переменными для проведения t -теста

3. Нажать на кнопку Summary: T-tests .

Рисунок 7. Результы t -теста для независимых выборок

В итоге программа выдаст рабочую книгу Workbook , содержащую таблицу с результатами t -теста (рисунок 7 ). Эта таблица имеет несколько столбцов:

  • Mean (муж) - среднее значение роста в группе «Мужчины»;
  • Mean (жен) - среднее значение роста в группе «Женщины»;
  • t- value : значение рассчитанного программой t -критерия Стьюдента;
  • df - число степеней свободы;
  • P - вероятность справедливости гипотезы о том, что сравниваемые средние значения не различаются. Фактически, это самый главный результат анализа, поскольку именно значение P говорит, верна ли проверяемая гипотеза. В нашем примере P > 0.05, из чего можно сделать вывод о том, что статистически значимые различия между ростом мужчин и женщин отсутствуют.
  • Valid N (муж) - объем выборки «Мужчины»;
  • Valid N (жен) - объем выборки «Женщины»;
  • Std. dev . (муж) - стандартное отклонение выборки «Мужчины»;
  • Std. dev . (жен) - стандартное отклонение выборки «Женщины»;
  • F-ratio, Variances - значение F-критерия Фишера, с помощью которого проверяется гипотеза о равенстве дисперсий в сравниваемых выборках;
  • P, Variances - вероятность справедливости гипотезы о том, что дисперсии сравниваемых выборок не различаются.

Наступила осень, а значит, настало время для запуска нового тематического проекта "Статистический анализ с R". В нем мы рассмотрим статистические методы с точки зрения их применения на практике: узнаем какие методы существуют, в каких случаях и каким образом их проводить в . На мой взгляд, Критерий Стьюдента или t-тест (от англ. t-test) идеально подходит в качестве введения в мир статистического анализа. Тест Стьюдента достаточно прост и показателен, а также требует минимум базовых знаний в статистике, с которыми читатель может ознакомиться в ходе прочтения этой статьи.

Примечание_1: здесь и в других статьях Вы не увидите формул и математических объяснений, т.к. информация рассчитана на студентов естественных и гуманитарных специальностей, которые делают лишь первые шаги в стат. анализе.

Что такое t-тест и в каких случаях его стоит применять

В начале следует сказать, что в статистике зачастую действует принцип бритвы Оккамы , который гласит, что нет смысла проводить сложный статистический анализ, если можно применить более простой (не стоит резать хлеб бензопилой, если есть нож). Именно поэтому, несмотря на свою простоту, t-тест является серьезным инструментом, если знать что он из себя представляет и в каких случаях его стоит применять.

Любопытно, что создал этот метод Уильямом Госсет - химик, приглашенный работать на фабрику Guinness. Разработанный им тест служил изначально для оценки качества пива. Однако, химикам фабрики запрещалось независимо публиковать научные работы под своим именем. Поэтому в 1908 году Уильям опубликовал свою статью в журнале "Biometrika" под псевдонимом "Стьюдент". Позже, выдающийся математик и статистик Рональд Фишер доработал метод, который затем получил массовое распространение под названием Student"s t-test.

Критерий Стьюдента (t-тест) - это статистический метод, который позволяет сравнивать средние значения двух выборок и на основе результатов теста делать заключение о том, различаются ли они друг от друга статистически или нет. Если Вы хотите узнать, отличается ли средний уровень продолжительности жизни в Вашем регионе от среднего уровня по стране; сравнить урожайность картофеля в разных районах; или изменяется ли кровяное давление до и после употребления нового лекарства, то t-тест может быть Вам полезен. Почему может быть? Потому что для его проведения, необходимо, чтобы данные выборок имели распределение близкое к нормальному. Для этого существуют методы оценки, которые позволяют сказать, допустимо ли в данном случае полагать, что данные распределены нормально или нет. Поговорим об этом подробнее.

Нормальное распределение данных и методы его оценки qqplot и shapiro.test

Нормальное распределение данных характерно для количественных данных, на распределение которых влияет множество факторов, либо оно случайно. Нормальное распределение характеризуется несколькими особенностями:

  • Оно всегда симметрично и имеет форму колокола.
  • Значения среднего и медианы совпадают.
  • В пределах одного стандартного отклонения в обе стороны лежат 68.2% всех данных, в пределах двух - 95,5%, в пределах трех - 99,7%

Давайте создадим случайную выборку с нормальным распределением на , где общее количество измерений = 100, среднее арифметическое = 5, а стандартное отклонение = 1. Затем отобразим его на графике в виде гистограммы:

mydata <- rnorm(100, mean = 5, sd = 1) hist(mydata, col = "light green")

Ваш график может слегка отличаться от моего, так как числа сгенерированы случайным образом. Как Вы видите, данные не идеально симметричны, но кажется сохраняют форму нормального распределения. Однако, мы воспользуемся более объективными методами определения нормальности данных.

Одним из наиболее простых тестов нормальности является график квантилей (qqplot) . Суть теста проста: если данные имеют нормальное распределение, то они не должны сильно отклоняться от линии теоретических квантилей и выходить за пределы доверительных интервалов. Давайте проделаем этот тест в R.

пакета "car" в среду R qqPlot(mydata) #запустим тест

Как видно из графика, наши данные не имеют серьезных отклонений от теоретического нормального распределения. Но порой при помощи qqplot невозможно дать однозначный ответ. В этом случае следует использовать тест Шапиро-Уилка , который основан на нулевой гипотезе, что наши данные распределены нормально. Если же P-значение менее 0.05 (p-value < 0.05), то мы вынуждены отклонить нулевую гипотезу. P-значение в этом случае будет говорить о том, что вероятность ошибки при отклонении нулевой гипотезы будет равна менее 5%.

Провести тест Шапиро-Уилка в R не составит труда. Для этого нужно всего лишь вызвать функцию shapiro.test, и в скобках вставить имя ваших данных. В нашем случае p-value должен быть значительно больше 0.05, что не позволяет отвергнуть нулевую гипотезу о том, что наши данные распределены нормально.

Запускаем t-тест Стьюдента в среде R

Итак, если данные из выборок имеют нормальное распределение, можно смело приступать к сравнению средних этих выборок. Существует три основных типа t-теста, которые применяются в различных ситуациях. Рассмотрим каждый из них с использованием наглядных примеров.

Одновыборочный критерий Стьюдента (one-sample t-test)

Одновыборочный t-тест следует выбирать, если Вы сравниваете выборку с общеизвестным средним. Например, отличается ли средний возраст жителей Северо-Кавказского Федерального округа от общего по России. Существует мнение, что климат Кавказа и культурные особенности населяющих его народов способствуют продлению жизни. Для того, чтобы проверить эту гипотезу, мы возьмем данные РосСтата (таблицы среднего ожидаемого продолжительности жизни по регионам России) и применим одновыборочный критерий Стьюдента. Так как критерий Стьюдента основан на проверке статистических гипотез, то за нулевую гипотезу будем принимать то, что различий между средним ожидаемым уровнем продолжительности по России и республикам Северного Кавказа нет. Если различия существуют, то для того, чтобы считать их статистически значимыми p-value должно быть менее 0.05 (логика та же, что и в вышеописанном тесте Шапиро-Уилка).

Загрузим данные в R. Для этого, создадим вектор со средними значениями по республикам Кавказа (включая Адыгею). Затем, запустим одновыборочный t-тест, указав в параметре mu среднее значение ожидаемого возраста жизни по России равное 70.93.

rosstat <-c(79.42, 75.83, 74.16, 73.91, 73.82, 73.06, 72.01) qqPlot(rosstat) shapiro.test(rosstat) t.test(rosstat, mu = 70.93)

Несмотря на то, что у нас всего 7 точек в выборке, в целом они проходят тесты нормальности и мы можем на них полагаться, так как эти данные уже были усреднены по региону.

Результаты t-теста говорят о том, что средняя ожидаемая продолжительность жизни у жителей Северного Кавказа (74.6 лет) действительно выше, чем в среднем по России (70.93 лет), а результаты теста являются статистически значимыми (p < 0.05).

Двувыборочный для независимых выборок (independent two-sample t-test)

Двувыборочный t-тест используется, когда Вы сравниваете две независимые выборки . Допустим, мы хотим узнать, отличается ли урожайность картофеля на севере и на юге какого-либо региона. Для этого, мы собрали данные с 40 фермерских хозяйств: 20 из которых располагались на севере и сформировали выборку "North", а остальные 20 - на юге, сформировав выборку "South".

Загрузим данные в среду R. Кроме проверки нормальности данных, будет полезно построить "график с усами", на котором можно видеть медианы и разброс данных для обеих выборок.

North <- c(122, 150, 136, 129, 169, 158, 132, 162, 143, 179, 139, 193, 155, 160, 165, 149, 173, 173, 141, 166) qqPlot(North) shapiro.test(North) South <- c(170, 163, 178, 150, 166, 142, 157, 149, 151, 164, 163, 161, 159, 139, 180, 155, 144, 139, 151, 160) qqPlot(North) shapiro.test(North) boxplot(North, South)

Как видно из графика, медианы выборок не сильно отличаются друг от друга, однако разброс данных гораздо сильнее на севере. Проверим отличаются ли статистически средние значения при помощи функции t.test. Однако в этот раз на место параметра mu мы ставим имя второй выборки. Результаты теста, которые Вы видите на рисунке снизу, говорят о том, что средняя урожайность картофеля на севере статистически не отличается от урожайности на юге (p = 0.6339).

Двувыборочный для зависимых выборок (dependent two-sample t -test )

Третий вид t-теста используется в том случае, если элементы выборок зависят друг от друга . Он идеально подходит для проверки повторяемости результатов эксперимента: если данные повтора статистически не отличаются от оригинала, то повторяемость данных высокая. Также двувыборочный критерий Стьюдента для зависимых выборок широко применяется в медицинских исследованиях при изучении эффекта лекарства на организм до и после приема.

Для того, чтобы запустить его в R, следует ввести все ту же функцию t.test . Однако, в скобках, после таблиц данных, следует ввести дополнительный аргумент paired = TRUE . Этот аргумент говорит о том, что Ваши данные зависят друг от друга. Например:

t.test(experiment, povtor.experimenta, paired = TRUE) t.test(davlenie.do.priema, davlenie.posle.priema, paired = TRUE)

Также в функции t.test существует два дополнительных аргумента, которые могут улучшить качество результатов теста: var.equal и alternative . Если вы знаете, что вариация между выборками равна, вставьте аргумент var.equal = TRUE . Если же вы хотите проверить гипотезу о том, что разница между средними в выборках значительно меньше или больше 0, то введите аргумент alternative="less" или alternative="greater" (по умолчанию альтернативная гипотеза говорит о том, что выборки просто отличаются друг от друга: alternative="two.sided" ).

Заключение

Статья получилась довольно длинной, зато теперь Вы знаете: что такое критерий Стьюдента и нормальное распределение; как при помощи функций qqplot и shapiro.test проверять нормальность данных в R; а также разобрали три типа t-тестов и провели их в среде R.

Тема для тех, кто только начинает знакомиться со статистическим анализом - непростая. Поэтому не стесняйтесь, задавайте вопросы, я с удовольствием на них отвечу. Гуру статистики, пожалуйста поправьте меня, если где-нибудь допустил ошибку. В общем, пишите Ваши комментарии, друзья!

Чаще всего в психологическом исследовании наблюдается задачи на выявление различий между двумя или более группами признаков. Выяснение таких различий на уровне средних арифметических рассмотрено в процедуре анализа первичных статистик. Однако возникает вопрос, насколько эти различия достоверны и можно ли их распространить (экстраполировать) на всю популяцию. Для решения этой задачи чаще всего используют (при условии нормального или близкого к нормальному распределению) t - критерий (критерий Стьюдента), который предназначен для выяснения, насколько достоверно отличаются показатели одной выборки испытуемых от другой (например, когда исследуемые получают в результате тестирования одной группы высшие баллы, чем представители другой). Это параметрический критерий, имеет две основные формы:

1) несвязанный (нечетная) t - критерий, предназначенный для того, чтобы выяснить, есть ли различия между оценками, полученными при использовании одного и того же теста для тестирования двух групп, сформированных из разных людей. Например, это может быть сравнение уровня интеллекта или нервно-психической устойчивости, тревожности успевающих и неуспевающих учеников или сравнение по этим признакам учеников разных классов, возрастов, социальных уровней и тому подобное. Могут быть и разнополые, разнонациональные выборки, а также подвыборки в исследуемых выборках, выделены по определенному признаку. Критерий называют "несвязанный", потому что сравниваемые группы сформированы из разных людей;

2) связан (парный) t - критерий, применяемый для сравнения показателей двух групп, между элементами которых существует специфическая связь. Это означает, что каждому элементу первой группы соответствует элемент второй группы, похожий на него по определенным параметром интересующей исследователя. Чаще всего сравнивают параметры одних и тех же лиц до и после определенного события или действия (например, в процессе проведения лонгитюдного исследования или формирующего эксперимента). Поэтому этот критерий используют для сравнения показателей одних и тех же лиц до и после обследования, эксперимента или истечении определенного времени.

Если данные не подлежат нормальному закону распределения, используют непараметрические критерии, эквивалентные t - критерия: критерий Манна - Уитни, эквивалентный нечетном t - критерия, и Двухвыборочный критерий Вилкоксона, эквивалентный парном t - критерия.

С помощью t - критериев и их непараметрических эквивалентов можно только сравнивать результаты двух групп, полученные с использованием одного и того же теста. Однако в некоторых случаях возникает необходимость сравнения нескольких групп или оценок нескольких видов. Это можно сделать поэтапно, разбив задачу на несколько пар сравнений (например, если надо сравнить группы А, Б и Y по результатам тестов X и Y, то можно с помощью t - критерия сначала сравнить группы А и Б по результатам теста X, затем А и Б по результатам теста В, А и В по результатам теста Х и т. д.). Однако это очень трудоемкий метод, поэтому прибегают к более сложному методу дисперсионного анализа.

Метод оценки достоверности различий средних арифметических по достаточно эффективным параметрическим критерием Стьюдента предназначен для решения одной из задач, чаще всего наблюдаются при обработке данных - выявление достоверности различий между двумя или более рядами значений. Такая оценка часто необходимо при сравнительном анализе полярных групп. их выделяют на основе различной выраженности определенной целевой признаки (характеристики) изучаемого явления. Как правило, анализ начинают с подсчета первичных статистик выделенных групп ", затем оценивают достоверность различий. Критерий Стьюдента вычисляют по формуле:

Значение критерия Стьюдента для трех уровней доверительной (статистической) значимости (р) приводят в справочниках по матстатистику. Количество степеней свободы определяют по формуле:

С уменьшением объемов выборок (n <10) критерий Стьюдента становится чувствительным к форме распределения исследуемого признака в генеральной совокупности. Поэтому в сомнительных случаях рекомендуют использовать непараметрические методы или сравнивать полученные значения с критическими (табл. 2.17) для высшего уровня значимости.

Решение о достоверности различий принимают в том случае, если исчисленная величина t превышает табличное значение для определенного количества степеней свободы (d (v)). В публикациях или научных отчетах указывают высокий уровень значимости из трех: р <0,05; р <0,01; р <0,001.

При любом числового значения критерия достоверности различия между средними этот показатель оценивает не степень выявленной различия (ее оценивают по самой разницей между средними), а только его статистическую достоверность, то есть право распространять полученный на основе сопоставления выборок вывод о наличии разницы на все явление (весь процесс) в целом. Низкий исчисленный критерий отличия не может служить доказательством отсутствия различия между двумя признаками (явлениями), потому что его значимость (степень достоверности) зависит не только от величины средних, но и от количества сравниваемых выборок. Он указывает не на отсутствие различия, а на то, что при такой величины выборок она статистически недостоверная: очень большой шанс, что разница в этих условиях случайная, очень мала вероятность ее достоверности.

Таблица 2.17. Доверительные границы для критерия Стьюдента (t-критерий) для f степеней свободы

ния среднего времени выполнения задания во второй попытке (по сравнению с первой пробой) не является достоверным.

Это выражение не равносильно утверждению о статистической однородности двух выборок, которые сопоставляют. Кроме того, применение критерия Стьюдента в случае таких неодинаковых выборок не вполне корректное математически и, безусловно, сказывается на конечном итоге о недостоверности различий Хср = 9,1 и Хср = 8,5. Пользуясь этим критерием, оценивают не степень близости двух средних, а рассматривают отнесения или невод несения случайной (при заданном уровне значимости). .