Надежность теста: типы, критерии проверки

1 Понятие надежности

2 Типы, критерии проверки

К числу основных критериев оценки психодиагностических методик относится надежность и валидность. Большой вклад в разработку этих понятии внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.).

1 Надежность – это критерий качества теста, выражающий точность психологических изменений, а также устойчивость результатов к действию посторонних случайных факторов. Например, результат измерения такого лабильного признака как настроение, не может быть таким же надежным (точным) как результат измерения более стабильного признака, скажем знаний орфографии.

Точность измерений определяется с помощью корреляционных методов статистики. При этом используются формулы вычисления корреляции Пирсона, Спирмена и др. Например, одним из известных коэффициентов корреляции является коэффициент корреляции Спирмена (в случае порядковых шкал).

По математическому смыслу  меняется в пределах от –1 до 1. (–1≤ρ≤1).

Обычно в тестологической практике редко удается достичь больше 0,7 или 0,8. Часто их называют коэффициентом надежности.

Что касается устойчивости результата психодиагностического исследования, то надо учитывать следующее. Результат обычно подвержен влиянию большого количества трудно учитываемых факторов (например, эмоциональное состояние и утомление, освещенность и температура в помещении, где проводится исследование, уровень мотивирования испытуемых на обследование и др.). Любое изменение ситуации исследования усиливает влияние одних и ослабляет воздействие других факторов на результат теста. Таким образом, может возникнуть ошибка измерения, обусловленная двумя источниками: лабильностью (изменчивостью) самого измеряемого свойства и нестабильностью измерительной процедуры. Вот почему важнейшим средством повышения надежности теста является стандартизация процедуры исследования (т.е. регламентация обстановки и условий работы испытуемого, характера инструкции, временных ограничений, способов и особенностей контактов с испытуемыми, порядка предъявления стимульного материала, получения сырых баллов).

Вообще же в процессе доказательства надежности теста точность и устойчивость рассматриваются взаимосвязано. Статистические процедуры (корреляционные методы) позволяют определить точность и согласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его задач.

2 Вот почему в понятии «надежность теста» принято выделять 3 главных аспекта соответственно трем разным процедурам вычисления коэффициента надежности:

  1. Надежность-устойчивость (ретестовая надежность);

  2. Надежность-эквивалентность (надежность параллельных форм);

  3. Надежность-согласованность (надежность частей теста).

Надежность-устойчивость измеряется путем повторного проведения теста на той же выборке испытуемых (выборке стандартизации). Отсюда его второе название – ретестовая надежность. Обычно временной разрыв между исследованиями составляет 2 недели. Замечено, что с увеличением показатели корреляции имеют тенденцию к снижению. Это связано с тем, что измеряемое свойство нестабильно, развивается, могут наступить и возрастные изменения, а также произойти события, влияющие на состояние исследуемых качеств. Однако в некоторых случаях повторный тест проводят и через более длинный временной промежуток, например, в целях оценки прогностической валидности.

К недостаткам тест-ретеста относится то, что при непродолжительном временном разрыве у испытуемых может формироваться навык работы с психодиагностической методикой, приводящий к улучшению индивидуальных результатов. Еще более заметное воздействие на проверку надежности может оказать запоминание испытуемыми отдельных решений. В этих случаях результаты двух предъявлений теста не будут независимыми, а коэффициент корреляции, характеризующий степень надежности, окажется завышенным. Надо также учитывать и то, что при конструировании теста для измерения эмоциональных состояний (например, тревоги) требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Надежность-эквивалентность определяется путем применения 2-х эквивалентных форм теста к одной и той же выборке.Эквивалентными формами теста принято называть два теста с тождественным психологическим содержанием, стимульные части которых, однако, отличаются друг от друга по внешнему оформлению. Поэтому этот вид надежности называется по-другому надежность параллельных форм. Понятно, что количество заданий в двух тестах при конструировании должно быть одинаковым; задания должны быть уравновешены по трудности; оба теста должны иметь примерно равные средние и стандартные отклонения; процедура применения тестов и техника оценивания результатов должны быть унифицированы (стандартизованность).

Применение параллельных форм теста помогает избежать недостатков ретестовой валидности. 1). Т.к. в параллельных формах используются разные, хоть и эквивалентные задачи, возможность тренировки и запоминания исключается. 2). Преимуществом процедуры является также и то, что можно значительно сократить временной интервал, практически применив оба теста друг за другом.

Получение высокого коэффициента корреляции между двумя формами является доказательством только как эквивалентности их психологического содержания (взаимозаменяемости), но так и одновременно высокой надежности теста в целом. Понятно, что получение низких корреляций между первым и вторым тестированиями свидетельствует о плохой надежности применявшихся вариантов.

Надежность-согласованностьопределяется путем «расщепления» теста на две части и вычисления коэффициента корреляции между оценками, полученными по каждой из этих частей. Поэтому этот показатель иногда называют надежностью частей теста.

Чаще всего метод «расщепления» теста на половины осуществляется путем объединения в одной половине всех четных, а в другой – всех нечетных заданий. Обоснованием такой процедуры является положение о том, что при нормальном распределении оценок по полному тесту выполнение случайного набора заданий из частей теста дает аналогичное распределение.

Высокий коэффициент корреляции между частями теста говорит о его гомогенности (однородности). И это является выражением надежности теста, внутренней согласованности тестовых задач.

Преимуществами надежности-согласованности по сравнению с ретестовой надежностью и надежностью параллельных форм является отсутствие необходимости в повторном обследовании, экономия времени, снятие эффекта упражнения, памяти и др.

Этот способ расчета надежности практически сливается с содержательной валидацией разрабатываемого теста.

Недостатком метода является невозможность установить устойчивость результатов теста спустя определенное время. Это требует комбинирования надежности-согласованности с другими процедурами определения надежности психодиагностической методики.

Для эффективного использования теста необходимо узнать, существуют ли данные о процедурах определения надежности, что собою представляет выборка стандартизации и в какой диагностической ситуации проводилась проверка. Если проверки не было, психологу придется провести ее в соответствии с описанными критериями.