Надежность тестов*
Надежность — это характеристика психодиагностической методики, отражающая точность психодиагностических измерений, а также устойчивость (стабильность) результатов теста к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психологического исследования.
Наибольшая стабильность результатов наблюдается при применении графических и графологических тестов, показатели которых меняются крайне медленно. Медленно изменяется почерк, практически неизменными остаются качество линий рисунков и их композиция.
Наибольшая динамичность показателей наблюдается у интеллектуальных тестов, которые напрямую зависят от способности человека накапливать и перерабатывать информацию.
На устойчивость (стабильность) показателей теста влияют следующие факторы:
состояние и настроение обследуемых;
мотивация испытуемых к тестированию;
эргономические факторы (освещенность, температура в помещении, вибрация, шумы и пр.);
характеристика деятельности (монотонность-динамичность, помехи и др.);
степень обучаемости (или натренированности) испытуемых и др.
Надежность результатов тестирования зависит также от а) изменчивости инструмента психологического измерения и б) факторов стабильности самой процедуры измерения. Таким образом, надежность есть степень согласованности результатов тестирования, получаемых при первом и последующих измерениях.
На практике наиболее широко применяются шесть типов надежности: надежность ретестовая (тест-ретест надежность); надежность параллельных форм; надежность частей теста (надежность как гомогенность тестов); надежность по Кудеру — Ричардсону; надежность интерпретатора («оценщика») и стандартная ошибка измерений.
Определение коэффициента надежности в первых двух случаях вычисляется по формулам расчетов коэффициентов корреляции (в зависимости от шкалы, в которой измерены данные) между первым и последующим измерениями или между параллельными формами теста.
Расчет коэффициента надежности при исследовании гомогенности теста осуществляется путем разбиения теста на равные субтесты и расчета корреляции между этими частями. Для определения общей надежности теста полученные коэффициенты корреляции вводятся в формулу Спирмена — Брауна:
Rxx = 2R / 1 + R, [30]
где R — корреляция «половин» теста.
Если части теста являются отдельными дихотомическими заданиями, например вопросами, на которые может быть два ответа (да или нет), или заданиями с оценкой результата как правильного, так и неправильного, используется формула:
Rxx = (K / K — 1) (1 — (pi q i)/ x2), [31]
где pi — доля 1-го варианта ответа на i-й вопрос; q i — доля 2-го варианта на i-й вопрос.
Надежность частей теста может также рассчитываться по формуле Кудера — Ричардсона:
Rxx = (K / K — 1)*(1 — ( x i2)/ x2); [32]
где К — количество равных частей теста; x i2 — дисперсия i-й части теста; x2 — дисперсия целого теста.
При работе с клиническими опросниками, тестами креативности и проективными технологиями надежность методик определяется путем сравнения интерпретаций результатов двумя или более экспертами-психологами. Высокие коэффициенты корреляции между ними показывают надежность тестовой оценки.
Коэффициенты надежности психологических измерений представляют собой величину дисперсии показателей, которая вычисляется путем возведения коэффициента корреляции в квадрат. Интерпретируется он следующим образом. Например, коэффициент корреляции между параллельными формами теста равен 0.75. Коэффициент надежности расчитывается так: 0.752 = 0.56. Это означает, что 56% дисперсии исследуемых тестовых данных зависят от истинной дисперсии признаков (данных параллельного теста), а 44% — от ошибок или случайных переменных.
Разберем гипотетический пример определения надежности двух форм теста** в ходе исследования креативности 100 школьников. В результате коэффициент надежности взаимозаменяемых форм с интервалом ретестирования две недели составил 0.7. Была вычислена надежность-гомогенность тестов при помощи формулы Спирмена — Брауна, которая составила 0.8. Надежность интерпретации («оценщика») с привлечением второго специалиста-психолога была равна 0.92. Анализ источников дисперсии ошибок показан в таблице.
Анализ источников дисперсии ошибок в исследуемом тесте | |
По надежности взаимозаменяемых форм (с временным интервалом две недели) | 1 — 0.7 = 0.3 (ошибка ретеста + ошибка гомогенности) |
По надежности эквивалентных половин теста (формула Спирмена — Брауна) | 1 — 0.8 = 0.2 (ошибка гомогенности) |
Разность | 0.3 — 0.2 = 0.1(ошибка ретеста) |
По надежности интерпретации («оценщика») | 1 — 0.92 = 0.08 (различия между интерпретациями) |
Суммарная оценка дисперсии ошибок 0.2 + 0.1 + 0.08 = 0.38 | |
Истинная дисперсия 1 — 0.38 = 0.62 |
Результаты исследования надежности теста креативности можно представить схематично в процентном распределении дисперсии показателей теста.
«Истинная» дисперсия: 62% | Дисперсия ошибок: 38% | ||
Временная устойчивость; согласованность форм; независимость от различий между интерпретациями («оценщиками»). | Ошибка гомогенности: 20% | Ошибка ретеста: 10% | Различия между интерпретациями: 8% |
Надежность теста можно выразить посредством расчета стандартной ошибки измерений — SEM (стандартная ошибка показателя)*. Она расчитывается по формуле [33].
SEM = δx √ 1 — Rxx, [33]
где δx — стандартное отклонение показателей теста;
Rxx — значение коэффициента надежности.
Физический смысл SEM заключается в определении дисперсии показателей конкретного теста вокруг “истинного показателя”, которая характеризуется плотностью нормального распределения данных. Если, например, 68% всех случаев нормального распределения психологических данных попадает в интервал Mx + δx , то примерно два шанса против одного (68 : 32), что ошибка измерений будет “колебаться” в пределах + 1 SEM. При увеличении плотности распределения данных, например — Mx + 3 SEM, увеличивается и вероятность предсказания (99.7 : 0.3) при соответствующем росте интервала ошибки в обе стороны.
Пример: расчитаем стандартную ошибку измерений при помощи тестов CFIT и Равена. Интеркорреляция между показателями тестов составляет 0.81. Стандартное отклонение — 15. Результирующий показатель исследуемой методики CFIT равен, допустим, 110 IQ-баллов.
SEM = 15 * √ 1 — 0.81 = 6.5
Это означает, что при определении “истинного” IQ и соотношении шансов удачного предсказания истины 2:1 (или 68 : 32) ошибка будет колебаться в интервале + 1.5 IQ-баллов. И «истинный» показатель теста находится в пределах от 103.5 до 116.5.
При увеличении вероятности прогноза до соотношения 99.7 : 0.3 (3 + δx) ошибка возрастает до + 19.5, а “истинный” показатель займет место между 90.5 и 129.5.
Таким образом, надежность, валидность и прогностичность эмпирических данных дают возможность измерять психологические переменные на соответствующем уровне достоверности, который диктуется практикой социальных исследований.
- Введение
- Глава 1 История и методология психодиагностического исследования
- 1.1. История развития
- 1.2. Предмет и место психодиагностики в системе психологических наук
- С включением психодиагностического измерения
- Основные методы психологических исследований и их варианты
- Классификация психодиагностических методик на базе комплексного предметно-технологического подхода
- Глава 2 Психометрические аспекты разработки, адаптации и использования тестов
- 2.1. Понятие о психологическом измерении
- Виды измерения**
- Уровни измерения
- Непараметрические шкалы
- Сопоставление профессионально значимых качеств двух профессий
- Профессии значимо сопряжены — подобны.
- Параметрические шкалы
- 2.2. Применение статистических методов в психологических измерениях
- Распределение эмпирических данных
- Распределение Гаусса
- Относительно теоретической кривой (распределение Гаусса)
- Эмпирические данные, полученные в результате исследования
- Применение непараметрической и параметрической статистики при обработке эмпирических данных**
- Частотное распределение психографических признаков по группам акцентуаций характера
- Вывод: успешность деятельности операторов определяется их уровнем интеллекта, измеренном в iq.
- Квантили t-распределения Стъюдента для доверительной вероятности
- Тестовые (сырые) показатели методики сад
- 2.3. Стандартизация тестовых показателей
- Глава 3 Тестология
- 3.1. Классификация психологических тестов
- Класс: Объективные методики. Измерение результативности и способа (особенностей) выполнения деятельности Подкласс: Тесты личности (особенности интеллекта)
- Подкласс: Тесты интеллекта (уровень развития интеллекта) Тесты способностей:
- Тесты достижений:
- Критериально-ориентировочные тесты:
- Класс: Субъективные методики. Измерение на основе информации,
- Данной испытуемым о себе
- Подкласс: Личностные и специальные опросники
- Характерологические и клинические опросники:
- Мотивационные опросники:
- Опросники оценки эмоционально-волевых качеств:
- Опросники оценки коммуникативных качеств:
- Подкласс: Конструктивные проективные методики
- Подкласс: Интерпретационные проективные методики
- Подкласс: Катартические проективные методики
- Подкласс: Экспрессивные проективные методики
- Подкласс: Импрессивные проективные методики
- Подкласс: Аддитивные проективные методики
- Подкласс: Семантические проективные методики
- 3.2. Требования к разработчикам и пользователям тестов*
- Требования к психодиагностическим методикам
- Требования к пользователям:
- 3.3. Проблемы объективности психодиагностической информации
- Валидность тестов
- Надежность тестов*
- 3.4. Разработка, адаптация и использование психодиагностических методик (тестов)
- Разработка и адаптация
- Интеллектуального теста-технологии сад
- Экспериментально-теоретическое обоснование
- Технологии сад
- Примерная инструкция к субтесту "ст"(первое задание сад)
- Работайте самостоятельно! Желаем удачи! Примерная инструкция к субтесту «сам» (второе задание сад)
- Работайте самостоятельно! Желаем удачи! Регистрационный бланк сад
- Величина коэффициентов надежности (Rхх) тпа-сад
- Содержание и психологическая интерпретация комплексных критериев семантического анализа понятийно-смысловой структуры
- Оценка распределения эмпирических данных методики сад
- Величина показателей методики сад по критерию обч
- Количественная и качественная характеристика первоначальной экспериментальной выборки
- Характеристики экспериментальных групп по результатам тпа-сад
- Характеристики экспериментальных групп по структуре стратегий мышления по результатам тпа-сад (% совпадения)
- Данные расчета критерия согласия Пирсона (χ2) между показателями тпа-сад при перекрестной валидизации
- Разработка и адаптация семантического дифференциала "божественного откровения" (сдо)
- Расчет весового балла дифференцирующих понятий относительно «смысловых терминов-полюсов»
- Регистрационный бланк Фамилия и.О.__________________Подразделение________________
- Разработка психодиагностической батареи тестов в целях профотбора
- Б) Процедура тестирования.
- По количеству правильных ответов испытуемого
- Результатов расчета производительности испытуемого при выполнении теста**
- По положительным и отрицательным значениям
- По положительным оценкам (Объем экспериментальной выборки 8 тыс. Человек)
- Описание смыслового значения факторов
- Эмпирические данные
- 3.5. Процедура психологического обследования
- Инструктирование испытуемых перед началом и в ходе тестирования*
- 3.6. Психодиагностика индивида и группы* Индивидуальная психодиагностика
- Индивидуальная карта психологического сопровождения
- Определение коэффициента интеллекта (iq)
- Графический тест к. Коха
- Тест цветовых выборов
- 4. Психографологический анализ
- 5. Тест mmpi (модификация)
- Семантический дифференциал
- Результаты обследования сотрудника
- Психодиагностика группы
- Отчет о проведенном исследовании межличностных отношений в фирме "х"
- Рейтинговые социально-психологические показатели
- Глава 4
- 4.2 Концептуальный подход к автоматизации психологических исследований
- Индивидуальные особенности активных пользователей
- Проблемы развития прикладных психологических исследований с использованием компьютеров
- Классификация автоматизированных средств психодиагностики
- Заключение
- Контрольные вопросы по курсу «Основы психодиагностики»
- Литература