Валидность тестов
Валидностью как элементом достоверности психодиагностического измерения свойств субъекта называется мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности человека. В теории психометрии определяют два основных типа и по крайней мере одиннадцать видов валидности методик (см. рис. 7).
Рис. 7. Структура валидности
Различают два типа валидности — внешнюю и внутреннюю*. Внешняя валидность есть мера возможности распространения результатов тестирования на генеральную совокупность**. Внешняя валидизация осуществляется путем расчета репрезентативности экспериментальной выборки при отработке теста и перекрестной валидизации, то есть определения валидности теста на выборке, отличающейся от той, на которой отрабатывался стимульный материал и задания к тесту.
Репрезентативность выборки — это представительность экспериментальной выборки, которая отражает основные свойства генеральной совокупности. Репрезентативность определяется путем сопоставления качественных и количественных характеристик экспериментальной выборки с характеристиками исследуемой популяции с целью определения их однородности.
К качественным характеристикам могут быть отнесены социально-демографические, видовые, интеллектуальные (образовательные), профессиональные и другие характеристики популяции (группы), которые являются предметом исследования или существенно влияют на него.
Количественная характеристика экспериментальной группы — это минимальная ее численность, сохраняющая свойства генеральной совокупности. Формирование репрезентативной выборки по количественному признаку осуществляется при помощи теоремы П.А. Чебышева о вероятности ошибки репрезентативности, которая гласит: "С вероятностью сколь угодно близкой к единице можно утверждать, что при достаточно большом числе независимых наблюдений выборочная средняя будет сколь угодно мало отличаться от генеральной средней" и далее (следствие 1 из теоремы П.Л. Чебышева) «...что с вероятностью, как угодно близкой к единице («практически достоверно»), выборочная доля будет как угодно мало отличаться от генеральной доли, если объем выборки достаточно велик»***.
В психологической литературе существует несколько теоретических подходов к расчету объема минимально репрезентативной выборки****. Часто приводятся таблицы опытно полученных данных*****. Так, С. Москвин отмечает, что при объемах генеральной совокупности 400, 500, 1000, 2000, 5000, 10000 и более 10 тыс. человек минимальная выборка составляет соответственно 200, 222, 286, 333, 370, 398 и 400 испытуемых (указ. публ., с. 28). Г. Лоза указывает на следующее соотношение генеральной совокупности и объема экспериментальной выборки при проведении социологических исследований 100/16-17 чел., 300/50 чел., 1000/100 чел. и 5000/200 испытуемых. В лекции А. Гончарова минимальная репрезентативная выборка относительно генеральной совокупности соответственно составляет: 500/222, 1000/286, 2000/333, 3000/350, 4000/360, 5000/370, 10 000/385, 100 000/398 и более 100 000 — 400 респондентов.
В ходе анализа психологических данных для расчета объема минимальной репрезентативной выборки используются следующие формулы:
1) формула расчета объема минимальной репрезентативной выборки* при нахождении доли элементов генеральной совокупности, обладающих некоторым признаком (номинальная измерительная шкала):
n = [N*t2*p*q] / [N*2 + t2* p*q]; [22]
2) формула расчета объема минимальной репрезентативной выборки** при нахождении средней признака (интервальная измерительная шкала):
n = [N*t2*2] / [N*2 + t2*2]; [23]
3) формула расчета объема минимальной репрезентативной выборки***:
n = [(t*/)2] / [1 + 1 / N (t*/)2], [24]
где n — объем минимальной репрезентативной выборки испытуемых;
t — коэффициент кратности ошибки, связанный с вероятностью гарантии ошибки выборочного наблюдения (величина t-критерия Стъюдента);
— величина стандартного отклонения;
— размер ошибки доверительного интервала измерения признаков;
N — объем генеральной совокупности;
р — частота проявления данного признака;
q = 1 — р.
Практическое задание. Рассчитать объем минимально-репрезентативной выборки испытуемых, если объем генеральной совокупности 5000 чел., а вероятность проявления исследуемого признака ("угадывания" при помощи теста) — 0.8.
Дано: t — коэффициент кратности ошибки, связанный с вероятностью (Рt), с которой требуется гарантировать результаты выборочного наблюдения; — размер ошибки доверительного интервала измерения признаков = 0,05; N — объем генеральной совокупности = 5000 ; р — частота проявления данного признака = 0.8; q = 1 — р = 0.2.
Определить: n — минимально необходимую численность экспериментальной выборки.
1.982*0.8*(1 — 0.8)*5 000
n = = 235;
0.052*5 000 + 1.982 0.8*(1 — 0.8)
Ответ: n = 235.
Вывод: При повышении достоверности измерений происходит заметное уменьшение объема минимально репрезентативной выборки. Аналогичное влияние отказывает точность измерений ().
Перекрестная валидизация производится путем апробации теста на выборке, отличной от экспериментальной. Перекрестная валидизация осуществляется для того, чтобы определить границы применения методики по критерию "характеристика популяции" (для определения уровня развития свойства у детей, подростков, мужчин-женщин, определенной группы специалистов и т. д.). В ходе перекрестной валидизации рассчитываются коэффициенты корреляции между одними и теми же показателями, полученных в результате тестирования разных групп испытуемых. Вывод о возможности применения теста на данной популяции делается при помощи параметрических критериев (t-критерий Стъюдента, — критерий Уэлша).
Практическое задание. Рассчитать объем экспериментальной выборки по критерию обучаемости испытуемых (применялся тест ОСО*).
Дано:
Группа 1 (школьники 9-го класса — 15 лет):
Количество испытуемых n=471
Среднее значение показателя Мх = 3.75
Среднеквадратическое отклонение = 1.4
Группа 2 (школьники 10-го класса — 16 лет):
Количество испытуемых n=178
Среднее значение показателя Мх = 3.66
Среднеквадратическое отклонение = 0.8
Группа 3 (курсанты училища связи — 18 лет):
Количество испытуемых n=104
Среднее значение показателя Мх = 3.20
Среднеквадратическое отклонение = 1.1
Решение: Для расчетов используется формула t-критерия:
Мх1 — Мх2
tР= ;
[(n1 — 1) х12 + (n2 — 1) х2 2 / (n1 + n2 — 2)] (1/ n1 +1/n2)
1) t1-2 = 0.82 н/р** < tт
2) t2-3 = 5.75 р*** > tт
3) t1-3 = 7.86 р > tт
4) tт = 1.98
Ответ: n = 649.
Вывод: в результате расчетов выявлено значимое различие показателей обучаемости между первой и третьей и между второй и третьей исследованными группами, которые не могут считаться однородными и составлять единую совокупность. Только между первой и второй выборками по данному критерию не существует значимых различий (р<0.05). В целях проверки валидности первую и вторую группы можно объединить в одну экспериментальную выборку и считать единой популяцией в количестве 649 человек.
Уяснив содержание внешней валидности методик, перейдем к рассмотрению аспектов внутренней валидности.
Внутренняя валидность — это мера соответствия тестовых оценок уровню развития измеряемого свойства. Она состоит по крайней мере из пяти элементов:
а) концептуальная (теоретическая) валидность — теоретическое обоснование возможности измерения исследуемого свойства данным психодиагностическим средством;
б) содержательная валидность — степень репрезентативности содержания заданий теста измеряемой области психических свойств;
в) конструктная валидность — степень репрезентативности исследуемого психологического конструкта в результатах теста ("насколько результаты теста рассматриваются в качестве меры исследуемого психологического конструкта — фактора, свойства")*;
г) операционная валидность — степень репрезентативности в конкретных экспериментальных операциях реальных операциональных условий психической деятельности;
д) эмпирическая валидность — совокупность характеристик валидности теста, полученная сравнительным статистическим способом оценивания. К этим характеристикам относятся так называемые очевидная и критериальная виды валидности.
Очевидная валидность — это представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого и другого лица, не располагающего специальными сведениями о характере использования и целях методики.
Критериальная валидность — комплекс характеристик, включающий текущую и прогностическую валидности методики и отражающий соответствие диагноза и прогноза определенному кругу критериев развития измеряемого свойства. Критериальная валидность оценивается величиной связи, корреляции показателя теста с "внешним критерием".
Эмпирическая валидность измеряется при помощи коэффициентов валидности.
Текущая [диагностическая (конкурентная)] валидность** — мера способности теста дифференцировать испытуемых по изучаемому признаку. Текущая валидность теста определяется исходя из его "трудности" и мер изменчивости измеряемого признака.
Трудностью теста называется отношение количества решенных заданий методик к нерешенным заданиям***. Уровень трудности характеризуется коэффициентом трудности (Тт), который вычисляется по формулам А и Б.
А) Тт = [Np / Nн] 100%, [26]
где Np— количество решенных заданий теста; Nн — количество нерешенных заданий теста.
Оптимальная «трудность теста», рассчитанная с помощью формулы А, должна колебаться в пределах 50%, однако, как признают многие психологи, достичь такого положения крайне затруднительно. На практике критериальная «трудность» рассчитывается для всей тестовой батареи и уже ее значение должно колебаться в пределах 50%, а «трудность» входящих в нее тестов — находиться в пределах "умеренного разброса". Видимо, этот "умеренный разброс" находится в пределах , то есть 16%. (Следует также учитывать 5%-ю ошибку вычислений.)
Б) Тт = 13 + 4 , [26]
где — стандартное отклонение, которое вычисляется по формуле:
= ( xi2) / N. [27]
Трудность теста, рассчитанного по формуле (Б), находится в пределах от 1 до 25 (цифры 13 и 4 выбраны экспериментально в целях исключения отрицательных и дробных показателей и удобства расчетов). Средняя трудность теста имеет значение 13.
Практическое задание. Рассчитать трудность тестовой батареи, состоящей из двух субтестов.
Решение:
-
ТЕСТ 1
ТЕСТ 2
Np = 4
Nн = 5
Np = 2
Nн = 7
Тт = 80%
Тт = 29%
Тбт = (80+29)/2 = 54.5%
К мерам изменчивости измеряемых признаков, как правило, относят характеристики распределения эмпирических данных (нормальность распределения) и характеристики вариации признаков.
Нормальность распределения данных определяет численную характеристику дифференциации испытуемых. Она вычисляется при помощи критерия Хи-квадрат Пирсона, а также с использованием коэффициентов асимметрии и эксцесса распределения переменных.
Ширина полосы разброса данных по шкале измерений от min до max; это характеристика вариации признаков. Простейшими измерителями вариации признаков являются размах вариации R (это разность между наибольшим и наименьшим значениями признаков, то есть R = xmax — xmin) и дискриминативность заданий — субтестов (способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно "максимального" или "минимального" результата теста). Мера соответствия успешности выполнения одного субтеста всей методике является показателем дискриминативности заданий теста и называется коэффициентом дискриминации (индексом дискриминативности). Индекс дискриминативности теста рассчитывается в процессе разработки тестов и тестовой батареи. Он вычисляется при помощи а) точечно-биссериального коэффициента корреляции (Rpb) (cм. выше) и б) метода контрастных групп в виде разности между долей лиц, правильно решивших задание из "высокопродуктивной" и "низкопродуктивной" групп (D)*.
D = (Nn max / Nmax ) — (Nn min / Nmin). [28]
Наибольший интерес представляет характер группировки значений признака вокруг их средней. Мерой ее определения являются дисперсия (среднеквадратическое отклонение) и коэффициент вариации (V), который определяется как отношение дисперсии (х) к среднему (Мх), выраженное в процентах:
V = (х / Мх) * 100%. [29]
Между характеристиками распределения и вариативностью переменных имеется связь, которая предопределяет оптимальное сочетание формы распределения с вариативностью. Большая вариативность признаков говорит о том, что распределение ненормально, асимметрично и сильно скошено. Малая вариативность показывает, что тест не дифференцирует испытуемых по измеряемому признаку (испытуемые отвечают или решают задание одинаково). При анализе трудности, нормальности распределения и вариативности показателей тестов необходимо соблюдать МЕРУ, которая вырабатывается в процессе накопления опыта диагностической работы и статистической обработки данных.
Прогностическая валидность является элементом содержания достоверности тестов и определяется как степень точности и обоснованности суждения о диагностируемом психическом свойстве по его результату спустя определенное время после измерения.
Показателем прогностичности теста является степень регрессии тестовых данных к объективным критериям. Регрессия представляет собой функцию f (x1, x2 х3, ... x n ), описывающую зависимость среднего показателя теста, измеряющего данное свойство от заданных фиксированных значений реального проявления этого свойства (внешнего критерия — y). Эта функция может носить линейный и нелинейный характер (линейная регрессия: y = b + ax; параболическая зависимость: y = b + ax + cx2; гиперболическая зависимость: y = b + a/x; показательная функция: y = b + ax).
В практической психодиагностике для прогноза развития или проявления измеренного свойства чаще применяют линейную или множественную линейную регрессию (y = b + a1 x1 +a2 x2... +an xn). Физический смысл ее заключается в приравнивании зависимой и независимой переменных. Изменение зависимой переменной прямо определяет изменение независимой переменной. Коэффициент а показывает угол наклона оси регрессии, а свободный член b — отстояние начала оси регрессии от начала координат. Коэффициент корреляции показывает уровень прогностичности функции, а R2 — уровень объясняемой дисперсии y за счет изменения х. При использовании тестовой батареи прогноз измеряемого свойства осуществляется посредством связанных между собой нескольких зависимых переменных (x1, x2 х3, ... xn ), которые и формируют множественную линейную регрессию. При использовании множественной линейной функции при прогнозе развития измеряемого свойства повышается уровень прогностичности тестирования и его достоверность за счет перекрытия разными методиками различных сторон измеряемого свойства.
- Введение
- Глава 1 История и методология психодиагностического исследования
- 1.1. История развития
- 1.2. Предмет и место психодиагностики в системе психологических наук
- С включением психодиагностического измерения
- Основные методы психологических исследований и их варианты
- Классификация психодиагностических методик на базе комплексного предметно-технологического подхода
- Глава 2 Психометрические аспекты разработки, адаптации и использования тестов
- 2.1. Понятие о психологическом измерении
- Виды измерения**
- Уровни измерения
- Непараметрические шкалы
- Сопоставление профессионально значимых качеств двух профессий
- Профессии значимо сопряжены — подобны.
- Параметрические шкалы
- 2.2. Применение статистических методов в психологических измерениях
- Распределение эмпирических данных
- Распределение Гаусса
- Относительно теоретической кривой (распределение Гаусса)
- Эмпирические данные, полученные в результате исследования
- Применение непараметрической и параметрической статистики при обработке эмпирических данных**
- Частотное распределение психографических признаков по группам акцентуаций характера
- Вывод: успешность деятельности операторов определяется их уровнем интеллекта, измеренном в iq.
- Квантили t-распределения Стъюдента для доверительной вероятности
- Тестовые (сырые) показатели методики сад
- 2.3. Стандартизация тестовых показателей
- Глава 3 Тестология
- 3.1. Классификация психологических тестов
- Класс: Объективные методики. Измерение результативности и способа (особенностей) выполнения деятельности Подкласс: Тесты личности (особенности интеллекта)
- Подкласс: Тесты интеллекта (уровень развития интеллекта) Тесты способностей:
- Тесты достижений:
- Критериально-ориентировочные тесты:
- Класс: Субъективные методики. Измерение на основе информации,
- Данной испытуемым о себе
- Подкласс: Личностные и специальные опросники
- Характерологические и клинические опросники:
- Мотивационные опросники:
- Опросники оценки эмоционально-волевых качеств:
- Опросники оценки коммуникативных качеств:
- Подкласс: Конструктивные проективные методики
- Подкласс: Интерпретационные проективные методики
- Подкласс: Катартические проективные методики
- Подкласс: Экспрессивные проективные методики
- Подкласс: Импрессивные проективные методики
- Подкласс: Аддитивные проективные методики
- Подкласс: Семантические проективные методики
- 3.2. Требования к разработчикам и пользователям тестов*
- Требования к психодиагностическим методикам
- Требования к пользователям:
- 3.3. Проблемы объективности психодиагностической информации
- Валидность тестов
- Надежность тестов*
- 3.4. Разработка, адаптация и использование психодиагностических методик (тестов)
- Разработка и адаптация
- Интеллектуального теста-технологии сад
- Экспериментально-теоретическое обоснование
- Технологии сад
- Примерная инструкция к субтесту "ст"(первое задание сад)
- Работайте самостоятельно! Желаем удачи! Примерная инструкция к субтесту «сам» (второе задание сад)
- Работайте самостоятельно! Желаем удачи! Регистрационный бланк сад
- Величина коэффициентов надежности (Rхх) тпа-сад
- Содержание и психологическая интерпретация комплексных критериев семантического анализа понятийно-смысловой структуры
- Оценка распределения эмпирических данных методики сад
- Величина показателей методики сад по критерию обч
- Количественная и качественная характеристика первоначальной экспериментальной выборки
- Характеристики экспериментальных групп по результатам тпа-сад
- Характеристики экспериментальных групп по структуре стратегий мышления по результатам тпа-сад (% совпадения)
- Данные расчета критерия согласия Пирсона (χ2) между показателями тпа-сад при перекрестной валидизации
- Разработка и адаптация семантического дифференциала "божественного откровения" (сдо)
- Расчет весового балла дифференцирующих понятий относительно «смысловых терминов-полюсов»
- Регистрационный бланк Фамилия и.О.__________________Подразделение________________
- Разработка психодиагностической батареи тестов в целях профотбора
- Б) Процедура тестирования.
- По количеству правильных ответов испытуемого
- Результатов расчета производительности испытуемого при выполнении теста**
- По положительным и отрицательным значениям
- По положительным оценкам (Объем экспериментальной выборки 8 тыс. Человек)
- Описание смыслового значения факторов
- Эмпирические данные
- 3.5. Процедура психологического обследования
- Инструктирование испытуемых перед началом и в ходе тестирования*
- 3.6. Психодиагностика индивида и группы* Индивидуальная психодиагностика
- Индивидуальная карта психологического сопровождения
- Определение коэффициента интеллекта (iq)
- Графический тест к. Коха
- Тест цветовых выборов
- 4. Психографологический анализ
- 5. Тест mmpi (модификация)
- Семантический дифференциал
- Результаты обследования сотрудника
- Психодиагностика группы
- Отчет о проведенном исследовании межличностных отношений в фирме "х"
- Рейтинговые социально-психологические показатели
- Глава 4
- 4.2 Концептуальный подход к автоматизации психологических исследований
- Индивидуальные особенности активных пользователей
- Проблемы развития прикладных психологических исследований с использованием компьютеров
- Классификация автоматизированных средств психодиагностики
- Заключение
- Контрольные вопросы по курсу «Основы психодиагностики»
- Литература