logo
Носс И

Валидность тестов

Валидностью как элементом достоверности психодиагностического измерения свойств субъекта называется мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности человека. В теории психометрии определяют два основных типа и по крайней мере одиннадцать видов валидности методик (см. рис. 7).

Рис. 7. Структура валидности

Различают два типа валидности — внешнюю и внутреннюю*. Внешняя валидность есть мера возможности распространения результатов тестирования на генеральную совокупность**. Внешняя валидизация осуществляется путем расчета репрезентативности экспериментальной выборки при отработке теста и перекрестной валидизации, то есть определения валидности теста на выборке, отличающейся от той, на которой отрабатывался стимульный материал и задания к тесту.

Репрезентативность выборки — это представительность экспериментальной выборки, которая отражает основные свойства генеральной совокупности. Репрезентативность определяется путем сопоставления качественных и количественных характеристик экспериментальной выборки с характеристиками исследуемой популяции с целью определения их однородности.

К качественным характеристикам могут быть отнесены социально-демографические, видовые, интеллектуальные (образовательные), профессиональные и другие характеристики популяции (группы), которые являются предметом исследования или существенно влияют на него.

Количественная характеристика экспериментальной группы — это минимальная ее численность, сохраняющая свойства генеральной совокупности. Формирование репрезентативной выборки по количественному признаку осуществляется при помощи теоремы П.А. Чебышева о вероятности ошибки репрезентативности, которая гласит: "С вероятностью сколь угодно близкой к единице можно утверждать, что при достаточно большом числе независимых наблюдений выборочная средняя будет сколь угодно мало отличаться от генеральной средней" и далее (следствие 1 из теоремы П.Л. Чебышева) «...что с вероятностью, как угодно близкой к единице («практически достоверно»), выборочная доля будет как угодно мало отличаться от генеральной доли, если объем выборки достаточно велик»***.

В психологической литературе существует несколько теоретических подходов к расчету объема минимально репрезентативной выборки****. Часто приводятся таблицы опытно полученных данных*****. Так, С. Москвин отмечает, что при объемах генеральной совокупности 400, 500, 1000, 2000, 5000, 10000 и более 10 тыс. человек минимальная выборка составляет соответственно 200, 222, 286, 333, 370, 398 и 400 испытуемых (указ. публ., с. 28). Г. Лоза указывает на следующее соотношение генеральной совокупности и объема экспериментальной выборки при проведении социологических исследований 100/16-17 чел., 300/50 чел., 1000/100 чел. и 5000/200 испытуемых. В лекции А. Гончарова минимальная репрезентативная выборка относительно генеральной совокупности соответственно составляет: 500/222, 1000/286, 2000/333, 3000/350, 4000/360, 5000/370, 10 000/385, 100 000/398 и более 100 000 — 400 респондентов.

В ходе анализа психологических данных для расчета объема минимальной репрезентативной выборки используются следующие формулы:

1) формула расчета объема минимальной репрезентативной выборки* при нахождении доли элементов генеральной совокупности, обладающих некоторым признаком (номинальная измерительная шкала):

n = [N*t2*p*q] / [N*2 + t2* p*q]; [22]

2) формула расчета объема минимальной репрезентативной выборки** при нахождении средней признака (интервальная измерительная шкала):

n = [N*t2*2] / [N*2 + t2*2]; [23]

3) формула расчета объема минимальной репрезентативной выборки***:

n = [(t*/)2] / [1 + 1 / N (t*/)2], [24]

где n — объем минимальной репрезентативной выборки испытуемых;

t — коэффициент кратности ошибки, связанный с вероятностью гарантии ошибки выборочного наблюдения (величина t-критерия Стъюдента);

 — величина стандартного отклонения;

 — размер ошибки доверительного интервала измерения признаков;

N — объем генеральной совокупности;

р — частота проявления данного признака;

q = 1 — р.

Практическое задание. Рассчитать объем минимально-репрезентативной выборки испытуемых, если объем генеральной совокупности 5000 чел., а вероятность проявления исследуемого признака ("угадывания" при помощи теста) — 0.8.

Дано: t — коэффициент кратности ошибки, связанный с вероятностью (Рt), с которой требуется гарантировать результаты выборочного наблюдения;  — размер ошибки доверительного интервала измерения признаков = 0,05; N — объем генеральной совокупности = 5000 ; р — частота проявления данного признака = 0.8; q = 1 — р = 0.2.

Определить: n — минимально необходимую численность экспериментальной выборки.

1.982*0.8*(1 — 0.8)*5 000

n = = 235;

0.052*5 000 + 1.982 0.8*(1 — 0.8)

Ответ: n = 235.

Вывод: При повышении достоверности измерений происходит заметное уменьшение объема минимально репрезентативной выборки. Аналогичное влияние отказывает точность измерений ().

Перекрестная валидизация производится путем апробации теста на выборке, отличной от экспериментальной. Перекрестная валидизация осуществляется для того, чтобы определить границы применения методики по критерию "характеристика популяции" (для определения уровня развития свойства у детей, подростков, мужчин-женщин, определенной группы специалистов и т. д.). В ходе перекрестной валидизации рассчитываются коэффициенты корреляции между одними и теми же показателями, полученных в результате тестирования разных групп испытуемых. Вывод о возможности применения теста на данной популяции делается при помощи параметрических критериев (t-критерий Стъюдента,  — критерий Уэлша).

Практическое задание. Рассчитать объем экспериментальной выборки по критерию обучаемости испытуемых (применялся тест ОСО*).

Дано:

Группа 1 (школьники 9-го класса — 15 лет):

Количество испытуемых n=471

Среднее значение показателя Мх = 3.75

Среднеквадратическое отклонение  = 1.4

Группа 2 (школьники 10-го класса — 16 лет):

Количество испытуемых n=178

Среднее значение показателя Мх = 3.66

Среднеквадратическое отклонение  = 0.8

Группа 3 (курсанты училища связи — 18 лет):

Количество испытуемых n=104

Среднее значение показателя Мх = 3.20

Среднеквадратическое отклонение  = 1.1

Решение: Для расчетов используется формула t-критерия:

Мх1 — Мх2

tР= ;

 [(n1 — 1) х12 + (n2 — 1)  х2 2 / (n1 + n2 — 2)] (1/ n1 +1/n2)

1) t1-2 = 0.82 н/р** < tт

2) t2-3 = 5.75 р*** > tт

3) t1-3 = 7.86 р > tт

4) tт = 1.98

Ответ: n = 649.

Вывод: в результате расчетов выявлено значимое различие показателей обучаемости между первой и третьей и между второй и третьей исследованными группами, которые не могут считаться однородными и составлять единую совокупность. Только между первой и второй выборками по данному критерию не существует значимых различий (р<0.05). В целях проверки валидности первую и вторую группы можно объединить в одну экспериментальную выборку и считать единой популяцией в количестве 649 человек.

Уяснив содержание внешней валидности методик, перейдем к рассмотрению аспектов внутренней валидности.

Внутренняя валидность — это мера соответствия тестовых оценок уровню развития измеряемого свойства. Она состоит по крайней мере из пяти элементов:

а) концептуальная (теоретическая) валидность — теоретическое обоснование возможности измерения исследуемого свойства данным психодиагностическим средством;

б) содержательная валидность — степень репрезентативности содержания заданий теста измеряемой области психических свойств;

в) конструктная валидность — степень репрезентативности исследуемого психологического конструкта в результатах теста ("насколько результаты теста рассматриваются в качестве меры исследуемого психологического конструкта — фактора, свойства")*;

г) операционная валидность — степень репрезентативности в конкретных экспериментальных операциях реальных операциональных условий психической деятельности;

д) эмпирическая валидность — совокупность характеристик валидности теста, полученная сравнительным статистическим способом оценивания. К этим характеристикам относятся так называемые очевидная и критериальная виды валидности.

Очевидная валидность — это представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого и другого лица, не располагающего специальными сведениями о характере использования и целях методики.

Критериальная валидность — комплекс характеристик, включающий текущую и прогностическую валидности методики и отражающий соответствие диагноза и прогноза определенному кругу критериев развития измеряемого свойства. Критериальная валидность оценивается величиной связи, корреляции показателя теста с "внешним критерием".

Эмпирическая валидность измеряется при помощи коэффициентов валидности.

Текущая [диагностическая (конкурентная)] валидность** — мера способности теста дифференцировать испытуемых по изучаемому признаку. Текущая валидность теста определяется исходя из его "трудности" и мер изменчивости измеряемого признака.

Трудностью теста называется отношение количества решенных заданий методик к нерешенным заданиям***. Уровень трудности характеризуется коэффициентом трудности (Тт), который вычисляется по формулам А и Б.

А) Тт = [Np / Nн] 100%, [26]

где Np— количество решенных заданий теста; Nн — количество нерешенных заданий теста.

Оптимальная «трудность теста», рассчитанная с помощью формулы А, должна колебаться в пределах 50%, однако, как признают многие психологи, достичь такого положения крайне затруднительно. На практике критериальная «трудность» рассчитывается для всей тестовой батареи и уже ее значение должно колебаться в пределах 50%, а «трудность» входящих в нее тестов — находиться в пределах "умеренного разброса". Видимо, этот "умеренный разброс" находится в пределах , то есть  16%. (Следует также учитывать 5%-ю ошибку вычислений.)

Б) Тт = 13 + 4 , [26]

где  — стандартное отклонение, которое вычисляется по формуле:

 =  ( xi2) / N. [27]

Трудность теста, рассчитанного по формуле (Б), находится в пределах от 1 до 25 (цифры 13 и 4 выбраны экспериментально в целях исключения отрицательных и дробных показателей и удобства расчетов). Средняя трудность теста имеет значение 13.

Практическое задание. Рассчитать трудность тестовой батареи, состоящей из двух субтестов.

Решение:

ТЕСТ 1

ТЕСТ 2

Np = 4

Nн = 5

Np = 2

Nн = 7

Тт = 80%

Тт = 29%

Тбт = (80+29)/2 = 54.5%

К мерам изменчивости измеряемых признаков, как правило, относят характеристики распределения эмпирических данных (нормальность распределения) и характеристики вариации признаков.

Нормальность распределения данных определяет численную характеристику дифференциации испытуемых. Она вычисляется при помощи критерия Хи-квадрат Пирсона, а также с использованием коэффициентов асимметрии и эксцесса распределения переменных.

Ширина полосы разброса данных по шкале измерений от min до max; это характеристика вариации признаков. Простейшими измерителями вариации признаков являются размах вариации R (это разность между наибольшим и наименьшим значениями признаков, то есть R = xmax — xmin) и дискриминативность заданий — субтестов (способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно "максимального" или "минимального" результата теста). Мера соответствия успешности выполнения одного субтеста всей методике является показателем дискриминативности заданий теста и называется коэффициентом дискриминации (индексом дискриминативности). Индекс дискриминативности теста рассчитывается в процессе разработки тестов и тестовой батареи. Он вычисляется при помощи а) точечно-биссериального коэффициента корреляции (Rpb) (cм. выше) и б) метода контрастных групп в виде разности между долей лиц, правильно решивших задание из "высокопродуктивной" и "низкопродуктивной" групп (D)*.

D = (Nn max / Nmax ) — (Nn min / Nmin). [28]

Наибольший интерес представляет характер группировки значений признака вокруг их средней. Мерой ее определения являются дисперсия (среднеквадратическое отклонение) и коэффициент вариации (V), который определяется как отношение дисперсии (х) к среднему (Мх), выраженное в процентах:

V = (х / Мх) * 100%. [29]

Между характеристиками распределения и вариативностью переменных имеется связь, которая предопределяет оптимальное сочетание формы распределения с вариативностью. Большая вариативность признаков говорит о том, что распределение ненормально, асимметрично и сильно скошено. Малая вариативность показывает, что тест не дифференцирует испытуемых по измеряемому признаку (испытуемые отвечают или решают задание одинаково). При анализе трудности, нормальности распределения и вариативности показателей тестов необходимо соблюдать МЕРУ, которая вырабатывается в процессе накопления опыта диагностической работы и статистической обработки данных.

Прогностическая валидность является элементом содержания достоверности тестов и определяется как степень точности и обоснованности суждения о диагностируемом психическом свойстве по его результату спустя определенное время после измерения.

Показателем прогностичности теста является степень регрессии тестовых данных к объективным критериям. Регрессия представляет собой функцию f (x1, x2 х3, ... x n ), описывающую зависимость среднего показателя теста, измеряющего данное свойство от заданных фиксированных значений реального проявления этого свойства (внешнего критерия — y). Эта функция может носить линейный и нелинейный характер (линейная регрессия: y = b + ax; параболическая зависимость: y = b + ax + cx2; гиперболическая зависимость: y = b + a/x; показательная функция: y = b + ax).

В практической психодиагностике для прогноза развития или проявления измеренного свойства чаще применяют линейную или множественную линейную регрессию (y = b + a1 x1 +a2 x2... +an xn). Физический смысл ее заключается в приравнивании зависимой и независимой переменных. Изменение зависимой переменной прямо определяет изменение независимой переменной. Коэффициент а показывает угол наклона оси регрессии, а свободный член b — отстояние начала оси регрессии от начала координат. Коэффициент корреляции показывает уровень прогностичности функции, а R2 — уровень объясняемой дисперсии y за счет изменения х. При использовании тестовой батареи прогноз измеряемого свойства осуществляется посредством связанных между собой нескольких зависимых переменных (x1, x2 х3, ... xn ), которые и формируют множественную линейную регрессию. При использовании множественной линейной функции при прогнозе развития измеряемого свойства повышается уровень прогностичности тестирования и его достоверность за счет перекрытия разными методиками различных сторон измеряемого свойства.