Фрагмент для ознакомления
2
15. Показатели эффективности психодиагностического инструментария: валидность, надежность, дискриминативность. Психометрический парадокс.
Валидность (англ. valid – действительный, пригодный, имеющий силу) – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.
В стандартных требованиях к педагогическим и психологическим тестам валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы, а также о степени их обоснованности на основании конкретных тестовых оценок или других форм оценивания.
Существуют несколько видов валидности, обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия:
1.Валидность «по содержанию» (используется в тестах достижения): 3 – 4 вопроса из большой темы могут показать истинные знания ученика. Для этого результаты диагностики сравнивают с экспертными оценками учителя.
2.Валидность «по одновременности» или текущая валидность – собираются данные, относящиеся к настоящему времени: успеваемость, производительность и т.п. С ними коррелируют результаты успешности по тесту.
3.«Предсказывающая» валидность («прогностическая»). Определяется по надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования.
4.«Ретроспективная» валидность. Определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.
Надежность теста – характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов.
В качестве критериев надежности можно отметить следующие:
1) при повторном применении метода к тем же самым испыту-емым в одних и тех же либо измененных условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.;
2) действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. Такие посторонние случайные факторы называют факторами нестабильности измерительной процедуры.
Дискриминативность – это способность отдельных заданий теста и теста в целом дифференцировать обследуемых относительно «максимального» и «минимального» результата теста.
Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d =1). Точность информации измеряется тем, насколько дробной шкалой являются применяемые метрики, или другими словами, насколько чувствителен инструмент.
Таким образом, это степень приближения результатов измерения к истинному значению измеряемой величины
Голдберг (Goldberg, 1963) рассматривает психометрический парадокс как определенную зависимость между постоянством и вариабельностью ответов на вопросы. При этом изменчивость ответов находится в функциональной связи с величиной s Фергюсона (показатель, определяемый соотношением между фактическим числом различий и их максимально возможным числом). Исходя из этого М. Новаковская считает, что в данном случае следует говорить о s-парадоксе. Показатель s не отражает эффективности вопроса относительно всего теста или его дискриминативной силы, определяемой с помощью величины j. Предметом анализа М. Новаковской является j-парадокс. Она считает, что психометрический парадокс присущ исключительно исследовательскому инструментарию гуманитарных наук, ибо вопросы, оставаясь формально неизменными, подтверждены семантическим (психологическим) преобразованиям как в интер-, так и в интраиндивидуальном плане.
Интериндивидуальная изменчивость имеет две причины: различия в выраженности измеряемой черты у разных испытуемых и различия в понимании значения вопросов. Интраиндивидуальная изменчивость обусловлена вариабельностью значения, трудностью принятия решения об ответе и флуктуацией выраженности черты. Правда, последний источник изменчивости можно не учитывать, так как период между повторными исследованиями обычно краток.
Для психологической интерпретации психометрического парадокса Новаковская предлагает различать три детерминанты ответов: выраженность черты у обследуемого, значение, придаваемое вопросу, и степень легкости принятия решения об ответе. Она подчеркивает также необходимость дифференциации однозначных вопросов от многозначных, которые в известном смысле могут быть уподоблены проективным стимулам.
М. Новаковская считает возможным различать два типа психометрического парадокса и исходит из нижеследующих гипотез для их объяснения.
Парадокс типа А возникает при вопросах, поддающихся различному истолкованию, а также в том случае, когда трудно принять решение об ответе (согласно М. Новаковской, лица с высокой выраженностью измеряемой черты, приписывая вполне определенное значение вопросу, легко принимают решение об ответе). В этом случае вопросы обладают высокими показателями j и s, но значительной вариабельностью. Например: «Ваше настроение обычно хорошее?» (в одном из вариантов опросника на определение нейротизма).
Парадокс типа В возникает при однозначных вопросах – таких, для которых легко подобрать ответ. Сюда же должны быть отнесены односторонние диагностические вопросы, т. е. те, для которых только один вариант ответа диагностически значим. Эти вопросы будут характеризоваться незначительной дискриминативной силой при слабовыраженной вариабельности (значение s также невелико). Например: «Часто ли вам снится, что вы оказались в пасти крокодила?» (в одном из вариантов опросника для определения уровня тревожности). Вопрос является диагностически односторонним, поскольку из ответа «да» мы можем заключить о наличии тревожности, а из ответа «нет» мы не можем сделать никакого вывода. Примером вопроса, обладающего малой вариабельностью и дискриминативной силой, приближающейся к нулю (при высоком значении s), на который легко ответить, может быть следующий: «Вы курите?».
Ясно, что чем больше в методике вопросов, дающих парадокс типа В, тем больше надежность, определяемая коэффициентом корреляции между результатами повторных исследований. Однако одновременно снижается дискриминативная сила вопросов. Хотя М. Новаковская и считает, что практически все вопросы вызывают психометрический парадокс (типа A или В), возможны и «идеальные» случаи. Например, вопрос: «Часто ли вы чувствуете себя по утрам измученным, разбитым?» (в одном из вариантов опросника для определения нейротизма) – вариабельность низкая, значения j и s высоки. Психометрический парадокс не возникает.
Исследователь, зная о существовании психометрического парадокса, может регулировать вариабельность ответов путем подбора вопросов с соответствующими параметрами.
16.Стандартизация теста и диагностических показателей: задачи условия, требования. Основные виды представления стандартных показателей.
Важнейшим средством повышения надежности психодиагностических методик является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановки и условий работы испытуемого, характера инструкции, временных ограничений, способов и особенностей контакта с испытуемым, порядка предъявления элементов методики, получения первичных оценок и т. д.) существенно уменьшается дисперсия ошибки, повышается надежность теста.
Если исходить из широкого понимания надежности как отражения в результате исследования удельного веса измеряемого параметра и совокупности посторонних факторов, то можно усмотреть определенную связь надежности с другой важнейшей комплексной характеристикой психодиагностической методики – валидностью.
Стандартизация теста - это совокупность экспериментальных, методических и статистических процедур, обеспечивающих создание строго фиксированных компонентов теста.
В частном случае под стандартизацией понимается сбор репрезентативных тестовых норм и построение стандартной шкалы тестовых баллов.
Стандартизация позволяет сравнивать показатели, полученные одним испытуемым, с показателями в генеральной совокупности или соответствующих группах.
Стандартизация важна, когда осуществляется сравнение показателей обследуемых.
Три основных вида стандартизации первичных тестовых оценок:
1) приведение к нормальному виду;
2) приведение к стандартной форме;
3) квантильная стандартизация.
Стандартизация (по Анастази) – это единообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний. Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.
Требования к проведению эксперимента:
1. инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же сло-вами, понятными для всех, в одинаковой манере;
2. ни одному испытуемому не следует давать никаких преимуществ перед другими;
3. в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;
4. эксперимент с разными группами следует проводить в одинаковое по возможности время дня, в сходных условиях;
5. временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и так далее.
Другим наиболее важным этапом в стандартизации методики является выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний, поскольку диагностические методики не имеют заранее определённых стандартов успешности или неудачи в их выполнении.
Стандартизация методики осуществляется путем ее проведения на большой репрезентативной выборке такого типа, для которого методика предназначена. Относительно этой группы испытуемых вырабатываются нормы, указывающие не только средний уровень выполнения, но и относительную вариативность выше и ниже среднего уровня.