Определение расчетных значений основных показателей надежности различных видов оборудования на основании статистических данных аварийности и ремонтов оборудования электрических сетей 110-750 кВ
НИР выполнена для уточнения значений показателей надежности основного оборудования электрических сетей ПАО «ФСК ЕЭС» классов напряжения 110‑750 кВ, необходимых и достаточных для решения задач надежности в эксплуатационной и проектной практике при формировании планов капитальных и текущих ремонтов оборудования, схем перспективного развития электрических сетей, инвестиционных программ.
В рамках выполнения НИР проведён анализ действующих нормативных документов в области надежности функционирования и развития электроэнергетики и разработаны рекомендации по их корректировке. Выполнен анализ используемых в зарубежной и отечественной практике показателей надежности электросетевого оборудования, на основе результатов которого определён перечень рекомендуемых к применению в эксплуатации и проектировании показателей надежности оборудования электрических сетей ПАО «ФСК ЕЭС» классов напряжения 110-750 кВ.
Полученный перечень показателей надёжности содержит четыре основных и четыре производных показателя. Определены расчетные значения основных показателей надежности различных видов оборудования на основании статистических данных аварийности и ремонтов оборудования электрических сетей ПАО «ФСК ЕЭС» классов напряжения 110‑750 кВ за 2008-2014 гг. Для автоматизации расчёта выбранных показателей надежности разработана электронная база данных и инструмент работы с ней. Проверены статистические гипотезы о законах распределения и значениях параметров надежности элементов энергосистемы, а также определены параметры законов распределения отказов и восстановлений элементов электрических сетей.
Основным результатом НИР являются количественные показатели надежности линий электропередачи и электросетевого оборудования ПС ПАО «ФСК ЕЭС» классов напряжения 110-750 кВ, необходимые и достаточные для обеспечения оптимального уровня надежности электроснабжения потребителей в производственной и социальной сферах национальной экономики.
Результаты НИР предназначены для программно-технического комплекса оптимизации схемно-технических решений для выбора оптимального уровня надежности электроснабжения потребителей и способов его обеспечения с наибольшей экономической эффективностью.
На результаты выполненной НИР получено положительное экспертное заключение Института систем энергетики им. Л.А. Мелентьева СО РАН, в том числе в части практической ценности и возможности дальнейшего применения в производственной деятельности ПАО «ФСК ЕЭС».
Объект в надежности: определение и содержание понятия | Нетес
1. Нетес В.А. Актуальные вопросы стандартизации терминологии в области надежности [Текст] / В.А. Нетес, Ю.И. Тарасьев, В.Л. Шпер // Надежность. – 2014. – № 2. – С. 116-119.
2. Нетес В.А. Как нам определить, что такое «надежность» [Текст] / В.
А. Нетес, Ю.И. Тарасьев, В.Л. Шпер // Надежность. – 2014. – № 4. – С. 3-14.
3. Нетес В.А. Новый международный терминологический стандарт по надежности [Текст] / В.А. Нетес // Надежность. – 2016. – № 3. – С. 54-58.
4. Ершов Г.А. Чему верить? О системе стандартов «Надежность в технике» [Текст] / Г.А. Ершов, В.Н. Семериков, Н.В. Семериков // Стандарты и качество. – 2018. – № 8. – С. 14‑19.
5. Похабов Ю.П. Проблемы надежности и пути их решения при создании уникальных высокоответственных систем [Текст] / Ю.П. Похабов // Надежность. – 2019. – № 1. – С. 10-17.
6. Нетес В.А. Как вернуть доверие? О системе стандартов «Надежность в технике» [Текст] / В.А. Нетес // Стандарты и качество.
– 2019. – № 2. – С. 19-24.
7. Богданова Г.А. МЭК/ТК 56: стандартизация для надежности [Текст] /Г.А. Богданова, В.А. Нетес // Методы менеджмента качества. – 2009. – № 5. – С. 44-47.
8. Успенский В.А. Апология математики [Текст]: [сборник статей] / В.А. Успенский. – СПб.: Амфора, ТИД Амфора, 2010. – 554 с.
9. Recommendation ITU-T Y.3011 (01/2012). Framework of network virtualization for future networks [Text].
10. Резиновский А.Я. Еще раз о сбоях ЭВМ и так называемой надежности программного обеспечения [Текст] / А.Я. Резиновский // Надежность и контроль качества. – 1988. – № 2. – С. 57-61.
Надежность и валидность тестов
Для начала определим круг разработанности данной проблемы и кратко перечислим ученых.
Ученые, которые занимались проблемой надежности и валидности методик в психодиагностике: А. Анастази и др.
Далее рассмотрим понятие надежности и валидности методик, а также их сущность и процесс.
Надежность теста
Рассмотрим несколько видов надежности психодиагностических тестов.
- Надежность по внутренней согласованности. Измененная часть теста измеряет такую переменную, которую не измеряют неизмененные части теста.
- Ретестовая надежность. Повторное тестирование испытуемых с последующей корреляцией результатов начального и окончательного обследования.
- Надежность параллельны форм теста. Создание эквивалента опросника и его предъявлений тем же испытуемым для последующей корреляции результатов.
- Надежность частей теста можно определить, разделив опросник на части; затем провести корреляцию полученных результатов.
Рисунок 1.
«Показатели надежности теста»
При выявлении надежности теста следует проводить методику через значительные временные интервалы. Также рекомендуется проводить тест на выборки не менее 200 испытуемых.
Валидность теста
Рассмотрим некоторые виды валидности тестов в психодиагностике.
- Очевидная валидность. Представления испытуемого о тесте.
- Конкурентная валидность. Корреляция с подобными тестами.
- Прогностическая валидность. Корреляция начальных и более поздних результатов теста.
- Инкрементная валидность.
- Дифференциальная валидность.
- Содержательная валидность. Отражение заданий тестов аспектов определенной изучаемой области.
- Эмпирическая валидность. Корреляция результатов данной методики с результатами подобных методик у одних и тех же испытуемых.
- Критериальная валидность.

Связь полученных результатов и внешних критериев. - Конструктная валидность.
Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых.
При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность.
В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус.
Устанавливать нормы не всегда обязательно.
При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно сырых показателей теста.
Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения.Рисунок 2. «Структура валидности»
Описание рейтинга надежности регистраторов | ra-national.ru
Рейтинг надежности регистраторов — один из видов рейтингов, присваиваемых Агентством, является некредитным (специализированным) и представляет собой субъективное мнение Агентства о возможностях, ресурсах и качестве в ключевых областях процесса ведения реестра владельцев ценных бумаги и предоставления сопутствующих услуг, исходя из таких ключевых характеристик, как: опыт компании в данном направлении деятельности, рыночные позиции, качество менеджмента (управления), квалификация персонала, а также используемые процедуры, меры контроля и ресурсы, поддерживающие основные функции.
При определении уровня рейтинга влияние финансового положения в рамках данной рейтинговой шкалы является ограниченным, присваиваемые рейтинги преимущественно учитывают характеристики компании, в значительной мере не зависящие от ее финансового положения. Финансовый фактор актуален только для тех аспектов, применительно к которым финансовое положение может оказать прямое воздействие на устойчивость операционной деятельности.
Шкала, используемая для выражения данного мнения Агентства, не является взаимозаменяемой, сопоставимой или эквивалентной со шкалами, используемыми для других видов некредитных (специализированных) рейтингов.
РЕЙТИНГ НАДЕЖНОСТИ РЕГИСТРАТОРОВ НЕ ЯВЛЯЕТСЯ КРЕДИТНЫМ РЕЙТИНГОМ, не связан с оценкой способности рейтингуемого лица исполнять принятые на себя финансовые обязательства и не отражает мнение Агентства о кредитоспособности, или финансовой надежности, или финансовой устойчивости регистратора.
ОГРАНИЧЕНИЯ РЕЙТИНГА НАДЕЖНОСТИ РЕГИСТРАТОРА:
- Рейтинг не дает прогноза о вероятности возникновения финансовых трудностей у регистратора в течение какого-либо периода времени;
- Рейтинг не представляет собой никакого иного мнения о каком-либо качестве регистратора относительно его финансовых показателей, кроме как мнения о возможностях, ресурсах и качестве в ключевых областях процесса ведения реестра владельцев ценных бумаги и предоставления сопутствующих услуг.
Агентство вправе изменить или отозвать рейтинг надежности регистратора в любой момент времени на основании информации, полученной, по мнению Агентства, из надежных источников, и/или информации, полученной от рейтингуемого лица в рамках регулярного мониторинга, либо в связи с непредставлением информации регистратором.
Виды ключей для замков: степень надежности и типы
Часто при звонке в аварийную службу вскрытия замков клиенты спрашивают у мастеров, как быстро они могут приехать и открыть их замок. В порыве эмоций и переживаний, человек зачастую не может объяснить мастеру какой именно у него используется замок и вид ключа в доме, при этом хотят узнать ориентировочную стоимость работы мастера и временные рамки производимых работ.
С целью повышения знаний наших клиентов, мы бы хотели предоставить информацию об основных видах ключей:
1 Английский ключ, или ключ цилиндрового замка (плоский ключ с ребрами на грани). Самый распространенный, и при этом менее безопасный вид ключа, очень легко поддается вскрытию, так как имеет недостаточно надежную систему защиты от взлома.
3. Перфорированный ключ (плоский ключ с насверленными желобками). Его еще называют «Евроключ», ооднако название весьма условное, так как данные ключи как и личинки, которые они открывают, изготавливаются в азии и Китае в частности. Принцип работы схож с выше приведенными ключами (пиновая система).
4. Ключ для цилиндрового дискогово замка (Финский ключ). Ситается более продвинутым в плане сложности взлома двери, за счет особого устройства цилиндров или пластин, в конструкции замка.
5. Помповый ключ.
6. Крестовой ключ. Ключ имеет крестообразную форму. Используется для цилиндрового штифтового замка. Несмотря на неплохую секретность, устойчивость к взлому у такого замка очень низкая.
7. Сувальдный ключ (ключ сейфового типа, ключ-бабочка). Данные ключи используются для сувальдных замков. Длинна ключа и количество бороздок устанавливают уровень безопасности и взломостойкости замка. Кроме дверных замков, такие ключи часто используются в сейфах.
Около 25 тыс. IT-экспертов проверили надежность системы онлайн-голосования в России — Политика
МОСКВА, 27 июня. /ТАСС/. Надежность системы дистанционного электронного голосования по поправкам к Конституции РФ проверили 25 тыс. IT-специалистов. Об этом сообщили ТАСС в субботу в Общественном штабе по контролю и наблюдению за общероссийским голосованием в Москве.
«Система электронного голосования работает без сбоев. Убедиться в ее надежности смогли уже 25 тыс. IT-экспертов и специалистов по блокчейн, которые подключались к отслеживанию хода голосования в режиме онлайн», — сказали в штабе.
Там добавили, что за все время работы участков от Роспотребнадзора не было получено ни одного замечания, касающегося соблюдения санитарных требований.
Рекомендации ведомства выполняются в полном объеме: не допускается скопление людей, контролируется ношение масок и соблюдение социальной дистанции. На входе посетителям измеряют температуру, а при необходимости выдают одноразовые перчатки, маски и санитайзеры. Каждую ночь помещения для голосования дезинфицируют.
«Самые активные граждане уже выразили свою гражданскую позицию в первые два дня голосования. Сейчас людей на участках станет меньше. Кроме того, впереди два выходных, и многие москвичи уедут за город. Если вы собираетесь голосовать на участке, то в ближайшие пару дней — самое удобное и комфортное время <…> По состоянию на 11:00, явка на электронном голосовании в Москве составила 70,86%. Всего проголосовало 733 923 человека», — сообщил официальный представитель Общественного штаба по контролю и наблюдению за общероссийским голосованием в Москве Александр Асафов.
О наблюдателях
«Голосование по поправкам в Конституцию контролируют и на международном уровне.
На московских участках и в общественном штабе находятся наблюдатели из стран Европы, Ближнего Востока и Африки. Вчера в ходе видеоконференции они обсудили вопросы санитарной безопасности и прозрачности голосования. Иностранные эксперты высоко оценили организацию голосования и обратили внимание, что в нем участвует огромное число молодых волонтеров и наблюдателей», — сказали в штабе.
Также за ходом голосования продолжают следить наблюдатели. На сегодняшний день их число превысило 21,6 тыс. человек. Больше всего наблюдателей, свыше 10 тыс. человек, представляют различные независимые общественные организации. Чуть меньше выдвинули все парламентские партии; 856 наблюдателей — это активные граждане и добровольцы; еще 117 человек — гражданские наблюдатели из Общественной палаты Российской Федерации.
«Чтобы присоединиться к рядам наблюдателей и проявить гражданскую ответственность могли как больше людей, набор и обучение наблюдателей были продлены. Вчера последние желающие завершили обучение.
Сегодня они уже вышли на рабочие места. После анализа ситуации за два прошедших дня был составлен график дежурств, чтобы обеспечить полноценное и равномерное присутствие наблюдателей на всех участках», — сообщили в штабе.
Электронный штаб принял уже почти 14,5 тыс. звонков от граждан. Большая часть обращений связана с техническими сложностями при электронном голосовании. Операторы разъясняют пользователям особенности онлайн-голосования, оказывают техническую поддержку.
«Чтобы задать вопрос или оставить замечание по вопросам электронного голосования, необходимо обратиться по телефону кол-центра электронного штаба 8 (800) 222-55-52. Также жители могут сообщить о нарушениях в ходе очного голосования. В этом случае необходимо обратиться к наблюдателю или любому сотруднику участковой комиссии. Они проверят вашу информацию и, при необходимости, передадут ее в Общественный штаб для разбора видеозаписи и выезда мобильной группы», — сообщили в штабе.
Там добавили, что третий день голосования по поправкам в Конституцию Российской Федерации начался без сбоев.
В 8:00 открылись все участки, продолжается электронное и надомное голосование. Общественный штаб по контролю и наблюдению за общероссийским голосованием в Москве также работает без перерыва. Операторы видеоцентра следят за трансляцией с камер, расположенных на участках. Наблюдатели контролируют ход электронного голосования через общероссийский сайт голосования 2020og.ru.
Кластерные технологии, системы высокой доступности и надежности на основе БД Postgres
Аннотация:
УКЦ ФОРС представляет новый авторский курс, созданный на основе выполненных проектов, захватывающих самую интересную, но мало раскрытую область применения – проектирование, создание и администрирование масштабируемых систем высокой доступности и надежности, основанных на БД Postgres, то есть именно то, что необходимо многим ИТ подразделениям в условиях современного бизнеса.
Теоретическая часть охватывает весь спектр проблем построения высоконадежных систем, основы горизонтального и вертикального масштабирования систем, построенных на базе PostgreSQL, заканчивая полноценным решение на базе Corosync и Pacemaker.
Практические занятия основаны на реальных примерах и предполагают создание демонстрационного кластера из двух и трех нод (с кворумом и без), а также моделирование ситуаций, связанных с различными типами сбоев.
Аудитория:
Администраторы баз данных Postgres, желающие глубже понимать принципы работы Postgres, а также получить практические навыки по созданию кластерных систем и систем высокой доступности и надежности, построенных на Postgres.
Требования к подготовке слушателей:
Хорошие знания и опыт администрирования PostgreSQL на ОС Linux, уровень подготовки соответствует программам курсов по администрированию Postgres DBA1 (Администрирование PostgreSQL 9.4. Базовый курс) и DBA 2 (Администрирование PostgreSQL 9.5. Расширенный курс) УКЦ ФОРС.
Программа курса:
Введение
- История развития Postgres в плане масштабируемости
- Обеспечение согласованности транзакций, механизм его реализации.
Различные уровни изолированности, - Понятие кластера
- Типы кластеров
PostgreSQL с точки зрения кластера.
- Создание базы данных для отказоустойчивых конфигурации и кластера.
- Установка: системные требования, настройка окружения
- Логические и физические структуры PostgreSQL с точки зрения кластера.
Резервное копирование и восстановление.
- Бэкап и восстановление PostgreSQL
- Непрерывное резервное копирование
- Утилиты для непрерывного резервного копирования
- Barman и его настройка
Стратегии масштабирования и архитектура отказоустойчивых систем на PostgreSQL.
- Проблема производительности
- Проблема высокой доступности и надежности
- Проблема целостности данных
- Отказ узла
- Разделение сети
- Проблема консенсуса
- Кворумные протоколы
- Распределение нагрузки
- Реализации DTM (менеджера распределенных транзакций)
- Внутренние и внешние решения
- Лабораторная работа
Репликация.
- Виды репликации
- Streaming Replication (Потоковая репликация)
- Синхронная и Асинхронная репликация
- Логическая репликация и pglogical
- Multi-master
- Настройка, мониторинг и решение различных проблем репликации
- Переключение на реплику (различные ситуации)
- Лабораторная работа
Шардинг и партиционирование в среде PostgreSQL
- Вертикальное и горизонтальное масштабирование
- Виды партиционирования (наследуемое и декларативное), сравнение, плюсы и минусы
- Шардинг, реализация
- Лабораторная работа
Кластер на основе продуктов Corosync/Pacemaker. Создание и управление
- Архитектура Corosync и Pacemaker
- Ресурсы кластера, их параметры и настройки
- Агенты ресурсов
- Active/Passive PostgreSQL Cluster с использованием Pacemaker, Corosync
- Установка, конфигурирование и настройка кластера на основе corosync/pacemaker
- Настройка дополнительных параметров
- Утилиты и команды управления Pacemaker
- Кластер с кворумом и без
- Сплитбрейн (разделение кластера) и настройка fencing
- Администрирование кластера
- Запуск или остановка
- Замена главных и подчиненных ролей между узлами
- Update ресурса (PAF)
- Незначительное обновление PostgreSQL
- Добавление узла
- Виды сбоев на узлах кластера
- Восстановление работоспособности кластера после аварии (Failover) на master node
- Ошибки автоматического восстановления
- Внезапная перезагрузка master узла
- Перестройка слейва если, он долго выключен был
- Восстановление работоспособности ноды кластера после аварии (Failover)после аварии на masternode
- Подготовка для работы с postgresql
- Настройка master
- Настройка standby
- Общие настройки кластера
- Мониторинг состояния кластера с помощью crm_mon
- Виды планового обслуживания
- Выведение из эксплуатации Мастера или Реплики для плановых работ
- Смена ролей Мастера и Реплики
- Promote/Denote ресурсов pacemaker
- Особенности использования виртуальных машин для ОУК
- Лабораторная работа
Мультиплексоры соединений и балансировщики нагрузки
- Программные мультиплексоры соединений для PostgreSQL, виды и принципы работы
- PgBouncer и его настройка
- Сравнение PgPool-II и PgBouncer
- Лабораторная работа
- Использование HAProxy
- Лабораторная работа
Рекомендуемая схема обучения
Кластерные технологии, системы высокой доступности и надежности на основе БД Postgres текущий курс
4 типа надежности
Когда вы проводите количественное исследование, вы должны учитывать надежность и валидность ваших исследовательских методов и инструментов измерения.
Надежность показывает, насколько последовательно метод что-то измеряет. Когда вы применяете один и тот же метод к одному и тому же образцу в одних и тех же условиях, вы должны получить те же результаты. В противном случае метод измерения может быть ненадежным.
Существует четыре основных типа надежности. Каждый может быть оценен путем сравнения различных наборов результатов, полученных одним и тем же методом.
| Тип надежности | Измеряет плотность… |
|---|---|
| Повторное испытание | Тот же тест за раза . |
| Интеррейтер | Такой же тест провели разные человека . |
| Параллельные формы | Различные версии теста, которые должны быть эквивалентными. |
| Внутренняя согласованность | отдельных элементов теста.![]() |
Тест-повторное испытание надежности
Надежность повторного тестирования измеряет согласованность результатов, когда вы повторяете один и тот же тест на том же образце в другой момент времени. Вы используете его, когда измеряете то, что, как вы ожидаете, останется постоянным в вашем образце.
Тест на дальтонизм для кандидатов-стажеров-пилотов должен иметь высокую надежность повторного тестирования, потому что дальтонизм — это черта, которая не меняется с течением времени.
Почему это важно
Многие факторы могут повлиять на ваши результаты в разные моменты времени: например, респонденты могут испытывать разное настроение или внешние условия могут повлиять на их способность точно отвечать.
Надежность повторного тестирования можно использовать для оценки того, насколько хорошо метод сопротивляется этим факторам с течением времени. Чем меньше разница между двумя наборами результатов, тем выше надежность повторного тестирования.
Как это измерить
Для измерения надежности повторного тестирования вы проводите один и тот же тест на одной и той же группе людей в два разных момента времени. Затем вы вычисляете корреляцию между двумя наборами результатов.
Пример проверки-повторного испытания на надежность
Вы разрабатываете анкету для измерения IQ группы участников (свойство, которое вряд ли существенно изменится со временем).Вы проводите тест с разницей в два месяца для одной и той же группы людей, но результаты значительно отличаются, поэтому надежность опросника IQ при повторном тестировании невысока.
Повышение надежности повторных испытаний
- При разработке тестов или анкет постарайтесь формулировать вопросы, утверждения и задачи таким образом, чтобы они не зависели от настроения или концентрации участников.
- При планировании методов сбора данных постарайтесь свести к минимуму влияние внешних факторов и убедитесь, что все образцы тестируются в одинаковых условиях.

- Помните, что со временем можно ожидать изменений в участниках, и примите их во внимание.
Надежность интеррейтера
Надежность между экспертами (также называемая надежностью между наблюдателями) измеряет степень согласия между разными людьми, наблюдающими или оценивающими одно и то же. Вы используете его, когда данные собираются исследователями, присваивающими рейтинги, баллы или категории одной или нескольким переменным.
В наблюдательном исследовании, в котором группа исследователей собирает данные о поведении в классе, важна межэкспертная надежность: все исследователи должны договориться о том, как классифицировать или оценивать различные типы поведения.
Почему это важно
Люди субъективны, поэтому разные наблюдатели воспринимают ситуации и явления, естественно, по-разному. Надежное исследование направлено на минимизацию субъективности в максимально возможной степени, чтобы другой исследователь мог воспроизвести те же результаты.![]()
При разработке шкалы и критериев для сбора данных важно убедиться, что разные люди будут последовательно оценивать одну и ту же переменную с минимальной погрешностью. Это особенно важно, когда в сборе или анализе данных участвуют несколько исследователей.
Как это измерить
Для измерения надежности между экспертами разные исследователи проводят одно и то же измерение или наблюдение на одной и той же выборке. Затем вы вычисляете корреляцию между их различными наборами результатов. Если все исследователи дают одинаковые оценки, тест имеет высокую межэкспертную надежность.
Пример межэкспертной надежности
Группа исследователей наблюдает за процессом заживления ран у пациентов. Для регистрации этапов заживления используются оценочные шкалы с набором критериев для оценки различных аспектов ран.Сравниваются результаты разных исследователей, оценивающих одну и ту же группу пациентов, и между всеми наборами результатов наблюдается сильная корреляция, поэтому тест имеет высокую межэкспертную надежность.
Повышение межэкспертной надежности
- Четко определите свои переменные и методы, которые будут использоваться для их измерения.
- Разработайте подробные объективные критерии того, как переменные будут оцениваться, подсчитываться или классифицироваться.
- Если задействовано несколько исследователей, убедитесь, что все они имеют одинаковую информацию и одинаковую подготовку.
Надежность параллельных форм
Надежность параллельных форм измеряет корреляцию между двумя эквивалентными версиями теста. Вы используете его, когда у вас есть два разных инструмента оценки или наборы вопросов, предназначенные для измерения одного и того же.
Почему это важно
Если вы хотите использовать несколько разных версий теста (например, чтобы респонденты не повторяли одни и те же ответы по памяти), сначала необходимо убедиться, что все наборы вопросов или измерений дают надежные результаты.
В образовательной оценке часто необходимо создавать разные версии тестов, чтобы учащиеся не имели доступа к вопросам заранее.
Надежность параллельных форм означает, что если одни и те же учащиеся пройдут две разные версии теста на понимание прочитанного, они должны получить одинаковые результаты в обоих тестах.
Как это измерить
Самый распространенный способ измерения надежности параллельных форм — это составить большой набор вопросов для оценки одного и того же, а затем случайным образом разделить их на два набора вопросов.
Одна и та же группа респондентов отвечает на оба набора, и вы рассчитываете корреляцию между результатами. Высокая корреляция между ними указывает на высокую надежность параллельных форм.
Пример надежности параллельных форм
Формулируется набор вопросов для измерения неприятия финансового риска в группе респондентов. Вопросы случайным образом делятся на две группы, а респонденты случайным образом делятся на две группы. Обе группы сдают оба теста: группа A сначала сдает тест A, а группа B сначала сдает тест B.Результаты двух тестов сравниваются, и результаты практически идентичны, что свидетельствует о высокой надежности параллельных форм.
Повышение надежности параллельных форм
- Убедитесь, что все вопросы или тестовые задания основаны на одной теории и сформулированы для измерения одного и того же.
Внутренняя согласованность
Внутренняя согласованность оценивает корреляцию между несколькими элементами теста, которые предназначены для измерения одной и той же конструкции.
Вы можете рассчитать внутреннюю согласованность без повторения теста или привлечения других исследователей, так что это хороший способ оценки надежности, когда у вас есть только один набор данных.
Почему это важно
Когда вы разрабатываете набор вопросов или оценок, которые будут объединены в общую оценку, вы должны убедиться, что все пункты действительно отражают одно и то же. Если ответы на разные вопросы противоречат друг другу, тест может быть ненадежным.
Чтобы измерить удовлетворенность клиентов интернет-магазином, вы можете создать анкету с набором утверждений, с которыми респонденты должны согласиться или не согласиться.
Внутренняя согласованность показывает, являются ли все заявления надежными индикаторами удовлетворенности клиентов.
Как это измерить
Для измерения внутренней согласованности используются два общих метода.
Средняя корреляция между элементами : Для набора показателей, предназначенных для оценки одной и той же конструкции, вы вычисляете корреляцию между результатами всех возможных пар элементов, а затем вычисляете среднее значение.
Разделение надежности на половину : вы случайным образом разбиваете набор мер на два набора. После тестирования всего набора респондентов вы рассчитываете корреляцию между двумя наборами ответов.
Пример внутренней согласованности
Группе респондентов предлагается набор утверждений, предназначенных для измерения оптимистичного и пессимистического мышления. Они должны оценить свое согласие с каждым утверждением по шкале от 1 до 5. Если тест внутренне непротиворечив, оптимистичный респондент обычно должен давать высокие оценки индикаторам оптимизма и низкие оценки индикаторам пессимизма.
Корреляция рассчитывается между всеми ответами на «оптимистические» утверждения, но корреляция очень слабая.Это говорит о низкой внутренней согласованности теста.
Повышение внутренней согласованности
- Будьте осторожны при разработке вопросов или мер: те, которые предназначены для отражения одной и той же концепции, должны основываться на той же теории и быть тщательно сформулированы.
Какой тип надежности применим к моему исследованию?
Важно учитывать надежность при планировании дизайна исследования, сборе и анализе данных, а также при составлении отчета о своем исследовании.Тип надежности, которую вы должны рассчитать, зависит от типа исследования и вашей методологии.
| Какова моя методология? | Какая форма надежности актуальна? |
|---|---|
| Измерение объекта недвижимости, который, как вы ожидаете, останется неизменным с течением времени. | Тест-повторный тест |
| Несколько исследователей, наблюдающих или оценивающих одну и ту же тему. | Интеррейтер |
| Использование двух разных тестов для измерения одного и того же. | Параллельные формы |
| Использование теста с несколькими элементами, в котором все элементы предназначены для измерения одной и той же переменной. | Внутренняя согласованность |
Если возможно и уместно, вам следует статистически рассчитать надежность и указать это вместе с вашими результатами.
Надежность и достоверность измерения — Методы исследования в психологии — 2-е канадское издание
- Определите надежность, включая различные типы и способы их оценки.
- Определите срок действия, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.
Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей.
Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции.Это очень важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные для , чтобы продемонстрировать , что они работают. Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если на этом этапе ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами.Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломался, и либо почините его, либо избавьтесь от него.
Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.
Надежность — это постоянство меры. Психологи рассматривают три типа согласованности: с течением времени (надежность повторного тестирования), по элементам (внутренняя согласованность) и по разным исследователям (надежность между экспертами).
Проверка-повторная проверка надежности Когда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени.Надежность повторного тестирования — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же баллы на следующей неделе, что и сегодня. Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.![]()
Оценка надежности повторного тестирования требует одновременного использования этого показателя на группе людей, его повторного использования на той же группе людей позднее, а затем изучения корреляции между тестами и повторными тестами между двумя наборами оценок. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления r Пирсона. На рис. 5.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю.Коэффициент Пирсона для этих данных равен +,95. Как правило, корреляция между тестами и повторными тестами, равная +80 или выше, считается показателем хорошей надежности.
Рис. 5.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов по шкале самооценки Розенберга, полученными два раза в неделю с разницей. время, которое относится к интеллекту, самооценке и измерениям личности Большой пятерки.
Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и повторными тестами в течение месяца, не будет поводом для беспокойства.
Второй вид надежности — это внутренняя согласованность, то есть согласованность ответов людей по всем пунктам при измерении нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки.
Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут стабильно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию разделенных половин. Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 5.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Pearson r для этих данных составляет +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
. статистика называется α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, обычно используется значение +80 или больше, чтобы указать на хорошую внутреннюю согласованность.
Надежность Interrater Многие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика.Межэкспертная надежность — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы хотите измерить социальные навыки студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые.
Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Достоверность — это степень, в которой баллы меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность.
Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей.Хотя эта мера имела бы чрезвычайно хорошую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят его на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.
Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Лицевая достоверность — это степень, в которой метод измерения проявляется «на лице» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки длиной пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она обычно оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а, скорее, соответствие модели ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действияДостоверность содержания — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями в отношении чего-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерияДостоверность критерия — это степень, в которой оценки людей по какому-либо показателю коррелируют с другими переменными (известными как критерии), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелироваться с общим беспокойством и артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноубординг и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как предсказательная достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими показателями тех же конструктов.Это известно как конвергентная достоверность .
Оценка конвергентной достоверности требует сбора данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная действительностьДискриминантная валидность, с другой стороны, — это степень, в которой оценки по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки сильно коррелировал с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
- Исследователи-психологи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
- Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами). Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
- Действительность — это судебное решение, основанное на различных типах доказательств. Соответствующие свидетельства включают надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
- Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.
- Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вы также можете вычислить r Пирсона, если знаете как.
- Обсуждение: Вспомните последний экзамен в колледже, который вы сдавали, и думайте об этом как о психологической мере. Как вы думаете, для измерения какой конструкции она предназначалась? Прокомментируйте его лицо и достоверность содержания.Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
Виды надежности
Пояснения > Социальные исследования> Дизайн> Типы надежности
Inter-Rater | Тест-ретест | Параллельные формы | Внутренняя согласованность | Также
«Надежность» любого исследования — это степень, в которой оно дает точную оценка по диапазону измерений.Таким образом, это можно рассматривать как «повторяемость» или «последовательность». Итого:
Надежность между оценщиками
Когда несколько человек дают какие-либо оценки или являются объектами какого-то теста, то похожие люди должны дать одинаковые итоговые баллы. Это может использоваться для калибровки людей, например тех, которые используются в качестве наблюдателей в эксперимент.
Таким образом, межэкспертная надежность оценивает надежность разные люди .
Два основных способа использования межэкспертной надежности: (а) тестирование того, как аналогично люди классифицируют пункта, и (б) как аналогично люди набирают позиции.
Это лучший способ оценки надежности при использовании наблюдения, поскольку предвзятость наблюдателя очень легко вкрадывается. Однако предполагается, что у вас есть несколько наблюдателей, что бывает не всегда.
Надежность между экспертами также известна как надежность между наблюдателями или межкодерная надежность .
Примеры
Двух людей могут попросить отнести изображения животных к категории собак или кошки. Совершенно надежным результатом будет то, что они оба относятся к одному и тому же картинки точно так же.
Наблюдателей, используемых для оценки стресса заключенных, просят оценить несколько «пустышки», которых проинструктировали, чтобы они отвечали запрограммированным и последовательным образом. Отклонение результатов от стандарта дает меру их надежности.
В тестовом сценарии IQ-тест применялся к нескольким людям с истинной оценкой 120 должно дать 120 баллов для всех. На практике будет обычно бывают какие-то различия между людьми.
Тестирование-повторное тестирование надежности
Оценка или тест человека должны давать одинаковые результаты всякий раз, когда вы применить тест.
Надежность повторного тестирования оценивает надежность за период .
Надежность может варьироваться в зависимости от многих факторов, влияющих на реакцию человека. к тесту, включая их настроение, перерывы, время суток и т. д.Хороший тест будет в значительной степени справляться с такими факторами и давать относительно небольшие вариации. An ненадежный тест очень чувствителен к этим факторам и даст сильно различающиеся результаты. результаты, даже если человек повторно пройдет тот же тест через полчаса.
Вообще говоря, чем больше задержка между тестами, тем больше вероятная вариация. Более качественные тесты дадут меньше вариаций повторных тестов при более длительных тестах. задержки.
Конечно, проблема с повторным тестированием состоит в том, что люди могли научиться и что второй тест может дать другие результаты.
Этот метод особенно используется в экспериментах, в которых не используется контрольная группа, которая измеряет до и после тестирования.
Примеры
Различные вопросы для личностного теста опробуются с классом студенты более нескольких лет. Это помогает исследователю определить эти вопросы. и комбинации с большей надежностью.
При разработке общенациональных школьных тестов классу детей дается несколько тестов, предназначенных для оценки одних и тех же способностей.Неделя и месяц позже они проходят те же тесты. С учетом учёбы вариации в тесте и результаты повторного тестирования используются для оценки того, какие тесты лучшая тестовая надежность.
Надежность параллельных форм
Одна проблема с вопросами или оценками — это знать, какие вопросы лучше всего спросить. Способ обнаружить это — провести два теста параллельно, используя разные вопросы.
Надежность параллельных форм позволяет оценивать различные вопросы и наборы вопросов, которые стремятся оценить одну и ту же конструкцию.
Оценка параллельных форм может выполняться в сочетании с другими методами, такими как как Разделить половину , который разделяет элементы, имеющие одну и ту же конструкцию, на два теста и применяет их к одной и той же группе людей.
Примеры
Экспериментатор разрабатывает большой набор вопросов. Они разделили их на два и вводить их каждому из случайно выбранной половины целевой выборки.
При разработке национальных тестов одновременно используются два разных теста. в испытаниях.Используется тест, который дает наиболее стабильные результаты, в то время как другой (при условии, что он достаточно согласован) используется в качестве резервной копии.
Надежность внутренней согласованности
Задача вопросов в исследовании — оценить ответ против данной конструкции или идеи. Различные вопросы, которые проверяют одно и то же конструкция должна давать последовательные результаты.
Надежность внутренней согласованности оценивает отдельные вопросы по сравнению друг с другом за их способность последовательно отдавать соответствующие результаты.
Средняя корреляция между элементами сравнивает корреляции между всеми парами вопросов, которые проверяют одну и ту же конструкцию путем вычисления среднего значения всех парных корреляции.
Общая корреляция среднего элемента занимает среднее значение между элементами корреляции и вычисляет общий балл по каждому пункту, а затем усредняет его.
Корреляция с разделением половин разделяет элементы, измеряющие одну и ту же конструкцию на два теста, которые применяются к одной и той же группе людей, затем вычисляет корреляция между двумя общими баллами.
Альфа Кронбаха вычисляет эквивалент среднего всех возможных корреляций разделения половин и рассчитывается следующим образом:
a = (N. r-bar) / (1 + (N-1). R-bar)
Где N — количество компонентов,
а r-bar — это среднее значение всех коэффициентов корреляции Пирсона
Надежность и действительность
Надежность и действительностьИЗУЧЕНИЕ НАДЕЖНОСТИ В АКАДЕМИЧЕСКОЙ ОЦЕНКЕ
Авторы Колин Фелан и Джули Рен, помощники выпускников, UNI Office of Academic Assessment (2005-06)
Надежность — это степень, в которой инструмент оценки обеспечивает стабильную и стабильные результаты.
Виды надежности
- Проверка-повторная проверка надежности — это мера надежности, полученная путем проведения одного и того же теста дважды в течение период времени для группы лиц. Результаты за время 1 и время 2 затем можно скоррелировать, чтобы оценить тест на стабильность по сравнению с время.
Пример: Тест, предназначенный для оценки успеваемости студентов по психологии, может быть сдан группа студентов дважды, вторая администрация, возможно, придет через неделю после первого.Полученный коэффициент корреляции будет указывать на стабильность результатов.
- Надежность параллельных форм является мерой надежности, полученной путем администрирования различных версий инструмент оценки (обе версии должны содержать элементы, которые проверяют одинаковые конструкция, навыки, база знаний и т. д.) одной и той же группе лиц. Затем оценки двух версий можно сопоставить, чтобы оценить согласованность результатов в альтернативных версиях.
Пример: Если вы хотите оценить надежность оценки критического мышления, вы можете создать большой набор элементов, относящихся к критическому мышлению и затем случайным образом разделите вопросы на два набора, которые будут представлять параллельные формы.
- Межэкспертная надежность — это мера надежности, используемая для оценки степени, в которой разные судьи или оценщики соглашаются в своих оценочных решениях.Межэкспертная надежность полезно, потому что наблюдатели не обязательно интерпретируют ответы на так же; оценщики могут не согласиться с тем, насколько хорошо те или иные ответы или материалы продемонстрировать знание оцениваемого конструкта или навыка.
Пример: Надежность между экспертами может использоваться, когда разные судьи оценка степени соответствия художественных портфелей определенным стандартам. Межэкспертная надежность особенно полезна, когда можно принимать во внимание суждения. относительно субъективно.Таким образом, использование этого типа надежности, вероятно, быть более вероятным при оценке художественных работ, чем при решении математических задач.
- Надежность внутренней согласованности это мера надежности, используемая для оценки степени, в которой разные элементы теста, исследующие одну и ту же конструкцию, дают аналогичные результаты.
- Среднее межпозиционное корреляция — это подтип надежности внутренней согласованности.это полученный путем взятия всех элементов теста, которые проверяют одно и то же построить (например, понимание прочитанного), определяя корреляцию коэффициент для каждой пары элементов, и, наконец, принимая среднее всех этих коэффициентов корреляции. Этот последний шаг дает среднюю корреляцию между пунктами.
- Надежность при разделении половин еще один подтип надежности внутренней согласованности.Процесс Получение надёжности вдвое начинается с разделения всех пополам. элементы теста, которые предназначены для исследования той же области знаний (например, Вторая мировая война), чтобы сформировать два набора предметов. Модель весь тест проводится группе лиц, всего вычисляется оценка для каждого набора, и, наконец, надежность разделения половин получается путем определения корреляции между двумя полными наборами оценки.
Срок действия относится к тому, насколько хорошо тест измеряет то, что он должен измерять.
Почему это необходимо?
Хотя надежность необходима, она сама по себе не достаточно. Чтобы тест был надежным, он также должен быть действительным. Для Например, если ваши весы отклонены от нормы на 5 фунтов, они будут считывать ваш вес каждый день с помощью превышение 5 фунтов. Шкала надежна, потому что показывает одно и то же. веса каждый день, но это недействительно, потому что оно добавляет 5 фунтов к вашему истинному весу. Это неверный показатель вашего веса.
Типы действия
Пример : Если мера искусства признательность создается, все предметы должны быть связаны с разными компоненты и виды искусства.Если вопросы касаются исторического времени периоды, без ссылки на какое-либо художественное движение, заинтересованные стороны не могут быть мотивированы приложить все усилия или инвестировать в эту меру, потому что они Не верю, что это истинная оценка художественной оценки.
2. Срок действия конструкции используется, чтобы гарантировать, что мера действительно измерять то, что он предназначен для измерения (т. е. конструкцию), а не другие переменные. Использование группы экспертов, знакомых с конструкцией, — это способ который может быть оценен этим типом достоверности.Эксперты могут осмотреть предметы и решить, что этот конкретный элемент предназначен для измерения. Студенты могут быть участвуют в этом процессе, чтобы получить их отзывы.
Пример : исследования женщин Программа может разработать совокупную оценку обучения по основной специальности. Вопросы написаны со сложной формулировкой и формулировкой. Это может вызвать тест непреднамеренно становится тестом на понимание прочитанного, а не тест женских исследований. Важно, чтобы мера действительно оценивала предполагаемая конструкция, а не посторонний фактор.
3. Срок действия по критерию равен используется для прогнозирования будущих или текущих показателей — коррелирует результаты испытаний с еще один интересующий критерий.
Пример : Если физическая программа разработал меру для оценки совокупного обучения студентов по основной специальности. Новый показатель может быть соотнесен со стандартизированным показателем способностей в эта дисциплина, например полевой тест ETS или предметный тест GRE. Выше соотношение между установленной мерой и новой мерой, тем больше веры заинтересованные стороны могут иметь в новом инструменте оценки.
Пример : При разработке рубрики по истории можно было оценить знания студентов по дисциплине. Если мера может предоставить информацию о том, что учащимся не хватает знаний в определенных области, например Движение за гражданские права, тогда этот инструмент оценки предоставление значимой информации, которая может быть использована для улучшения курса или программные требования.
5. Срок действия выборки (аналогично достоверность содержания) гарантирует, что мера охватывает широкий диапазон областей в рамках исследуемой концепции.Не все можно покрыть, поэтому предметы необходимо быть отобранным со всех доменов. Это может потребоваться выполнить с помощью панели экспертов, чтобы обеспечить адекватную выборку из области содержания. Кроме того, панель может помочь ограничить предвзятость экспертов (т. Е. Тест, отражающий то, что человек лично считает, что это наиболее важные или актуальные области).
Пример : При проектировании оценка обучения на театральном факультете, недостаточно покрывают только вопросы, связанные с актерской деятельностью.Другие области театра, такие как освещение, звук, должны быть включены все функции режиссеров. Оценка должен полностью отражать область содержимого.
- Убедитесь, что ваши цели и задачи четко определены и введены в действие. Ожидания студентов должны быть записано.
- Сопоставьте свою меру оценки с ваши цели и задачи. Кроме того, пусть тест будет рассмотрен преподавателями. в других школах, чтобы получить обратную связь от сторонней стороны, которая менее вложил в инструмент.
- Вовлекайте студентов; иметь учащиеся просматривают экзамен на предмет проблемных формулировок или других сложности.
- Если возможно, сравните свою меру с другими показателями или данными, которые могут быть доступны.
Список литературы
Американские исследования в области образования Ассоциация, Американская психологическая ассоциация, &
Национальный Совет по измерениям в образовании. (1985). Стандарты образовательных и психологическое тестирование . Вашингтон, округ Колумбия: Авторы.
Cozby, P.C. (2001). Измерение Концепции. Методы поведенческих исследований (7 -е изд. ).
Калифорния: Издательская компания Мэйфилд.
Кронбах, Л. Дж. (1971). Проверка теста. В Р. Л. Торндайке (Ред.). Образовательный
Измерение (2-е изд.). Вашингтон, округ Колумбия: Американский совет по образованию.
Москаль Б.М., Лейденс Дж. А. (2000). Развитие рубрики скоринга: Срок действия и
надежность. Практическая оценка, исследования и оценка, 7 (10). [Доступно онлайн: http://pareonline.net/getvn.asp?v=7&n=10].
Центр усовершенствования Обучение. Как повысить надежность теста и
срок действия: Последствия для выставления оценок. [Доступно в Интернете: http://oct.sfsu.edu/assessment/evaluating/htmls/improve_rel_val.html].
4.2 Надежность и достоверность измерения — методы исследования в психологии
Задачи обучения
- Определите надежность, включая различные типы и способы их оценки.
- Определите срок действия, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.
Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей. Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции.Это очень важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные для , чтобы продемонстрировать , что они работают. Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если на этом этапе ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами.Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломался, и либо почините его, либо избавьтесь от него. Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.
НадежностьНадежность означает постоянство меры. Психологи рассматривают три типа согласованности: с течением времени (надежность повторного тестирования), по элементам (внутренняя согласованность) и по разным исследователям (надежность между экспертами).
Тестирование-повторное тестированиеКогда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени. Надежность повторных испытаний — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же баллы на следующей неделе, что и сегодня.Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.
Оценка надежности повторного тестирования требует использования этого показателя на группе людей за один раз, его повторного использования на той же группе людей позднее, а затем анализа корреляции повторного тестирования между двумя наборами оценки. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления коэффициента корреляции.На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю. Коэффициент корреляции для этих данных составляет +,95. Как правило, корреляция между тестами и повторными тестами, равная +80 или выше, считается показателем хорошей надежности.
Рис. 4.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с интервалом
Опять же, высокая корреляция между тестами и ретестами имеет смысл, когда предполагается, что измеряемый конструкт остается неизменным во времени, что имеет место в случае интеллекта, самооценки и измерений личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и повторными тестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованностьДругой вид надежности — это внутренняя согласованность , которая представляет собой согласованность ответов людей по всем пунктам при измерении нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут стабильно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию и половину . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 4.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных равен +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
Рисунок 4.3 Распределенная корреляция между результатами нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга
Пожалуй, наиболее распространенной мерой внутренней согласованности, используемой исследователями в области психологии, является статистика под названием α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, обычно используется значение +80 или больше, чтобы указать на хорошую внутреннюю согласованность.
Надежность InterraterМногие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика. Надежность между экспертами — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы хотите измерить социальные навыки студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Срок действияДействительность — это степень, в которой баллы из меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей.Хотя эта мера имела бы чрезвычайно хорошую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят его на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Лицевая действительностьЛицевая достоверность — это степень, в которой метод измерения проявляется «на поверхности» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки длиной пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она обычно оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а, скорее, соответствие модели ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия содержимогоДостоверность содержимого — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями в отношении чего-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерияДостоверность критерия — это степень, в которой оценки людей по показателю коррелируют с другими переменными (известными как критерии ), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелироваться с общим беспокойством и артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноубординг и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как предсказательная достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими установленными показателями тех же конструктов.Это известно как конвергентная достоверность .
Оценка конвергентной достоверности требует сбора данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидностьДискриминантная валидность , с другой стороны, — это степень, в которой оценки по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки сильно коррелировал с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
Основные выводы
- Исследователи-психологи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
- Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами).Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
- Действительность — это судебное решение, основанное на различных типах доказательств. Соответствующие свидетельства включают надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
- Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.
Упражнения
- Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вычислите коэффициент корреляции и , если знаете как.
- Обсуждение: Вспомните последний экзамен в колледже, который вы сдавали, и думайте об этом как о психологической мере.Как вы думаете, для измерения какой конструкции она предназначалась? Прокомментируйте его лицо и достоверность содержания. Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
Надежность исследований — Методология исследования
Надежность означает, получите ли вы один и тот же ответ, используя инструмент для измерения чего-либо более одного раза. Проще говоря, надежность исследования — это степень, в которой метод исследования дает стабильные и последовательные результаты.
Конкретная мера считается надежной, если ее применение к одному и тому же объекту измерения несколько раз дает одинаковые результаты.
Надежность исследования можно разделить на три категории:
1. Надежность повторного тестирования относится к степени надежности, которая была получена путем проведения одного и того же теста более одного раза в течение определенного периода времени с участием одной и той же группы выборки.
Пример: Сотрудников компании ABC могут попросить заполнить одну и ту же анкету об удовлетворенности работой сотрудников два раза с интервалом в одну неделю, чтобы можно было сравнить результаты теста для оценки стабильности оценок.
2. Надежность параллельных форм относится к показателю, который получается путем проведения оценки одних и тех же явлений с участием одной и той же группы выборки с помощью более чем одного метода оценки.
Пример: Уровни удовлетворенности сотрудников компании ABC можно оценить с помощью анкет, глубинных интервью и фокус-групп, и можно сравнить результаты.
3. Надежность между оценщиками , как следует из названия, относится к измерению наборов результатов, полученных разными оценщиками с использованием одних и тех же методов.Преимущества и важность оценки надежности между экспертами можно объяснить, ссылаясь на субъективность оценок.
Пример: Уровни мотивации сотрудников в компании ABC могут быть оценены с использованием метода наблюдения двумя разными оценщиками, а надежность между оценщиками связана со степенью разницы между двумя оценками.
4. Надежность внутренней согласованности применяется для оценки степени различий в элементах тестирования, которые исследуют одну и ту же конструкцию и дают аналогичные результаты.Он может быть представлен в двух основных форматах.
a) средняя корреляция между элементами — это особая форма внутренней согласованности, которая получается путем применения одной и той же конструкции к каждому элементу теста
b) надежность с разделением половин как другой тип надежности внутренней согласованности включает в себя «разделение пополам» всех элементов теста.
Моя электронная книга, Полное руководство по написанию диссертации в области бизнес-исследований: пошаговая помощь предлагает практическую помощь в завершении диссертации с минимальным стрессом или без него.Электронная книга охватывает все этапы написания диссертации, начиная от выбора и заканчивая областью исследования и сдачей завершенной версии работы в установленные сроки. Джон Дудовский
Надежность и последовательность в психометрии
Когда мы называем кого-то или что-то надежным, мы имеем в виду, что они последовательны и надежны. Надежность также является важной составляющей хорошего психологического теста. В конце концов, тест не был бы очень ценным, если бы он был непоследовательным и каждый раз давал разные результаты.Как психологи определяют надежность? Какое влияние это оказывает на психологическое тестирование?
Надежность — это постоянство меры. Тест считается надежным, если мы неоднократно получаем один и тот же результат. Например, если тест предназначен для измерения черты характера (например, интроверсии), то каждый раз, когда тест проводится субъекту, результаты должны быть примерно одинаковыми. К сожалению, точно рассчитать надежность невозможно, но ее можно оценить по-разному.
Тестирование-повторное тестирование надежности
Надежность повторного тестирования — это мера последовательности психологического теста или оценки. Такая надежность используется для определения устойчивости теста во времени. Надежность повторного тестирования лучше всего использовать для вещей, которые стабильны во времени, например, для интеллекта.
Надежность повторного тестирования измеряется путем проведения теста дважды в два разных момента времени. Этот тип надежности предполагает, что не будет никаких изменений в качестве или измеряемой конструкции.В большинстве случаев надежность будет выше, если между тестами прошло мало времени.
Метод повторного тестирования — это лишь один из способов определения надежности измерения. Другие методы, которые могут быть использованы, включают надежность между экспертами, внутреннюю согласованность и надежность параллельных форм.
Важно отметить, что надежность повторного тестирования относится только к согласованности теста, но не обязательно к достоверности результатов.
Надежность между оценщиками
Этот тип надежности оценивается двумя или более независимыми судьями, оценивающими тест.Затем оценки сравниваются, чтобы определить согласованность оценок рейтеров.
Один из способов проверить надежность между экспертами — это попросить каждого оценщика присвоить каждому элементу теста оценку. Например, каждый оценщик может выставлять баллы по шкале от 1 до 10. Затем вы должны вычислить корреляцию между двумя оценками, чтобы определить уровень надежности между оценщиками.
Еще один способ проверки надежности между оценщиками состоит в том, чтобы оценщики определяли, в какую категорию попадает каждое наблюдение, а затем вычисляли процент согласия между оценщиками.Таким образом, если оценщики соглашаются 8 раз из 10, тест имеет 80% -ную степень надежности между оценщиками.
Надежность параллельных форм
Надежность параллельных форм оценивается путем сравнения двух разных тестов, созданных с использованием одного и того же контента. Это достигается путем создания большого пула элементов теста, которые измеряют одинаковое качество, а затем случайного разделения элементов на два отдельных теста. Затем эти два теста следует проводить одновременно с одними и теми же испытуемыми.
Надежность внутренней согласованности
Эта форма надежности используется для оценки согласованности результатов по элементам одного и того же теста.По сути, вы сравниваете элементы теста, которые измеряют одну и ту же конструкцию, чтобы определить внутреннюю согласованность тестов.
Когда вы видите вопрос, который кажется очень похожим на другой вопрос теста, это может означать, что эти два вопроса используются для оценки надежности.
Поскольку эти два вопроса схожи и предназначены для измерения одного и того же, тестируемый должен ответить на оба вопроса одинаково, что указывало бы на внутреннюю непротиворечивость теста.
Факторы влияния
Существует ряд различных факторов, которые могут повлиять на надежность меры. Во-первых, что, возможно, наиболее очевидно, важно, чтобы объект, который измеряется, был достаточно стабильным и непротиворечивым.Если измеряемая переменная является чем-то, что регулярно изменяется, результаты теста не будут согласованными.
Некоторые аспекты тестовой ситуации также могут повлиять на надежность. Например, если тест проводится в очень жаркой комнате, респонденты могут отвлекаться и быть не в состоянии выполнить тест в меру своих возможностей.Это может повлиять на надежность измерения.
Другие вещи, такие как усталость, стресс, болезнь, мотивация, плохие инструкции и отвлекающие факторы окружающей среды, также могут повредить надежности.
Надежность и действительность
Важно отметить, что то, что тест надежен, не означает, что он действителен. Валидность относится к тому, действительно ли тест измеряет то, что, по его утверждению, измеряется.
Рассматривайте надежность как меру точности, а достоверность как меру точности.В некоторых случаях тест может быть надежным, но недействительным.
Например, представьте, что соискатели проходят тест, чтобы определить, обладают ли они определенной личностной чертой. Хотя тест может давать стабильные результаты, на самом деле он может не измерять черту, которую он призван измерять.
.
