По наиболее распространенному определению, введенному американским психологом С. Стивенсом в 1946 г., измерение – это процедура приписывания чисел некоторым характеристикам объектов в соответствии с определенными правила ми [4]. Предложенное Стивенсом определение появилось в результате формального обобщения опыта количественных измерений, широко распространенных в физике и других естественных науках, но его на протяжении многих лет брали за основу и при трактовке представлений об измерениях в образовании.
По мере развития педагогики, психологии, социологии и других эмпирических наук возникла потребность во введении не только количественных, но и качественных оценок, поскольку, помимо величин, встречающихся в естественных науках, существуют другие показатели, отличающиеся по степени проявления того или иного свойства и поддающиеся измерению. Пожалуй, наиболее важную роль здесь сыграли социологические обследования и психологические тесты, по результатам которых выявлялись межкультурные различия либо социальные общности, строящиеся на основе факторного анализа результатов выполнения тестов. По данным факторизации проводилось многомерное шкалирование, результаты которого позволяли объединять сходные группы индивидов. Им приписывались некоторые символы или просто числа, в последнем случае создавалась видимость получения количественных оценок. На деле эти оценки имели качественный характер в силу того, что они получались путем привлечения экспертов.
Связь между количественными и качественными оценками устанавливается на основе традиционно сложившегося разделения их на две группы: классифицирующие или сравнительные оценки относят к категории качественных, метрические – считаются количественными. Качественные оценки всегда бывают менее точными по сравнению с количественными в силу способов и инструментов, применяемых для их получения. Например, на устном экзамене классифицирующие понятия (знающий, аттестованный, подготовленный или «отлично», «хорошо», «удовлетворительно» и др.) определяются субъективно с помощью суждений экзаменатора и содержат в себе, как правило, значительный ошибочный компонент. Поскольку эти суждения принимаются за оцениваемые характеристики объектов, то их надо уметь распознавать, отождествлять, сравнивать, абстрагировать и обобщать. Для удобства оценочные суждения выражают в виде некоторых баллов по традиционной пятибалльной шкале или по любой другой, которая выбирается на основе экспертных соглашений. Приписываемые числа могут быть не вполне определенны в тех случаях, когда для построения качественных шкал не используются измерители. Например, при традиционном контроле у каждого преподавателя есть свои представления о том, за что нужно ставить 5, 4, 3 и т.д.
Измерения можно подразделить на физические, характерные для естественных наук, и нефизические, встречающиеся в науках эмпирических. По времени появления физические измерения предшествовали нефизическим, потребность в последних сформировалась и стала развиваться в связи с запросами педагогики, психологии, экономики и социологии, нуждающихся в отражении на шкале оценочных суждений для их фиксации и сопоставления.
Принципиальное отличие одного класса измерений от другого лежит в области объектов, подвергающихся оценкам. В физических измерениях в большинстве своем присутствуют вполне реальные объекты. В эмпирических – все оцениваемые характеристики носят в основном латентный (скрытый) характер, препятствующий непосредственному измерению. В силу латентности оцениванию подвергаются не сами характеристики, а их эмпирические референты – наблюдаемые признаки характеристик. Выбор таких референтов происходит интуитивно, поэтому их соответствие латентным характеристикам нуждается в тщательном доказательстве, проводимом на основе экспертного и статистического анализа эмпирических результатов измерения.
При оценивании латентные характеристики (переменная А) являются первопричиной, порождающей наблюдаемое множество результатов измерения (переменная В). Однако на практике совершается обратный шаг, поскольку, именно отталкиваясь от наблюдаемых результатов, можно получить оценки латентных характеристик с определенной ошибкой измерения (рис. 2.1).
Рис. 2.1. Связь между латентной и наблюдаемой переменными
Неизбежная латентность переменных измерения, в роли которых в образовании выступают уровни освоения знаний, умений, навыков или компетенций, приводит к необходимости проверки адекватности полученных оценок концептуальной переменной (переменным) измерения и точности оценок, что обеспечивается благодаря коррекции свойств измерителя.
С течением времени в эмпирических науках определение измерений по Стивенсу было признано неудовлетворительным по двум причинам. Во-первых, оно не учитывало того, что результатами измерения могут быть не только числа. Во-вторых, оно никак не регламентировало правила измерения, хотя вся суть процедуры кроется именно в тех самых правилах, в соответствии с которыми осуществляется приписывание чисел. В связи с этим в 80-х гг. XX в. появилась современная теория измерений, строящаяся на более строгой аксиоматической основе и значительно расширяющая традиционные представления об измерениях в психологии и образовании [10].
В соответствии с современными воззрениями, педагогическое измерение можно трактовать как конструирование любой функции, осуществляющей изоморфное отображение некоторой эмпирической структуры в соответствующим образом подобранную числовую структуру, представляющую собой шкалу оценок качества учебных достижений или других конструктов, являющихся целью измерения. Изоморфизм – важное понятие математики, которое определяет ряд условий для взаимно однозначного отображения двух множеств с сохранением их свойств процессе отображения. Хотя само по себе это понятие возникло в высшей алгебре, в наше время оно трактуется довольно широко и используется не вполне строго в понятийном аппарате ряда наук, как, например, в теории педагогических измерений.
Отображающая функция понимается достаточно обобщенно, поскольку позволяет устанавливать различные, не только количественные отношения между объектами, но и проводить любые, в том числе качественные оценки. Под процедурой измерения предлагается понимать совокупность эмпирических операций, позволяющих установить оценки измеряемых характеристик и представить их в количественной или качественной шкале. Поскольку эмпирическая структура и строящаяся по результатам оценивания числовая структура (шкала) изоморфны, то, имея шкалу, можно, не обращаясь непосредственно к измеряемым объектам, восстановить все их свойства, характерные для эмпирической структуры.
Процесс педагогических измерений включает:
• выбор предмета измерения, под которым понимается одна или несколько латентных характеристик объектов (выбор переменных измерения и их числа);
• выбор эмпирических референтов (наблюдаемых характеристик объектов), замещающих латентные переменные;
• выбор измерительных процедур;
• конструирование и использование измерительных инструментов;
• выбор шкалы (если измеряемая переменная одна) или шкал (если измеряют более одной переменной при многомерных измерениях);
• построение отображения результатов измерения на шкалу (шкалы в случае многомерных измерений) по определенным процедурам и правилам;
• анализ и интерпретацию результатов измерения.
Таким образом, процесс педагогических измерений состоит из совокупности операций, позволяющих получить количественные или качественные оценки измеряемых характеристик. Правильная организация процесса педагогического измерения очень важна, поскольку любые нарушения стандартизованных условий проведения, обработки, анализа и интерпретации результатов измерения снижают обоснованность и точность получаемых оценок. Приведенные компоненты процесса измерения имеют свои аналоги в традиционном контроле, где эти процедуры носят интуитивный характер и основываются на эмпирическом опыте педагога. При тестировании каждая компонента проходит процесс анализа и научного обоснования качества, базирующегося на теории педагогических измерений. Особенно важно такое обоснование, если речь идет об итоговом контроле, результаты которого связаны с принятием важных административных решений при аттестации выпускников или оценке эффективности деятельности учебных заведений. Тогда объектом измерения становятся знания, умения, навыки и компетенции, нередко называемые обобщающим термином «учебные достижения», структуру и уровень сформированности которых сравнивают с требованиями ФГОС при принятии аттестационных решений.
Отклонения получаемых результатов измерения от истинных значений измеряемых латентных характеристик представляют большую опасность в эмпирических науках, так как в силу латентного характера измеряемых переменных их не всегда можно своевременно выявить и скорректировать. Величину такого отклонения принимают за ошибку измерения. Возможность оценивания ошибки измерения является тем ключевым критерием, который позволяет провести четкую грань между оценками (количественными или качественными), которые можно считать результатами измерения, и результатами традиционного контроля. Эта же возможность выступает в качестве основного аргумента в защиту тестов. В отличие от традиционных средств контроля, не обеспечивающих никаких данных о точности оценок достижений студентов, тесты позволяют установить величину ошибки измерения и оценить тем самым надежность полученных оценок.
В силу существования ошибок измерения оцениваемые характеристики объектов могут принимать более или менее точные значения, поэтому такие характеристики обычно называют переменными измерения. По этой же причине принято говорить о надежных или ненадежных педагогических измерениях, где надежность характеризует степень устойчивости (повторяемости) и точности результатов измерения. Другая характеристика качества результатов педагогического измерения обычно называется валидностью. В самом общем случае она трактуется как адекватность эмпирических результатов поставленной цели измерения [14, 17, 28, 35, 36].
Цели педагогического измерения могут быть самыми разными, поэтому анализ валидности должен быть многоаспектным. Важнейшее место в нем занимает оценка конструктной валидности, строящаяся на доказательстве адекватности эмпирических референтов концептуально выделенной переменной (переменных) измерения. Таким образом, в практической работе по созданию теста анализ конструктной валидности находит свое отражение в работе по проведению доказательства того, что выбранные тестовые задания по своему содержанию и статистическим характеристикам позволяют оценить именно те аспекты подготовленности обучаемого, которые создатель теста намеревался измерить.
Проблема оценивания конструктной валидности приобретает особую актуальность в связи с введением компетентностного подхода к трактовке качества результатов образования. Никто не будет сомневаться в том, что набор заданий, в которых требуется перемножить числа, действительно проверяет навыки умножения. Значительно труднее разобраться в том, какую переменную оценивают междисциплинарные задания, характерные для компетентностных тестов. В последнем случае для выявления конструктной валидности приходится привлекать факторный и корреляционный анализ, оценивать число измеряемых переменных, сопоставлять содержательную трактовку результатов измерения с результатами, полученными по давно существующим и зарекомендовавшим себя тестам.
Измерительный инструмент включает два компонента. Один из них – само измеряющее устройство, роль которого при педагогических измерениях в большинстве случаев отводится тесту. В самом обобщенном виде под тестом можно понимать совокупность контрольных заданий в стандартизованной форме, обладающих необходимыми системообразующими статистическими характеристиками и обеспечивающих надежные и валидные оценки концептуально выделенной переменной (переменных) измерения. Таким образом, в самом определении теста заложены требования к его качеству, отсутствующие в традиционных оценочных средствах.
Многие преподаватели, никогда не принимавшие участия в процессе создания теста профессионалами и не имеющие специальной подготовки по теории педагогических измерений, путают тесты с наборами контрольных заданий, необоснованно полагая, что достаточно последние представить в форме задания с выбором ответа, как сразу получится педагогический тест. Этому поверхностному и неправильному восприятию педагогических тестов способствует латентная (скрытая от возможностей непосредственного наблюдения) природа характеристик тестовых заданий, которые проявляются только в процессе применения теста на выборке студентов и выявляются при обработке и анализе эмпирических данных тестирования. Иными словами, узнать тест это или набор обычных контрольных заданий можно только после анализа результатов апробации заданий на представительной выборке студентов.
Анализ предваряет специальная обработка данных апробации, основанная на аппарате теории педагогических измерений, позволяющая оценить статистические характеристики заданий, соотнести их с требованиями теории педагогических измерений и наметить пути коррекции характеристик для получения из набора контрольных заданий педагогического теста. Сама по себе форма заданий не имеет значения, поскольку с первого взгляда тестовые задания могут ничем не отличаться от традиционных контрольных и не иметь готовых ответов. Внешним необходимым, но не достаточным признаком теста может служить только число заданий, которых не должно быть меньше 25.
Таким образом, радикальное отличие теста от обычных заданий состоит не в форме представления вопросов и ответов, а в опоре на теорию педагогических измерений в процессе его создания и применения, что позволяет получить ряд важных преимуществ, отсутствующих в тех случаях, когда не используются тесты. В частности, благодаря аппарату теории педагогических измерений можно:
• повысить полноту охвата содержания дисциплины в контрольных материалах за счет большого числа заданий в тесте (не менее 25);
• проанализировать степень достоверности (уровень объективности) оценок подготовленности студентов, выявив величину ошибки измерения (надежность результатов измерений);
• проанализировать степень обоснованности оценок подготовленности студентов, выявив уровень соответствия полученных результатов контроля поставленной цели его проведения путем оценивания величины валидности результатов измерений;
• получить статистические оценки трудности заданий, отличающиеся от экспертных оценок высокой достоверностью;
• повысить эффективность контроля путем оптимизации трудности, валидности и системообразующих свойств (оценок корреляции) тестовых заданий при создании теста;
• обеспечить высокую сопоставимость оценок студентов за счет представления результатов тестирования в стандартных шкалах, введения норм и выравнивания при сравнительном анализе результатов выполнения тестов.
Высокая надежность и валидность инструментария не служит гарантией качества результатов педагогического измерения, но является необходимым условием его достижения, поскольку большое значение имеет также стандартизация процедуры применения теста, которая должна обеспечивать равенство условий для студентов. На величину ошибки измерения влияют также методы обработки, анализа и интерпретации данных, которые по уровню сложности и трудоемкости должны быть адекватны поставленным задачам измерения.
Второй компонент измерительного инструмента – заранее подготовленная шкала, которая служит для фиксации оценок (количественных или качественных) измеряемой переменной. Согласно наиболее распространенному определению, шкала – это средство упорядочения результатов измерения определенных свойств эмпирических объектов. В процессе такого упорядочения каждому элементу совокупности наблюдаемых эмпирических данных ставится в соответствие определенный балл, устанавливающий положение наблюдаемого элемента на шкале [20, 28, 36, 43]. В ситуации педагогического измерения на шкале откладываются не сырые, а производные баллы, которые подвергаются преобразованию для повышения сопоставимости и удобства интерпретации результатов выполнения педагогического теста.
Шкала с отложенными оценками переменной является целью измерения. При измерениях с высокой надежностью и валидностью шкала адекватно отображает, фиксирует оцениваемые характеристики, представляя их без существенных искажений. Таким образом, суть процедуры измерения состоит в переходе от самих объектов измерения к шкале, на которой выстроены оценки, замещающие исследуемые характеристики этих объектов. Подобная процедура позволяет уйти от объектов измерения и сосредоточить внимание на измеряемых характеристиках. В зависимости от количества измеряемых переменных можно говорить об одномерных (одна переменная) или многомерных (более одной переменной) измерениях. Соответственно по результатам измерения строится одна шкала или несколько, число которых в последнем случае равно числу переменных измерения.
При создании аттестационных тестов в рамках компетентностного подхода по циклам специальных дисциплин обычно используют многомерные измерения, результаты которых откладываются не на одной, а на нескольких шкалах. В других случаях, когда речь идет об итоговой аттестации студентов на младших курсах, стараются ограничиться одномерными тестами. Вне зависимости от числа переменных построение шкалы возможно только по надежным и валидным данным, обладающим высокой объективностью и адекватностью цели измерения. Поэтому размерность, надежность и валидность являются взаимосвязанными свойствами, характеризующими различные аспекты качества педагогических измерений. Выявление размерности – это необходимый предварительный этап работ по оцениванию надежности и валидности результатов измерений. Таким образом, качество данных, полученных в педагогических измерениях, проходит процесс анализа, а характеристики самих измерителей являются предметом научного обоснования, основанного на специальной теории. В традиционном контроле такое обоснование отсутствует, поскольку не формируются никакие представления об оцениваемых переменных, их соответствии планируемым целям контроля и их точности.
Последний компонент процесса педагогических измерений – обработка, анализ и интерпретация данных – имеет двоякое назначение. В первом случае, при котором использование измерительных инструментов предназначается для их апробации, по результатам обработки выявляют качество результатов измерения для проведения коррекции и стандартизации инструментария. Во втором случае, когда уже есть апробированные стандартизованные измерители, полученные данные представляются в удобной для пользователей форме для интерпретации согласно поставленным задачам контроля и управления качеством образования. Среди трех компонентов – обработка, анализ и интерпретация – этап обработки носит первичный характер. Он завершается количественным анализом результатов измерения, данные которого используются либо для научного обоснования качества тестов и преобразования сырых баллов испытуемых в производные баллы (процесс шкалирования), либо для повышения удобства и сопоставимости при интерпретации результатов в учебном процессе. Таким образом, если измеритель разработан, и результаты измерений удовлетворяют требованиям высокой надежности, валидности и сопоставимости, то можно выстраивать интерпретацию результатов обучаемых, проводить мониторинг и принимать обоснованные решения в управлении качеством образования.
На ранних этапах истории развития педагогических измерений объективность считали неотъемлемой характеристикой результатов тестирования, поскольку стандартизованная проверка результатов выполнения тестов исключала педагога из оценочного процесса. По мере развития теории и практики применения тестов пришло понимание того, что абсолютная объективность – это недостижимая характеристика результатов любых, в том числе и педагогических, измерений в силу существования неизбежных ошибочных компонентов. На результаты измерений воздействуют различные факторы случайного и систематического характера, которые неизбежно влияют на величину ошибочных компонентов, изменяя их как в сторону увеличения, так и уменьшения. Поэтому в оценочных процессах можно лишь говорить о высокой или низкой объективности, оценка которой основана на выявлении надежности результатов педагогических измерений.
Наиболее полно трактовка термина «объективность измерений» представлена в исследованиях Вебстера [10, 36]. Он был первым ученым, осуществившим методологические исследования в этой области и предложившим восемь толкований обсуждаемого термина, три из которых непосредственно относятся к педагогическим измерениям: процедурная объективность, классическая (традиционная) объективность и инвариантная (специфическая) объективность.
Под процедурной объективностью понимается независимость результатов измерения от условий его проведения и субъективных оценочных суждений педагога, использующего тест. Эта независимость обеспечивается благодаря равенству условий тестирования для всех студентов, отсутствию списывания или других нарушений дисциплины, правильному инструктированию студентов, использованию для одной группы тестируемых параллельных (совпадающих по трудности и другим характеристикам) вариантов теста, стандартизации процедуры проверки результатов и максимальной ее автоматизации. Чем выше уровень применения компьютерных технологий в тестировании, исключающих любое субъективное влияние педагога или экспертов, тем больше величина процедурной объективности результатов тестирования, получаемой при измерении.
Хотя процедурная объективность является наиболее понятной всем пользователям тестов и часто используется при обсуждении достоинств тестирования в средствах массовой информации, ограничиваться ею при оценивании точности измерений нельзя, поскольку при таком подходе не выдвигается никаких требований к качеству теста. Может создаться превратное впечатление, что для получения объективных данных о подготовленности испытуемых достаточно перейти от традиционных экзаменов к любым наборам заданий в тестовой форме, устранив влияние педагога на оценку тестирования и поручив подсчет баллов испытуемых компьютерной программе.
Типичный пример подобного упрощенного толкования объективности встречается сейчас среди части педагогов, учащихся и их родителей в связи с проведением эксперимента по введению ЕГЭ. Широкий круг пользователей системы ЕГЭ не видит той работы профессионалов, которая стоит за созданием контрольно-измерительных материалов (КИМ), но в абсолютном большинстве своем полагает, что устранение педагогов из контрольно-оценочного процесса, сведение их участия к минимальному на этапе организации процедуры тестирования и выставления баллов позволяет говорить об объективности результатов ЕГЭ. На деле такое упрощенное толкование наносит вред развитию тестирования в России, поскольку допускает применение любых, в том числе некачественных, тестов. Оно не опирается на теорию педагогических измерений и лишь частично охватывает научные представления об объективности результатов выполнения теста.
Второе углубленное понимание объективности измерений основано на некоторых понятиях и аксиомах традиционной или, как ее называют иначе, классической теории тестирования. К числу таких понятий относится сырой (наблюдаемый, индивидуальный) балл, получаемый простым суммированием результатов испытуемого по отдельным заданиям теста. При дихотомической оценке результатов по заданиям (1 или 0) индивидуальный балл просто равен количеству правильно выполненных заданий теста. Другое понятие классической теории – истинный балл (параметр испытуемого) – отождествляется с абсолютно объективной оценкой испытуемого, свободной от влияния любых ошибок измерения. В отличие от наблюдаемого балла, который меняется в зависимости от теста и способа подсчета результата испытуемого, истинный балл трактуется как не зависящая от средств измерения константа учащегося, характеризующая оцениваемое свойство испытуемого в момент измерения с нулевой ошибкой измерения и меняющаяся в процессе обучения.
Согласно основной аксиоме классической теории тестов, предполагается, что любой наблюдаемый балл отличается от истинного на величину ошибки измерения. В тех случаях, когда ошибка измерения не превышает выбранные пределы точности измерений, говорят о высокой объективности результатов тестирования и принимают индивидуальные баллы испытуемых за их истинные баллы. Таким образом, углубленное понимание объективности измерений требует оценивания величины ошибки измерения, на размер которой влияют не только условия проведения тестирования, но и характеристики самого теста. Если эти характеристики не удовлетворяют определенным требованиям к качеству измерителей, то ошибка измерения, как правило, становится слишком большой, превышающей допустимую погрешность измерения и не позволяющей говорить о высокой объективности полученных результатов выполнения теста.
Третья трактовка объективности лежит в области современной теории конструирования тестов Item Response Theory (IRT). Преимущества IRT, позволяющие оценить подготовленность обучаемых независимо от трудности заданий теста, обеспечивают достижение так называемой инвариантной объективности измерений, которая превышает объективность, обеспечиваемую при использовании классической теории тестов [28, 29, 31, 37].
Согласно основным положениям теории IRT, инвариантная объективность характеризуется тем, что на оценку каждого испытуемого выборки не влияют оценки других испытуемых и трудность заданий теста. Благодаря этому оценки подготовленности студентов, обладающие высокой инвариантной объективностью, будут более точными, чем те, которые получаются при использовании традиционной теории при конструировании и применении тестов.
Правда, достижение эффекта инвариантной объективности обеспечивается не автоматически при обработке результатов тестирования с помощью алгоритмов теории IRT. Оно реализуется благодаря применению специальных процедур подгонки данных тестирования к требованиям моделей теории IRT и длительной серьезной работе над тестом. Поэтому на практике тестологи часто сталкиваются с тем, что эффект специфической объективности обеспечивается слишком дорогим путем либо не реализуется вообще в силу недостаточно высокого качества теста.
После постановки цели измерения выбирают одну (одномерный случай) или несколько (многомерный случай) переменных измерения. При объединении одномерного и многомерного случая для обозначения измеряемых характеристик часто используют обобщающий термин – «конструкт». Концептуальное определение переменных измерения и их числа до начала разработки теста отличается обманчивой легкостью. Каждый разработчик теста уверен в том, что он ясно представляет себе измеряемые характеристики и способен на основании своего педагогического опыта точно подобрать задания, обеспечивающие оценивание конструкта. Можно так и остаться в заблуждении относительно того, что на деле измеряет тест, если не проверить соответствие задуманного конструкта и реальных результатов измерения.
Анализируют такое соответствие чаще всего с привлечением независимых экспертов до проведения тестирования, но, как правило, получают недостаточно достоверную информацию, поскольку объединение нескольких субъективных мнений не приводит к объективным выводам и суждениям. Практика измерений показывает, что априорное определение размерности, основанное на экспертном анализе концептуально выделенного конструкта, обычно оказывается недостаточным. Число априорно выделенных переменных измерения часто не подтверждается данными статистической обработки и интерпретации эмпирических результатов выполнения теста.
Каждый педагог вкладывает в оценивание учебных достижений обучаемых собственное понимание оптимального набора переменных измерения, характеризующих качество подготовленности по своей дисциплине, и, соответственно, свое видение размерности пространства измерений. Неоднозначность усугубляется по мере продвижения от начальных ступеней образования к более высоким. Если в школе и на начальных курсах высшего профессионального образования можно с определенной степенью общности считать уровень учебных достижений по дисциплине одномерным, то на старших курсах допущение об одномерности неправомерно в силу междисциплинарного характера содержания специальных дисциплин.
Хотя этап предварительной экспертизы качества содержания заданий обязателен при разработке теста, для детального выявления соответствия концептуальной и реальной переменных измерения необходим факторный и корреляционный анализ эмпирических данных тестирования, применяемый при оценивании конструктной валидности теста. Таким образом, понять, что же мы на самом деле измеряем, можно лишь после применения теста.
Выявление размерности конструкта – сложная задача, но ее решение необходимо, поскольку без знания размерности невозможно проведение надежных измерений и создание валидных тестов. Сложность процедуры установления размерности пространства измерений увеличивают проблемы, возникающие при переводе концептуальной переменной в область педагогических измерений, в силу неоднозначной трактовки и слабой операционализируемости (измеряемости) многих конструктов, характерных для образования и других социальных наук.
Пример такой неоднозначной трактовки приведен на рис. 2.2 (рисунок с третьей переменной).
Рис. 2.2. Пример неоднозначной трактовки конструкта
Процесс перевода латентных конструктов в эмпирические референты, сопровождающийся приданием оцениваемым латентным характеристикам формы, удобной для фиксации определенными правилами измерения, называется операционализацией. При педагогических измерениях в качестве конструктов обычно выступают знания, умения навыки, компетентности и так далее, которые в целом можно назвать обобщающим термином «учебные достижения».
В процессе операционализации происходит формирование набора эмпирических индикаторов, в роли которых выступают задания теста. Суммарный балл по правильно выполненным заданиям, подсчитанный и преобразованный по определенным правилам, дает основания для присвоения испытуемому определенного места на шкале переменной измерения. Результаты операционализации позволяют поставить в соответствие каждой точке оси латентной переменной определенный балл испытуемого, полученный путем тех или иных преобразований оценок по отдельным правильно выполненным заданиям теста.
Взаимосвязь результатов измерения и положения испытуемого на шкале переменной для одномерного случая представлена на рис. 2.3. Каждая оценка переменной измерения для учащихся из тестируемой группы соответствует одной из точек оси. В свою очередь, каждая точка определяет положение испытуемого или группы испытуемых с одинаковым тестовым баллом, полученным по результатам выполнения теста.
Рис. 2.3. Геометрическая интерпретация результата тестовых измерений
На изображенной оси более высокие баллы располагаются правее, низкие – левее. Крайний слева результат (не показанный на рисунке) обычно характерен для случая, когда испытуемый выполнил правильно лишь одно или несколько заданий теста. Обратный случай, когда студент справился со всеми или почти со всеми заданиями, соответствует крайней правой точке (не отмеченной на рисунке) на оси переменной измерения. Остальные точки занимают некоторое промежуточное положение на отрезке, где лежат тестовые баллы студентов.
Если соотнести правильно выполненные задания теста с результатами студентов и присвоить номера заданий по нарастанию трудности, расположив их вдоль оси переменной измерения, то естественно предположить, что более трудные задания будут смещены на оси вправо, так как их, скорее всего, будут выполнять правильно наиболее сильные студенты. Наоборот, более легкие задания будут смещены влево – они по силам студентам с низким уровнем подготовки (рис. 2.4).
Рис. 2.4. Соотношение между трудностью заданий и подготовленностью студентов: βj – уровень трудности j-го задания, j = 1, 2, …, 4, θ1 и θ2 – тестовые баллы двух студентов
Из дидактических соображений на рисунке приведено только четыре задания, однако все выводы, получаемые с помощью этого примера, применимы к любому числу заданий в тесте. Расположение тестового балла первого студента говорит о том, что он выполнил верно два самых легких задания, но не справился с третьим и четвертым заданиями. Второй студент имеет более высокий тестовый балл и подготовлен лучше. Он не выполнил только самое трудное четвертое задание теста.
Связь между заданиями различной трудности и оценками подготовленности студентов на оси переменной измерения, рассмотренная на рис. 2.4, является определенной идеализацией одномерного измерения. Расположение заданий по нарастанию трудности вдоль оси переменной измерения формально можно записать в виде β1 < β2 <…< βj < … βn–1 < βn , где j = 1, 2, …, n; n– число заданий в тесте, предположив, что речь идет не о четырех заданиях, а относится ко всему тесту.
В реальной ситуации тестирования локализация места расположения результата студента на оси переменной зависит от соотношения между величиной его истинного балла и трудностью заданий теста. Если балл студента довольно высок, а задание достаточно легкое, то у обучаемого есть все основания для успешного выполнения этого задания теста. В противном случае, когда соотношение между упомянутыми выше величинами меняется на противоположное, у студента есть веские основания для неуспеха. Конечно, наверняка предугадать ничего нельзя в силу действия различных смещающих факторов (эффект забывания, подсказки и т.д.). Поэтому при прогнозировании результата обычно говорят лишь о некоторой вероятности успеха или неуспеха обучаемого при выполнении заданий теста.
Таким образом, вероятностный характер наблюдаемых результатов выполнения теста обусловлен влиянием различных факторов, способствующих возникновению ошибок измерения. Среди них выделяют случайные и систематические. К числу последних принадлежат те, которые появляются из-за просчетов разработчиков в процессе создания теста. К ним могут привести нарушения требований методики сбора статистических данных, некачественная интерпретация результатов выполнения теста и ряд других причин. К случайным факторам относятся: настроение испытуемого, поведение экзаменатора, обстановка при тестировании в аудитории и многое другое – словом, все то, что учесть и предвидеть при тестировании невозможно.
Чаще всего при планировании измерений в образовании выбирают одномерные конструкты. Это упрощает процесс построения шкалы, но не всегда адекватно содержанию используемых или вновь создаваемых тестов. Рис. 2.5 иллюстрирует случай одномерных измерений, который в ситуации оценивания уровня подготовленности студентов можно интерпретировать следующим образом: одна латентная переменная Т – истинный уровень подготовленности каждого обучаемого при тестировании – приводит к возникновению одной оценки наблюдаемой переменной X — уровня подготовленности обучаемого. Помимо переменной Т, на оценки X оказывает влияние фактор Ε — ошибка измерения.
Рис. 2.5. Иллюстрация связи переменных при одномерном измерении
Чтобы принять гипотезу об одномерности теста, необходимо выявить связь между теоретическим конструктом и эмпирическими индикаторами, роль которых выполняют задания теста. Оценка связи требует ответа на вопрос: есть ли разница между доказательством одномерности конструкта и доказательством одномерности заданий теста?
На рис. 2.6 приведена измерительная модель для одномерного случая, иллюстрирующая связь между конструктом, обозначенным символом T, и четырьмя заданиями (x1, x2, x3, x4). Числа, стоящие у каждого луча, показывают меру предполагаемой корреляционной связи между конструктом и заданиями теста.
Рис. 2.6. Измерительная модель, иллюстрирующая связь между конструктом и заданиями теста (одномерный случай)
При анализе модели важно понимать, что конструкт является латентным (скрытым от возможностей непосредственного измерения) фактором, взаимодействие которого с заданиями порождает наблюдаемые результаты выполнения теста. Влияние конструкта, включающего одну или несколько латентных переменных измерения, на эмпирические индикаторы отражено на рассматриваемом рисунке с помощью направленных лучей.
Гипотетическая корреляционная матрица, показывающая меру связей между конструктом и заданиями теста, помещена в табл. 2.1. В силу симметрии чисел в матрице относительно главной диагонали, состоящей из единиц, таблица имеет треугольный вид.
Таблица 2.1 Значения корреляции между заданиями
Для анализа связи между размерностью конструкта и размерностью тестовых заданий, используемых при оценивании наблюдаемых переменных, необходимо подсчитать частные корреляции, получаемые путем удаления влияния на парные корреляции третьей переменной. Используя величины корреляций в табл. 2.1 и упомянутый подход, можно показать, что частная корреляция между любой парой наблюдаемых переменных x1, x2, x3 после удаления влияния латентной переменной T будет равна нулю.
Аналогичные вычисления можно провести для любой пары наблюдаемых переменных x1, x2, x3. Интерпретируя полученные нулевые результаты для анализа связи переменных, можно утверждать, что после удаления эффекта влияния фактора T связь между наблюдаемыми переменными исчезает. Таким образом, латентный фактор T является единственной переменной, связывающей наблюдаемые переменные x1, x2, x3, поэтому его следует трактовать как единственный общий фактор для совокупности наблюдаемых переменных. Отсюда следует вывод об одномерности совокупности заданий x1–x3, поскольку корреляция между ними после удаления влияния общего фактора становится равной нулю.
Подобный концептуальный подход к доказательству одномерности был предложен Макдональдом и Хати (McDonald, 1981; Hattie, 1985) [38]. Конечно, на практике при анализе размерности пространства измерений говорить о точном равенстве нулю частных корреляций не приходится в силу влияния различных ошибок измерения. Однако в случае близких к нулю значений частных корреляций по результатам педагогических измерений можно строить единственную шкалу. Поскольку каждое задание в рассмотренном гипотетическом примере измеряет один и только один конструкт, то справедлив вывод об одномерности заданий теста. Обратный вывод в общем случае не верен: из одномерности заданий не следует одномерность теста. Совокупность одномерных заданий, каждое из которых измеряет свой конструкт, не означает наличия общего единственного фактора, свидетельствующего об одномерности пространства измерений.
Если конструкт включает не одну, а несколько переменных, то измерения называют многомерными. Такая ситуация как раз характерна при разработке и использовании компетентностных тестов. Совокупность переменных образует пространство переменных измерения, размерность которого равна их числу. Геометрическая интерпретация двумерных измерений приведена на рис. 2.7. Рисунок изображает частный случай, когда каждая из латентных переменных F1 и F2 воздействует на обе наблюдаемые переменные Х1 и Х2, находящиеся под влиянием ошибок измерения E1 и E2.
Рис. 2.7. Иллюстрация связи переменных при двумерном измерении
Возможны, конечно, другие ситуации, в которых каждая из латентных переменных F1 и F2 воздействует только на одну из переменных X1 и X2, либо только одна из латентных переменных приводит к возникновению двух наблюдаемых.
Многомерность требует построения по результатам измерения не одной, а нескольких шкал, количество которых должно быть равно размерности пространства измерений. Иногда при проведении многомерных измерений создают несколько субтестов, каждый из которых является одномерным и измеряет свою переменную с помощью одномерных заданий. Примером такого подхода является полидисциплинарный тест, состоящий из набора одномерных субтестов. В другом случае разрабатывают междисциплинарный тест, задания которого не являются одномерными. Каждое из заданий измеряет свою совокупность переменных, которые могут отличаться как по количеству, так и по содержательной трактовке конструкта.
В практике педагогических измерений существуют специальные методы анализа размерности пространства измерений. Такую группу методов предоставляет исследовательский и конфирматорный факторный анализ, применение аппарата которого основано на использовании соответствующего программного обеспечения, например статистического пакета SPSS и др. [43].
В теории измерений общая типология уровней измерения основывается на проявлении совокупности свойств, лежащей в основе построения шкал. В качестве таких свойств выделяют:
• идентичность, позволяющую однозначно относить объекты к одной из выделяемых совокупностей;
• транзитивность, способствующую ранжированию объектов в определенном порядке;
• метричность, обеспечивающую единую единицу измерения и наличие абсолютного нуля.
Наиболее общая классификация, предложенная С. Стивенсом, включает четыре уровня измерений и фиксирует присущие им свойства. Согласно такой классификации, различают шкалы качественные (шкала наименований или классификаций, порядковая шкала) и количественные (интервальная шкала и шкала отношений). Качественные шкалы иногда называют неметрическими (концептуальными), количественные получили название метрических или материальных. Для каждого уровня измерений существуют группы допустимых преобразований и операций с различными математическими и статистическими величинами, характеризующими измеряемые признаки.
На качественном уровне отнесение эмпирических объектов измерения к различным классам проводится по признаку эквивалентности (шкала наименований) или по признаку упорядочения внутри эквивалентных объектов одного класса (порядковая шкала). Для отнесения или упорядочения применяются экспертные методы, при которых оценки на шкале считаются достоверными, если они признаны большинством экспертов.
В этой особенности построения качественных шкал в образовании есть свои плюсы и минусы. Положительным можно считать относительную легкость построения таких шкал, поскольку не привлекаются специальные оценочные средства, а участвуют только эксперты. Негативные характеристики качественных шкал – ограниченная сфера применения и низкая точность измерения. Числа или символы, приписываемые объектам путем экспертного оценивания, субъективны и носят исключительно условный характер. Поэтому эти числа нельзя суммировать или проводить с ними другие математические операции.
Количественные шкалы не предусматривают привлечения экспертов, поэтому представленные в них оценки измеряемых характеристик объектов обладают более высокой объективностью и поддаются определенным математическим операциям.
К простейшему типу качественных шкал относится шкала наименований (другое название – номинальная шкала), используемая для представления результатов классификации эмпирических объектов измерения, свойства которых проявляются только на уровне оценивания их эквивалентности. При построении шкалы наименований привлекаются эксперты, которые приписывают качественным свойствам объектов некоторые числа или другие символы.
Номинальные шкалы достаточно широко применяются в образовании в тех случаях, когда педагогическое измерение связано с объединением учащихся в группы по какому-либо признаку без установления порядка следования групп. Примером номинальной шкалы могут служить результаты зачетной сессии, когда все студенты делятся на две группы: получившие и не получившие зачет. Другой пример номинальной шкалы получается при дихотомическом оценивании результатов по отдельным заданиям теста. Если тестируемый студент за правильное выполнение задания теста получает 1, а за неправильное выполнение или пропуск задания теста – 0, то результаты тестирования будут представлены в номинальной шкале.
При отнесении каждого объекта к определенному классу в шкале наименований большое значение имеет стандартизация оценивающих правил, позволяющая минимизировать ошибки экспертов при классификации объектов измерения. Основное правило, которым должны руководствоваться эксперты, заключается в том, чтобы не приписывать объектам разных классов одинаковых наименований или чисел.
Так как числа в шкале наименований не несут в себе никаких количественных признаков, а характеризуют только отношение эквивалентности, то их применяют для определения вероятности или частоты появления в ряду наблюдений данного объекта. Поэтому для обработки количественных данных следует использовать не сами числа, а удельный вес количества объектов данного класса.
Номинальная шкала обладает свойствами симметричности и транзитивности. Симметричность означает, что отношения, существующие между градациями x1 и x2 имеют место и между х2 и x1. Транзитивность выражается в следующем: если x1 = x2 и х2 = х3, то x1 = х3 . В номинальной шкале допустимы следующие статистические операции:
• расчет частот (удельных весов) объектов данного класса;
• определение моды изучаемого признака.
Если отнесение объектов к классам основано не только на отношении эквивалентности, но и учитывает возрастание или убывание степени проявления измеряемого свойства, то получаемая шкала носит название шкалы порядка. В порядковой шкале производится ранжирование объектов или классов объектов, связанных соотношением больше-меньше.
Порядковые шкалы используются в образовании в тех случаях, когда педагогический контроль осуществляется традиционными способами без применения теории измерений и тестов. Однако результаты тестирования также приводят к порядковой шкале, если их обработка проводится без алгоритмов теории IRT. Классический пример порядковой шкалы – привычная четырехбалльная шкала, которую иногда неоправданно называют пятибалльной. Каждой группе студентов, проявляющей согласно мнению преподавателя сходные знания, присваивается одинаковый (один из четырех) номер места от двух до пяти.
Вполне понятно, что номера мест не следует складывать и вычитать ввиду неопределенного смысла получаемого результата. Однако этой прописной истины придерживаются далеко не всегда. В образовании был период, когда директору любой школы немало хлопот доставлял так называемый средний балл, который рассматривался как важный показатель качества работы школы. При этом никто не думал о том, что арифметические действия с номерами мест групп школьников не имеют смысла, и потому средний балл нисколько не отражает объективных закономерностей результатов учебного процесса.
Если ранжируются не отдельные объекты, а целые классы объектов, то внутри каждой группы порядок не устанавливается. Поэтому часто говорят о том, что порядковая шкала обладает слабым дифференцирующим эффектом, особенно в тех случаях, когда оценивается подготовленность довольно большого числа студентов. Каждой группе объектов присваивается определенный порядковый номер, который позволяет отличить ее представителей от представителей другого класса.
Если упорядочение объектов требует определения некоторого направления возрастания или убывания измеряемой характеристики, то в порядковой шкале производят выбор условного нуля. Однако даже в тех случаях, когда на основе соглашения введена условная нулевая точка, в порядковых шкалах отсутствуют единицы измерения, поэтому никакие количественные выводы о степени отличия в проявлении измеряемого свойства не могут иметь место. Например, по оценкам в порядковой шкале можно ранжировать студентов от слабых к сильным или наоборот, но сделать вывод о том, на сколько один подготовлен лучше другого, нельзя в силу отсутствия единицы измерения. Одинаковым интервалам между присвоенными оценками свойства в порядковой шкале не соответствуют одинаковые интервалы между размерами измеряемой величины. По этой же причине неправомерны арифметические действия с числами, приписанными ранжированным объектам измерения. С помощью этих чисел можно найти вероятности, моды, медианы, квантили, но их нельзя использовать для сложения, вычитания и других арифметических операций.
При измерении признака в порядковой шкале возможны только монотонные преобразования, допускающие умножение на постоянный множитель, возведение в степень и извлечение корня, а также некоторые статистические операции. В частности, в порядковой шкале:
• в качестве средней оценки используют медиану;
• в качестве меры рассеяния применяют квантили;
• в качестве меры связи двух признаков используют ранговый коэффициент корреляции.
Интервальная шкала – количественная. Она используется для упорядочения объектов, свойства которых удовлетворяют отношениям эквивалентности, порядка и аддитивности. В ней определено расстояние между объектами и предусмотрена общая для всех объектов единица измерения, а началом отсчета является условно выбранная нулевая точка. Благодаря существованию единицы измерения, в интервальной шкале возможны все арифметические действия над числами, кроме операции деления, в силу отсутствия абсолютного нуля. В ней также допустимы почти все статистические операции, кроме тех, которые предполагают знание «истинно» нулевой точки.
В интервальной шкале достигается корректная сравнимость результатов педагогических измерений. Хотя она лишена недостатков номинальной и порядковой шкал, в ней остается неизвестной естественная точка отсчета – абсолютный нуль. Поэтому при интерпретации результатов тестирования с помощью интервальной шкалы нуль верных ответов не означает полного отсутствия подготовленности обучаемых.
Для построения интервальной шкалы в педагогических измерениях необходимо обращение к современной теории тестов IRT. Ее возможности, связанные с инвариантностью оценок параметров подготовленности обучаемых, и трудности заданий теста в сочетании со специальными преобразованиями эмпирических результатов тестирования позволяют ввести единицу измерения и перевести баллы испытуемых из порядковой шкалы в интервальную [28, 35, 44].
Шкала отношений отображает свойства объектов, удовлетворяющие отношениям эквивалентности, порядка, аддитивности и пропорциональности. Последнее свойство появляется благодаря наличию в шкале отношений однозначного естественно определенного критерия нулевого проявления измеряемого свойства – абсолютного нуля. Другими словами можно сказать, что шкала отношений является интервальной с естественным, а не с условным началом отсчета, расширяющим возможности преобразований чисел, приписанных объектам. По сравнению со всеми ранее рассмотренными шкалами последняя (шкала отношений) обеспечивает самый высокий уровень измерений. В ней можно выполнять все арифметические и статистические операции, в том числе интерпретировать отношение чисел, приписываемых различным объектам.
Использование шкалы отношений в образовании невозможно в силу отсутствия абсолютного нуля, поэтому на сегодняшний день ее удалось реализовать только в рамках физических измерений. Общая типология уровней измерения приведена на рис. 2.8.
Рис. 2.8. Типология уровней измерения и соответствующих шкал
Помимо четырех уровней измерений, принятых согласно классификации Стивенса, в отечественной литературе по проблемам измерений иногда выделяют пятый уровень и вводят так называемые абсолютные шкалы. Под ними понимают шкалы отношений, обладающие не только естественно выбранным абсолютным нулем, но и естественно определенными единицами измерения, не зависящими от условных соглашений. Такие шкалы не встречаются в образовании, они характерны для оценивания относительных величин в физических измерениях.
Поскольку количественные шкалы предпочтительнее качественных в тех случаях, когда результаты педагогического измерения используются для принятия административно-управленческих решений, то возникает вопрос о необходимых условиях для получения данных на количественном уровне измерений. Такие условия можно разбить на две части, одна из которых относится к самому измерителю, а другая – к методам обработки данных при их шкалировании.
Не нуждается в доказательстве тот факт, что традиционные средства и методы контроля, включающие экзамены, контрольные работы, устные опросы и другое, позволяют получать баллы испытуемых только на качественном уровне в номинальной либо порядковой шкале. Точка зрения на возможности тестов для построения количественных шкал менялась по мере развития теории педагогических измерений и совершенствования технологии разработки тестов. Вначале, когда тесты только появились в образовании, педагогам казалось, что (не понятно, кто они: педагоги или тесты, нельзя удалять) они обеспечивают оценки в количественной шкале. Такое впечатление создавалось в силу того, что при тестировании получались баллы учащихся, подсчитанные на основе количества правильно выполненных заданий теста. Впоследствии возникли серьезные аргументы, подвергающие сомнению количественный характер результатов выполнения тестов.
Действительно, для тестовых баллов нельзя ввести единицу измерения в связи с зависимостью баллов от различной трудности заданий теста. Исключением мог бы стать тот случай, когда в тесте используются задания одинаковой трудности, но это нереально, поскольку не согласуется ни с основными положениями теории педагогических измерений, ни с потребностями учебного процесса. В любой оценке трудности задания всегда присутствуют ошибочные компоненты, поэтому с точки зрения теории измерений невозможно выбрать одинаково трудные задания в тесте. Да они и не нужны, поскольку все студенты отличаются по своей подготовленности, и для оценивания их учебных достижений необходимы различные по трудности задания, адекватные возможностям обучаемых. К тому же специфика содержания отдельных элементов учебного материала никогда не позволит сделать одинаковые по трудности контролирующие задания в любой форме, в том числе и в форме теста.
Таким образом, по мере развития теории и практики тестирования пришло осознание того, что результаты тестирования обучаемых позволяют установить отношение равенства или отношение «больше-меньше», а разность наблюдаемых (сырых) тестовых баллов при интерпретации отличий в подготовленности студентов не имеет никакого смысла.
Прогресс, достигнутый в 80-е гг. XX в. в методологии педагогических измерений и завершившийся созданием теории IRT, привел к новым возможностям шкалирования результатов тестирования [38]. В отличие от классической теории тестов, в рамках которой можно повысить сопоставимость сырых баллов путем их преобразования без изменения природы порядковой шкалы, IRT позволяет перевести наблюдаемые баллы обучаемых из порядковой в количественную шкалу интервального характера. Такое преобразование осуществляется путем введения специальной единицы измерения – логита – и получения оценок подготовленности студентов, не зависящих от трудности заданий теста.
Таким образом, для перехода на количественный уровень измерений необходимо использовать стандартизованные тесты с выбором ответов, автоматизированные формы проверки и обработки данных, а разработку тестов и шкалирование результатов их выполнения вести только на основе теории IRT. Несмотря на снижение объективности, возникающее за счет привлечения экспертов в тех случаях, когда в стандартизованном тесте есть задания со свободно конструируемым ответом, шкалу тестовых баллов, построенную на основе теории IRT по таким заданиям, также относят к количественным измерениям, что не вполне корректно. Для качественных измерений разрабатывают портфолио и анкеты, проводят интервью, собеседования, устные опросы и экзамены в традиционной форме. Иногда при аккредитации учебных заведений привлекается анализ документов, отражающих ход и результаты учебного процесса.
В целом можно отметить, что количественный и качественный уровни измерений имеют существенные отличия по проявлению совокупности свойств оцениваемых характеристик объектов, способам измерения, формам представления результатов, группам допустимых преобразований и операций с различными математическими и статистическими величинами, характеризующими измеряемые признаки. Количественные оценки обычно представляют в виде чисел на шкале, чтобы дифференцировать различные величины переменной. По результатам качественного измерения для оценочных характеристик выбирают дескрипторы в виде слов или символов, хотя нередко в образовании роль символов для удобства размещения на шкале отводят условно выбираемым числам.
В связи с введением компетентностного подхода роль качественных оценок, несомненно, будет расти, поскольку оценивание компетенции может проводиться на качественном уровне измерений. На деле приоритет качественного уровня вовсе не означает отказа от тестов при оценивании профессиональных компетенций выпускников вузов. В рамках компетентностного подхода количественные оценки должны дополняться многоаспектными качественными оценками и получать развернутую качественную интерпретацию по отношению к задачам профессиональной деятельности выпускников. Для повышения объективности оценок при построении качественных шкал необходимо использовать оценочные средства, разработка которых осуществлялась с опорой на теорию педагогических измерений. Применение таких измерителей должно обеспечивать высокую надежность и валидность оценок.
Разграничение количественного и качественного подходов проявлялось в методологии в течение нескольких десятилетий конца ХХ в., но протекало по-разному в зависимости от уровня развития измерений в социальных науках. В странах, где широко использовавших тесты в психологии и в образовании, сложились две противостоящие методологии: качественная и количественная, объединенные одной общей функцией – служить ориентиром в научной организации процесса измерений. На качественном уровне для методологических знаний характерна большая описательность. В количественном методологическом подходе преобладают нормативные предписания, находящие свое практическое отражение в нормах выполнения тестов, а для измерений используются стандартизованные шкалы.
В частности, в США общий ход развития методологии измерений протекал в условиях острых дебатов между сторонниками количественного и качественного подходов в измерениях (Дейт, Гейдж, Губэ и Линкольн, Хаус, Росс), которые вплоть до начала XXI в. не находили компромиссных точек зрения и утверждали приоритет только своего подхода в рамках одной из методологий. Аналогичные процессы протекали в психологии, где в 70–80-е гг. шли длительные методологические споры между такими учеными, как Кронбах, Кук и Кемпбелл, которые отстаивали противоположные точки зрения на преимущества количественных или качественных подходов к решению методологических проблем валидности измерений, разработке инструментария и интерпретации результатов измерений в практике. По сути, ни одно из направлений в социальных науках не избежало проявлений подобных споров и противостояния парадигм в оценочных процедурах [10, 38].
В основе одного методологического подхода, получившего за рубежом название позитивистской парадигмы, лежали количественные методы измерения, в то время как противоположная конструктивистская парадигма была основана на качественных методах, поэтому споры между этими двумя парадигмами часто называли качественно-количественными дебатами. В их развитии выделяют несколько этапов, не имеющих четких границ из-за некоторых переходных периодов. Первый из этапов дебатов, характеризующийся приоритетом количественных методов, протекал с 20-х до 80-х гг. ХХ в., когда в педагогических измерениях господствовали тесты с выбором ответа, которые рассматривались как единственный достоверный источник данных о результатах образовательного процесса и не нуждались в привлечении экспертов при оценивании результатов выполнения.
В 70–80-х гг. ХХ в. стали появляться многочисленные критические публикации, в которых утверждалось, что принципы позитивизма и количественная методология, утверждавшая эту парадигму, были дискредитированы (Линкольн и Губэ). Причинами критики позитивизма послужил нарастающий интерес к формированию творческих аспектов подготовленности обучаемых, развитию когнитивных навыков и коммуникативных компетенций, которые невозможно было оценить с помощью традиционных тестов с выбором ответов. В этой связи за рубежом началось возрождение качественных методов в педагогических измерениях и постепенный переход к качественной методологии, базирующейся на принципах конструктивизма (Смис и Хэсхусис).
Однако вопреки преобладающему конструктивизму, нарастающему противостоянию методологий и утверждениям о несовместимости количественных и качественных подходов еще в 60-е гг. появились зачатки новой методологии, которая совмещала их и стала доминирующей в 90-е гг. ХХ в. Наиболее серьезные попытки примирения парадигм в образовании, наметившиеся к концу ХХ в., принадлежат Хоуэ, Рейхардт, Раллис. Они выдвинули тезис совместимости количественной и качественной методологий, основанный на другой парадигме, которую ученые позже назвали прагматизмом. В наше время уже никто не сомневается в истинности прагматизма, а дебаты ученых о парадигмах рассматривают как фрагмент истории измерений в социальных науках. Все современно мыслящие исследователи обращаются к прагматической методологии педагогических измерений, в которой содержатся элементы и количественных, и качественных подходов (Брюэр и Хантер, Пэтон, Грин, Караселли и Грэхэм).
Движение от позитивизма к прагматизму в методологии педагогических измерений имеет свои характерные черты. Оно сопровождается переходом от монометода и единственного средства оценивания, в качестве которого выступают тесты, к использованию совокупности методов и средств измерения. Вместо единственного источника информации – результатов стандартизованного тестирования – появляются многочисленные источники данных, строящиеся на сочетании различных средств измерения. Нередко при качественном оценивании привлекается дополнительная информация о предыстории развития студента, результаты его анкетирования, краткие истории из его жизни и другие биографические материалы. Исследователи, идущие по пути количественных методов, применяют математические модели, статистические таблицы и графики, но стараются подвергать полученные числа последующей качественной интерпретации для анализа и использования в управлении качеством образования.
В нашей стране смена господствующих парадигм в методологии измерений шла несколько иным путем, чем в зарубежных странах, обладающих развитыми национальными системами тестирования. Из-за запрета на тестовые методики весь период до начала 90-х гг. в отечественном образовании преобладала монометодология, базирующаяся на качественных подходах и ориентированная на традиционные оценочные средства, разрабатываемые и используемые педагогами вне аппарата теории измерений в образовании. Однако вопреки трудностям становления тестовых технологий с начала 90-х гг. в нашей стране стали появляться отдельные исследования, направленные на разработку методологического обеспечения тестирования и привносившие элементы количественных подходов в традиционную оценку знаний обучаемых.
Расширение сферы применения тестов в России пришлось на период, когда в содержании контроля во всем мире стала приоритетной проверка творческих умений, а вместо заданий на воспроизведение фактов и простейших алгоритмов, предполагающих только одноуровневую деятельность, во многих странах в тесты стали включать задания для оценки разнообразных интеллектуальных и практических умений.
Наметилось смещение акцентов с преимущественной оценки результатов обучения на компоненты процесса получения результата, с пассивного ответа на заданный вопрос на активное конструирование содержания ответа, с оценки отдельных, изолированных умений на интегрированную и междисциплинарную оценку уровня сформированности компетенций. Эти тенденции нашли свое отражение в создании новых форм тестовых заданий и инновационных измерителей.
Наряду с заданиями с выбором ответов, стали использоваться формы, позволяющие экзаменуемым самостоятельно конструировать ответ и приводить его в произвольном виде в специальном бланке. Для проверки результатов выполнения таких заданий приходится привлекать экспертов, оценочные суждения которых проводятся на качественном уровне. Вместе с тем наличие заданий с выбором предполагает количественный уровень измерений. Таким образом, современная практика тестирования в России основывается на новой методологии измерений, позволяющей сочетать данные на количественном и качественном уровнях измерений, учитывая в том числе и данные анкетирования или результаты собеседования, например, при приеме в вузы, аттестации школ, педагогических кадров и т.д.
Для отражения идеи совмещения количественных и качественных уровней измерения в наши дни отечественные ученые ввели представление о бипарадигмальной методологии, под которой следует понимать систему принципов, способов функционирования и форм научной организации теоретической и практической деятельности в условиях сочетания количественных и качественных уровней измерений, а также учение об этой системе, закладывающее научный базис интеграции результатов измерений различных уровней при их шкалировании и использования в образовании [10].
Второе новое понятие, возникшее в научных трудах наших современников, – бипарадигмальные модели измерения, которые включают совокупность предположений, структурных связей, методов, методик, требований, показателей качества, определяющих функционирование и развитие всех компонентов процесса и средств измерения в условиях сочетания количественных и качественных подходов к измерению [Там же]. Понятие «модель измерения» необходимо дифференцировать от другого, близкого по смыслу – «метод измерения», отличающегося от первого по степени обобщенности и полноты включения компонентов измерения. Модель измерения представляет собой общую структуру, охватывающую не только количественные и качественные методы измерения, но и разработку измерителей, проведение тестирования или другие формы сбора данных, формирование выборочных совокупностей обучаемых для калибровки измерителей или сбора репрезентативных данных, анализ данных, их сопоставление и т.д. По форме представления бипарадигмальные модели могут носить не только описательный характер, но и включать математические модели IRT, методы факторной композиции измерителей и другие математико-статистические методы, используемые для разработки тестов и применения данных тестирования при оценивании качества образования.
Типология бипарадигмальных моделей измерения, охватывающая практически весь спектр задач, решаемых при оценивании качества образования, приводится на рис. 2.9.
Рис. 2.9. Типология бипарадигмальных моделей измерения
Педагогические измерения, основанные на бипарадигмальной методологии, могут включать сочетание и взаимное влияние качественных и количественных подходов на всех стадиях: в рамках планирования измерения, на стадии сбора данных и при анализе данных для формулировки выводов и их интерпретации для нужд управления качеством образования.
Бипарадигмальные методы измерений должны строиться с учетом принципа минимакса и контроля, объединяющего три компонента, которые регламентируют процесс измерений и доминируют в различной степени в зависимости от уровня и стадии измерений. На количественном уровне измерений преобладающим будет первый компонент, содержащий требование максимизации дисперсии наблюдаемых результатов измерения, но не снимающий и не ограничивающий влияние двух других компонентов. Реализация этого компонента означает обеспечение максимального дифференцирующего эффекта измерений для выявления всех значимых различий между оценками конструктов.
Второй компонент, предполагающий минимизацию дисперсии ошибочных компонентов, является наиболее важным на качественном уровне измерений, когда резко возрастает влияние субъективных факторов. Минимизация ошибочного компонента дисперсии на количественном уровне обеспечивает возможность повышения надежности измерения за счет уменьшения влияния случайных ошибок.
Выполнение третьего требования к измерениям означает систематическое осуществление контроля внешней дисперсии, привнесенной посторонними факторами, внешними по отношению к измеряемым переменным, но оказывающим на них значимое неустранимое влияние. Примеры, подтверждающие важность осуществления контроля внешней дисперсии, можно часто встретить в мониторинге, где нередко встречаются случаи неправильной или упрощенной интерпретации данных и проведения обследований без учета дополнительных факторов, например социально-экономических, значимо влияющих на результаты образовательной деятельности.
В целом, контроль внешней дисперсии означает, что необходимо устранить, если это возможно, влияние всех посторонних переменных на оцениваемые конструкты. Если прямое устранение невозможно, то посторонние переменные должны находиться под контролем, и процесс их влияния на измеряемые переменные должен быть управляем.
Проведение оценивания предполагает определенную последовательность получения количественных и качественных данных, собираемых на основе различных дизайнов измерения. Среди многочисленных возможных схем измерений при сочетании количественных и качественных уровней выделяют два основных дизайна, получивших название последовательного и параллельного. В последовательном дизайне качественные измерения сменяют количественные либо, наоборот, вначале идут количественные измерения. При параллельном дизайне количественные и качественные измерения ведутся одновременно с последующим объединением данных на основе единой методологии измерения.
Зачастую количественные и качественные результаты, полученные при одновременном измерении, в процессе анализа подвергаются сопоставлению для повышения обоснованности управленческих выводов. Например, при инспектировании школы можно разработать тест для учителей, содержащий задания с выбором ответов относительно процессов модернизации, происходящих внутри школы. Одновременно те же вопросы, но в форме устной беседы, можно задать администрации школы, используя протокол интервью с открытым форматом. Анализ количественных данных тестирования и качественных, полученных в процессе интервью, позволяет найти точки соприкосновения или расхождения мнений.
В целом, возможны многочисленные схемы измерения, строящиеся на вариации количественных и качественных этапов оценивания изучаемых переменных и применяемые на различных уровнях агрегирования данных измерения. Для бипарадигмальных методов измерения, предполагающих сочетание количественных и качественных подходов, можно предложить определенную типологию схем взаимодействия уровней измерения, приведенную на рис. 2.10–2.13.
Рис. 2.10. Первая схема реализации бипарадигмальных методов измерения
Первая схема (рис. 2.10) указывает наиболее нежелательный путь с точки зрения корректности последующих управленческих решений, но она жизнеспособна в силу простоты и распространена в практике. Измерение начинается с качественного сбора данных и их последующего анализа, который предваряет этап перевода качественных данных в некоторые числовые символы, носящие условный характер и обычно выражающие отношение порядка по измеряемой переменной. Количественная интерпретация полученных числовых символов, их упорядочение, рейтингование и вычисление ранговой корреляции входят в число возможных преобразований, с помощью которых качественные данные переводятся в удобную шкалу и используются в управлении качеством образования.
Примеры реализации первой схемы довольно многочисленны. Они сплошь и рядом встречаются в повседневном контроле знаний студентов, когда преподаватель выставляет оценки во время устных опросов или традиционных контрольных работ без применения тестов, а затем подвергает баллы студентов в четырехбалльной шкале количественной интерпретации, сравнивая результаты. В ЕГЭ примером количественной интерпретации качественных результатов может служить обработка данных экспертов по результатам проверки заданий КИМ со свободно конструируемым ответом на основе моделей IRT и последующее представление результатов выпускников в метрической шкале.
Вторая схема, приведенная на рис. 2.11, соответствует случаю, который довольно часто встречается в практике образования, поскольку любые результаты тестирования всегда подвергаются качественной интерпретации для объяснения количественных результатов измерения.
Рис. 2.11. Вторая схема реализации бипарадигмальных методов измерения
Результаты измерений могут использоваться в самых различных целях: например, для принятия управленческих решений в учебном процессе, связанных с усилением акцентов на отдельных разделах учебной программы, выделением дополнительного времени для повторения и так далее либо для осуществления диагностики пробелов в обучении, отбора студентов со специальными целями (обучение по индивидуальным программам и т.д.), проведения аттестации, оценки эффективности деятельности учебных заведений, планирования образовательной политики. Однако вне зависимости от сферы использования количественные данные должны пройти этап качественной интерпретации, чтобы стать информационной основой любых управленческих решений в образовании.
Особенно важны качественные методы в том случае, когда тесты разрабатываются на основе критериально-ориентированного подхода, позволяющего качественно интерпретировать количественные результаты тестирования при аттестации (процент освоенного содержания обучения) по отношению к содержательной области, включенной в тест и снабженной определенными критериями выполнения (см. Основные подходы к разработке измерителей ). Вначале балл каждого студента подсчитывается путем перевода в проценты доли правильно выполненных заданий по отношению к общему числу заданий теста. Затем полученный для каждого студента процент сравнивается со стандартами выполнения – критериями, установленными экспертным путем и прошедшими эмпирическую валидизацию в процессе конструирования теста. Таким образом, в самом критериально-ориентированном подходе заложена идея качественной интерпретации с использованием конкретной области содержания и участием экспертов для выбора критериев выполнения тестов.
Третья и четвертая схемы, приведенные на рис. 2.12, кажутся подобными первым двум, хотя речь идет не о последующей интерпретации, расширяющей возможности количественных или качественных методов измерения, а об объединении методов в рамках последовательного дизайна в едином измерительном процессе.
Рис. 2.12. Последовательный дизайн реализации бипарадигмальных методов в измерении (схемы 3, 4)
Последовательный дизайн имеет отличающиеся по времени выполнения уровни измерения, поэтому его можно назвать двухстадийным. На верхней схеме качественные методы измерения предшествуют количественным, что соответствует практической ситуации, когда анкетирование предваряет тестирование по заданиям с выбором ответов. На нижней схеме ситуация полностью противоположна: студентов сначала тестируют, а затем собирают дополнительную информацию на основе анкет, опросных листов или собеседований для углубленного анализа данных тестирования и расширения возможностей интерпретации при использовании результатов измерений в управлении качеством образования. Обе схемы на рис. 2.12 предполагают анализ взаимного влияния данных качественного и количественного уровней, когда результаты тестирования пытаются соотнести с социально-экономическими, демографическими или другими факторами для корректного сопоставления количественных данных и получения долгосрочных прогнозов в управлении качеством образования.
Последний вариант взаимодействия количественных и качественных методов педагогических измерений, представленный на рис. 2.13, иллюстрирует параллельный дизайн, примером которого могут служить КИМ ЕГЭ, в которых сочетаются задания с выбором и со свободно конструируемым ответом. Вне практики ЕГЭ параллельный дизайн мало распространен в отечественном образовании, так как экспертная проверка заданий со свободно конструируемыми ответами довольно затратное мероприятие, требующее привлечения специально обученных экспертов.
Рис. 2.13. Параллельный дизайн реализации бипарадигмальных моделей в измерении (схема 5)
Соотнесение предлагаемых схем дизайна измерений с типологией бипарадигмальных моделей (см. рис. 2.9) позволяет дать расширенную интерпретацию предложенной на упомянутом рисунке классификационной схемы, которая выстроена в соответствии типами различных задач, решаемых в обучении на всех образовательных уровнях. Классификация моделей охватывает диапазон управленческих проблем от повседневного процесса обучения до выработки отдельных административных решений. Предполагается, что с помощью информации, полученной на основе бипарадигмальных моделей измерения, можно принять целый спектр управленческих решений в учебном процессе (построить индивидуальные обучающие траектории, усилить акценты на отдельных разделах учебной программы, выделить дополнительное время для повторения, придерживаться учебного плана и т.д.), осуществить диагностику пробелов в обучении, произвести отбор студентов со специальными целями, провести аттестацию, оценить эффективность инноваций в обучении, скорректировать образовательную политику и т.д.
В частности, в соответствии с классификацией задач (вход в обучение, текущий процесс, завершение определенного периода учебного процесса), решаемых с помощью измерений, можно выделить три основных типа бипарадигмальных моделей измерения и представить их основное назначение в обучении. Естественно, что каждый тип модели допускает использование и количественных, и качественных методов, поэтому с определенной степенью общности в типологической схеме можно говорить лишь о доминанте тех или иных уровней измерения.
В первой модели входных измерений доминируют количественные методы в соответствии со схемой 2, поскольку при начале обучения в основном, но не всегда, используют методы экспресс-диагностики, реализуемые с помощью претестов (предварительных тестов) с заданиями на выбор правильного ответа, результаты которых подвергаются качественной интерпретации [28, 39]. Благодаря кратким заданиям, обычно с двумя или тремя ответами, среди которых один верный, претесты позволяют с высокой эффективностью выявить готовность к усвоению новых знаний у всех студентов.
По результатам выполнения претеста преподаватель принимает управленческое решение о возможности продвижения по программе обучения или отказа от новых тем и повторения базового материала. Претесты работают также на режим индивидуализации обучения, поскольку помогают выделить тех, кто нуждается в дополнительной работе и консультациях педагога либо, наоборот, кто способен двигаться быстрее по индивидуальной программе обучения с максимальным развивающим эффектом. Применение данных входного измерения в адаптивном тестировании при контроле или обучении позволяет оптимизировать подбор трудности заданий с первых шагов продвижения студента по адаптивному тесту.
Модель текущих измерений ориентирована преимущественно на качественные методы в соответствии со схемой 1, поскольку в повседневном учебном процессе преобладают традиционные контрольно-оценочные средства: опросы, контрольные работы и так далее, результаты выполнения которых нередко подвергаются количественной интерпретации. Даже в тех случаях, когда для решения задач текущего контроля разрабатываются корректирующие и диагностические тесты, измерения носят качественный характер. Хотя тесты первого вида, как правило, являются критериально-ориентированными и в основном включают задания с выбором ответов, их результаты никогда не обрабатываются с помощью современной теории IRT, поскольку их применение полностью нацелено на дифференцированный подход к обучающимся при коррекции пробелов в усвоении. С помощью корректирующих тестов можно найти слабые места в подготовке студентов и выявить направления индивидуальной помощи им в освоении нового материала.
Логика критериально-ориентированного подхода при корректирующем тестировании достаточно проста и привычна для педагога. В тех случаях, когда число ошибок в тестах превышает установленный критерий, преподавателю следует вмешаться в процесс усвоения новых знаний и помочь учащемуся ликвидировать пробелы. При обычных условиях вся работа по выявлению пробелов и коррекции процесса усвоения лежит на преподавателях, что приводит к значительным перегрузкам. Благодаря корректирующему тестированию центр тяжести в работе педагога при управлении процессом усвоения новых знаний смещается на тесты.
Если затруднения студента при выполнении заданий по какому-либо разделу учебного материала носят систематический характер, то педагог может прибегнуть к помощи диагностических тестов, которые предоставляют информацию исключительно на качественном уровне измерений. Основная цель диагностики – установление причин пробелов в знаниях студентов – достигается специальным подбором содержания заданий в тестах. Как правило, в них бывают представлены слабо варьирующие по содержанию задания, рассчитанные по форме представления на отслеживание отдельных этапов выполнения каждого задания теста. Подробная детализация позволяет выявить причины устойчивых ошибок студентов, конкретизировать характер возникающих затруднений и получить качественные выводы о несформированности тех или иных учебных умений.
Информация управленческого характера, которую получает преподаватель после применения диагностических тестов, довольно подробна и непосредственно увязывается с планируемыми задачами обучения. Например, по результатам диагностики можно установить, что одни пробелы в подготовке вызваны неумением обучаемого применять на практике полученные им теоретические знания, а другие – неумением переносить теоретические знания на новую нестандартную ситуацию и т.д. Поэтому диагностические тесты позволяют педагогу определить истинные источники постоянных неудач отдельных студентов в обучении и скорректировать свою работу соответствующим образом.
Модель итоговых измерений носит преимущественный количественный характер и строится на основе последовательного или параллельного дизайна, сочетания количественных и качественных методов. Для ее реализации, протекающей согласно схемам 3, 4 и 5, чаще всего применяют итоговые тесты учебных достижений. Поскольку основная цель итогового тестирования – обеспечение объективной оценки результатов обучения и ее последующее использование для принятия административных управленческих решений в образовании, то при оценивании стараются применять количественные методы измерения и стандартизованные тесты. По этим же причинам итоговому тестированию стараются придать независимый характер и привлекают к его проведению структуры, внешние по отношению к учебным заведениям. Примером независимого итогового тестирования в России является ЕГЭ, тестирование при аккредитации вузов и т.д. Разработкой и стандартизацией итоговых тестов, результаты которых используются для административных решений, обычно занимаются специалисты, прошедшие специальное обучение методике конструирования педагогических тестов.
Для обработки данных в модели итоговых измерений обычно обращаются к теории IRT, особенно в тех случаях, когда данные измерения применяются для сопоставления эффективности работы учебных заведений или прогнозирования тенденций в образовании на основе мониторинговых исследований. Применение IRT позволяет перевести результаты измерений в метрическую шкалу, что существенно повышает обоснованность выводов в процессе управления качеством образования. На фоне количественных методов в модели итоговых измерений широко применяются анкетирование, собеседование и другие методы сбора качественных данных. Для повышения обоснованности выводов относительно итоговых результатов обучения привлекаются данные портфолио или результаты по тестам практических умений, позволяющие перевести результаты измерения только в порядковую или номинальную шкалу.
Процесс педагогических измерений состоит из совокупности операций, направленных на компоненты измерений и позволяющих получить количественные или качественные оценки оцениваемых характеристик.
В отличие от традиционных оценочных средств измерители являются объектом специального анализа, направленного на обеспечение необходимых характеристик для повышения надежности и валидности результатов измерений. Особенно важно такое обоснование качества измерителей при итоговом контроле, результаты которого связаны с принятием важных административных решений, например, при аттестации выпускников или оценке эффективности деятельности учебных заведений.
При аттестации объектом измерения являются знания, умения навыки и компетенции, нередко называемые обобщающим термином «учебные достижения», структура и уровень сформированности которых сравнивают с требованиями ФГОС.
Надежность, валидность и размерность – три взаимосвязанные характеристики качества результатов измерений. Задание является одномерным, если оно измеряет одну и только одну переменную. Размерность задания равна числу переменных, которые оно измеряет. Анализ размерности результатов измерения, основанный на исследовательском и конфирматорном факторном анализе необходим при разработке оценочных средств в рамках компетентностного подхода к трактовке качества результатов образования.
При разработке тестов и переходе к шкалированным показателям испытуемых желательно пользоваться методами современной теории тестов (IRT), позволяющей преобразовать сырые баллы студентов в интервальную шкалу, единую для оценок параметров испытуемых и трудности заданий теста.
Классическая теория тестов и рекомендованные в ее рамках линейные преобразования сырых баллов повышают сопоставимость результатов студентов, но не меняют природу порядковой шкалы наблюдаемых результатов выполнения теста. Стандартизованные тесты, разработанные на основе классической теории, не позволяют перевести результаты испытуемых в интервальную шкалу.
1. Какие компоненты педагогических измерений вы знаете?
2. Чем результаты оценивания качества подготовленности студентов, полученные на основе педагогических измерений, отличаются от результатов традиционных экзаменов?
3. Составьте сравнительную характеристику инновационных измерителей на основе анализа их возможностей для оценивания творческих аспектов подготовленности студентов.
4. Какие измерители наиболее адекватны по своим характеристикам задаче отслеживания динамики изменений качества подготовленности студентов?
5. Какие измерители необходимы для системы мониторинга качества образования внутри учебного заведения?
6. Эффективно ли использовать диагностические тесты без корректирующих тестов?
7. Следует ли подвергать стандартизации тесты для текущего контроля?
8. Можно ли использовать тесты, стандартизованные в одном вузе, с теми же нормами для всех вузов по данному направлению подготовки?