Глава 4

Измерение

Б главе 2 было рассмотрено кардинальное различие между независимой и зависимой переменными: независимая переменная — это тс факторы, которые мы контролируем; зависимая переменная — это то, что мы измеряем на выходе. Большая часть главы 3 «План» была посвящена первому из этих понятий — разнообразным способам создания независимых переменных и их сочетанию. В этой главе акцент будет смещен с независимой на зависимую переменную: на способы измерения результатов исследовательского процесса.

Измерение — это большая тема; в ходе изложения материала мы будем периодически к ней обращаться. В частности, главы, посвященные специфическим видам исследования (главы 10-13), содержат достаточный объем информации о том, как измерять конструкты, наиболее интересные для специалистов в области психологии развития. Цель этой главы — лишь познакомить с некоторыми базовыми принципами измерения — принципами, к которым мы по необходимости будем возвращаться и которые будем конкретизировать.

Структура этой главы следующая. В первом разделе вводится ряд базовых понятий, необходимых для понимания измерения, к примеру, понятие операционального определения, а также такие основополагающие понятия, как надежность и валидность измерения. Оставшаяся часть главы посвящена двум важнейшим формам измерения: стандартизованным тестам для оценки определенных психологических качеств и методам обсервативной оценки поведения. Рассматривая эти типы измерения, мы обсудим еще ряд общих принципов.

Базовые понятия

Как и ранее, многие принципы будут рассмотрены на конкретном примере, что облегчит их понимание. Он относится к области, о которой уже не раз говорилось: насилие на телеэкране и агрессия. Либерт и Бэрон (Liebert & Baron, 1972) использовали для изучения этого вопроса экспериментальный план, показывая половине своих испытуемых (5-9-летним детям) сцены из агрессивного фильма (3,5-минутный ролик из «Неприкасаемых»), а другой половине — ролик нейтрального содержания, после чего сравнивали уровень агрессии в обеих группах. Агрессия

оценивалась по множеству критериев, но один из них служил основой для большинства выводов; на нем мы и сосредоточимся. После просмотра детей сажали перед пультом с двумя кнопками: красная кнопка означала «боль*, а зеленая — «помощь». От пульта через отверстие в стене шли провода, и детям сообщали, что пульт подключен к игровому автомату, с которым в соседней комнате будет играть другой ребенок. По правилам игры нужно было поворачивать рычаг, а связь пульта с автоматом позволяла испытуемым воздействовать на ход игры: нажатие на кнопку «помощь» облегчало поворот рычага, а нажатие на кнопку «боль» делало рычаг горячим, таким образом затрудняя игру. Затем следовала серия попыток, когда ребенок мог нажимать на любую из кнопок столько, сколько захочет. Предстояло выяснить, будут ли дети, которые смотрели ролик с эпизодами насилия, проявлять большую агрессию, дол вше и чаше нажимая на кнопку «боль». Именно это и произошло: длительность нажатия кнопки «боль» у детей из группы, смотревших агрессивный ролик, была почти на 50 % больше, чем у детей, смотревших ролик нейтрального содержания. Таким образом, результаты подтвердили предположение о том, что просмотр детьми агрессивных телепрограмм ведет к повышению агрессии. (Добавим лишь то, о чем вы, вероятно, уже догадались: в соседней комнате не было никакого ребенка.)

Операционализация

Рассмотрим два способа подведения итогов по результатам исследования Либерт и Бэрона: «Просмотр детьми телепрограмм с эпизодами насилия повышает их агрессивность» и «Просмотр детьми 3,5-минутпого ролика, составленного из отрывков фильма "Неприкасаемые" в лабораторных условиях повышает вероятность того, что пять минут спустя дети будут нажимать кнопку, нажатие на которую будто бы приводит к болезненным ощущениям ребенка, находящегося в соседней комнате и не видимого для испытуемого». Очевидно, что первое утверждение представляется более интересным и обобщенным. Однако второе — более точно, так как описывает именно то, что было проделано и обнаружено, тогда как первое утверждение — это общий вывод, выходящий за рамки фактических данных.

Два указанных выше способа подведения итогов в исследовании Либерт и Бэрона демонстрируют существенное различие между выводами, которые хочет сделать исследователь, и конкретными манипуляциями и измерениями, которые он проделывает. «Насилие на телеэкране» и «агрессия», несомненно, интересные конструкты, стоящие того, чтобы их изучать. Таковы и многие другие вещи, которые изучают специалисты в области психологии развития — интеллект, креативность, Я-концепция, половая типизация. Проблема заключается в том, что интеллект и креативность, в действительности, не «вещи», непроизвольно и непосредственно наблюдаемые; прежде чем изучать, их нужно неким образом операционализироватъ — то есть перевести в специфическую, измеряемую форму, а любое измерение требует превращения общих понятий в специфические.

От глагола операциоиализировать образуется существительное — операциональное определение. Понятие операциональное определение впервые появилось в 20-х годах XX века в работах физика П. У. Бриджмена (P. W. Bridgemen). Операциональное определение — это определение переменной в терминах операции, используемых для создания или измерения этой переменной. Так, температуру можно определить как перемещение ртути внутри определенного вида емкости.

Интеллект можно определить как успешность выполнения заданий теста Стэнфорд-Бине, агрессию можно определить по параметрам, указанным во втором из итоговых заключений. Во всех случаях налицо привязка к используемым на практике измерительным операциям.

При узком толковании операционализация предполагает, что исследователь, делая выводы об изучаемых переменных, не выходит за рамки операций, использовавшихся для их создания или измерения. Фактически сегодня мало кто из исследователей придерживается столь буквального понимания операционализации. Тем не менее, операционализм оказал значительное и благотворное влияние на психологическую науку. Он установил общепринятую схему, в границах которой решается задача измерения. Основной принцип этого подхода заключается в требовании четкости определения, объективности измерительных операций и их

воспроизводимости любым исследователем в любой, соответствующим образом оборудованной лаборатории.

Рассмотрим, как может происходить перевод теоретического конструкта в конкретные измеримые параметры для исследователя и для тех, кто читает исследовательские отчеты. Возьмем, к примеру, обсервативное исследование агрессии в детском саду. Исследователя интересует вероятность того, что социальное подкрепление способствует агрессивному поведению в обстановке детского сада. Первая задача исследователя состоит в выборе операционального определения каждого из этих довольно глобальных конструктов. Поскольку любой из них операцио-нализируется множеством способов, из совокупности свойств данных конструктов нужно выбрать ограниченное число конкретных параметров. Наш исследователь, к примеру, может определить социальное подкрепление как набор неких вербализаций (например, «хорошо», «о'кей»), неких выражений лица (например, адресованная ребенку улыбка) или определенного рода невербальное поведение (например, похлопывание по плечу, объятия). Агрессию можно определить как набор разнообразных физических актов (например, удары, пинки, щипки), направленных на причинение вреда другому человеку. Каковы бы ни были выбранные параметры, задача исследователя состоит в проведении максимально точных измерений, в описании именно того, что было сделано.

Перед тем, кто в итоге будет знакомиться с исследовательским отчетом, тоже стоит определенная задача. Он должен, прежде всего, осознать, что такие конструкты, как социальное подкрепление и агрессия, могут иметь множество операциональных определений и что какое-то одно исследование неизбежно будет включать лишь часть возможных определений. Это означает, что используемые операциональные определения не обязательно будут согласовываться с тем, что читатель сам вкладывает в понятия социального подкрепления и агрессии, и что определения не обязательно будут согласовываться с теми определениями, которые читатель встречал в других исследовательских отчетах по этой проблематике. Таким образом, читатель должен отбросить, по крайней мере на какое-то время, составленные ранее представления и сосредоточиться на том, что действительно было осуществлено в рассматриваемом исследовании. Тогда он сможет прийти к заключению, что операциональные определения разумны и достаточны, либо что они по тем или иным причинам неадекватны. К примеру, в категорию социального подкрепления следует включить лишь заботу о ребенке, а также очевидные позитивные поведенческие проявления, такие как улыбка и похвала. В категорию агрессии следует включить вербальные, а не только физические действия. Возможно, одно из наиболее важных качеств, которые должен развить у себя читатель психологической литературы, — это способность выйти за пределы гладких выводов из «Реферативных журналов» и «Актуальных вопросов...» (например, социальное подкрепление приводит к повышению уровня агрессивности) с тем, чтобы оценить исследование в терминах использованных в нем на практике операций. Если эти операции не отвечают определенным требованиям, общие выводы вряд ли можно считать бесспорными.

Квантование

Для измерительной системы характерен переход от глобального к специфическому. Еще одним ее свойством является квантование. По словам одного из создателей теории измерения С. С. Стивенса (S. S. Stevens), «измерение — это численное выражение определенных аспектов объекта в соответствии с тем или иным правилом» (Stevens, 1968, р. 850). Однако числа и правила могут носить разный характер, в зависимости от используемых форм измерения. Соответственно изменяются и выводы, которые можно сделать на основе полученных результатов.

Типы величин определяют так называемые уровни, или шкалы измерения. Вслед за Стивенсом (например, Stevens, 1968) ученые традиционно выделяют четыре уровня измерения. Каждый уровень выполняет базовые функции любой системы измерения, то есть результатом каждого измерения является некая величина, а полученные величины позволяют разграничить результаты всех измерений. Однако происходит это по-разному.

Наиболее простая из систем измерения — номинальная шкала. Номинальная это то же, что «именующая» — придающая некоторое качественное значение каждому результату измерения. Предположим, вас интересует, какие игрушки нравятся дошкольникам. Вы предлагаете каждому ребенку четыре игрушки и просите выбрать ту, с которой ему больше всего хотелось бы поиграть. Измерение состоит в регистрации того, какая из игрушек была выбрана. Измерение в этом случае номинативное, поскольку вы даете «имя» каждому ответу. Конечно, вы можете превратить названия в числа — к примеру, записать 1, когда выбор падает на грузовик, 2, когда оказывается предпочтение медвежонку, и т. д. Эти числа, однако, будут выполнять функцию наименований, не имея какого-либо количественного значения. Данный факт является отличительной особенностью номинативных шкал: они позволяют классифицировать по качеству, но не по количеству.

Рассматривая второй уровень измерения, можно возвратиться к примеру с агрессией. Предположим, мы попросили воспитателя проранжировать детей по степени агрессивности каждого из них в игровой комнате. Мы использовали рейтинговую шкалу, имеющую пять позиций: от «крайне агрессивного» до «умеренно агрессивного» и от «умеренно агрессивного» до «совершенно неагрессивного». Системой измерения служила порядковая шкала, поскольку мы располагали результаты наблюдений по их величине. В этом случае, в отличие от случая использования номинативной шкалы, результаты измерений имеют количественную размерность, а измерение служит для определения порядковой позиции каждого из результатов. Поэтому можно сказать, что «крайне агрессивный» ребенок агрессивнее «умеренно агрессивного», который, в свою очередь, агрессивнее «совершенно неагрессивного» — или что пятая категория действительно больше третьей, которая, в свою очередь, больше первой. Заметьте, однако, что все еще нельзя говорить о масштабах различий. Мы не знаем, к примеру, является ли разница между пятой и третьей позицией такой же, как разница между третьей и первой. Не вправе мы конечно и утверждать, что ребенок, попавший в пятую категорию, в пять раз агрессивнее ребенка, попавшего в первую. Все, о чем можно говорить, — это о порядке.

Данное ограничение снимается в третьей шкале, интервальной. В интервальной шкале точки деления не только упорядочены, но и равноудалены друг от друга. Характерный (хотя и не психологический) пример — шкала термометра. Температурные показатели, несомненно, упорядочены: 40° теплее, чем 30°, а 30° теплее, чем 20°. Более того, точки деления на термометре расставлены равномерно. Поэтому мы можем утверждать, что разница между 40° и 30° точно такая же, как и разница между 30° и 20° (в физическом, если не психологическом смысле). Как было сказано выше, такого рода количественная точность невозможна на порядковой шкале.

Однако интервальная шкала все же имеет одно ограничение: на ней нет истинного нулевого деления. На термометре, конечно, есть ноль, однако ноль на шкале термометра — это произвольная точка, с обеих сторон которой имеются другие значения, а не действительно нулевой уровень. Это не подразумевает полного отсутствия измеряемых характеристик. Измерительные шкалы, отвечающие всем критериям интервальных шкал и, кроме того, содержащие истинный ноль, называют шкалами отношений. Характерным примером шкал отношений могут служить системы измерения таких физических параметров, как высота или вес.

Шкала весов включает не только равные интервалы между значениями веса, но и истинный ноль, то есть отсутствие веса на весах. Наличие нулевой точки на шкалах отношений позволяет делать выводы о пропорциях, что невозможно при использовании интервальных шкал. К примеру, можно сказать, что 40 фунтов в 2 раза тяжелее 20 фунтов. Но нельзя сказать, что 40° в 2 раза теплее 20°.

Уровень измерения — один из факторов, определяющих выбор статистических критериев. К вопросу об измерительных шкалах мы вернемся в главе 7, посвященной статистике.

Аспекты измерения

До сих пор мы акцентировали внимание в основном на необходимости осуществлять выбор при переводе некоего глобального конструкта (например, агрессии) в некоторую специфическую, измеряемую форму (например, удары и пинки). Однако мы еще не обсудили параметры, по которым осуществляется измерение. Теоретики выделяют ряд параметров, или «граней» измерения (Messick, 1983). Часть из них мы рассмотрим в этом разделе, остальные — в дальнейшем.

Одно из кардинальных решений, которое нужно принять исследователю, касается определения конкретного аспекта поведения, который он будет изучать. Предположим, что наш воображаемый исследователь агрессии у дошкольников выбрал в качестве критерия агрессии удары. Однако все еще остается нерешенным вопрос, что конкретно в этих ударах будет измеряться. Исследователь, к примеру, может решить работать с частотой действий, то есть оценивать, как часто ребенок наносит удары. Такой прямой подсчет, вероятно, даст наиболее очевидный индекс того, что принято подразумевать под «уровнем агрессии». Альтернативных! вариант — работать не с частотой, а с интенсивностью, то есть оценивать, не как часто ребенок наносит удары, а какой силы эти удары. Интенсивность также имеет очевидную связь с тем, что понимается под «агрессией». Есть и еще один вариант: сосредоточиться не на частоте или интенсивности, а на временных характеристиках поведения. Исследователь, к примеру, может решить измерять латентность или скорость агрессивной реакции или же общую продолжительность эпизодов нанесения ударов. Эта трихотомия «частота—интенсивность—продолжительность» применима не ко всем видам поведения, изучаемым в психологии развития; однако во многих случаях ее вполне можно использовать. Если же такая возможность отсутствует, обычно имеются другие параметры, которые поддаются измерению. Редко какой результат подразумевает лишь единственный способ его измерения.

Выбор аспекта поведения для измерения предполагает наличие решения о способе измерения и, следовательно, ограничен внешними поведенческим проявлениями. Объектом измерения не всегда становится внешнее поведение. Исследователя агрессии могут интересовать и агрессивно окрашенные мысли или фантазии, то есть подспудное психическое содержание, а не фактическое поведение. Чтобы сделать вывод о психическом содержании, ему все равно необходимо выделить некую измеряемую реакцию (например, самоотчеты об агрессивно окрашенных фантазиях); однако в этом случае поведение — это лишь средство к достижению цели. Аналогично исследователь агрессивных эмоций должен получить вербальные отчеты об этих эмоциях; однако вновь объектом изучения служит нечто отличное от внешних поведенческих проявлений. В качестве альтернативы исследователь мог бы выбрать обходной путь и измерять не поведенческие реакции, а физиологические показатели (например, повышение частоты сердечных сокращений, повышение артериального давления) в ответ на ситуацию, провоцирующую агрессию. Эмоции — это только один из конструктов, которые позволяют производить не выраженные внешне измерения. В дальнейшем мы еще встретим множество примеров подобных конструктов.

Обратите внимание, что описанные в предыдущем абзаце варианты оценки иллюстрируют различные направления измерений. Одно из них — от явного к внешне не выраженному. В одних случаях нас интересует само поведение, в других — не наблюдаемые, более общие конструкты (мысли, мотивы, потребности и т. д.), которые предположительно лежат в основе видимого поведения. В одних случаях специфический объект наших измерительных операций — явное поведение (например, удары), в других — это некий скрытый недоступный для прямого наблюдения процесс (например, частота сердечных сокращений). Наконец, в некоторых случаях имеющееся в наличии и специфическое совпадает, в других — нет. Если говорить об ударах, то здесь присутствует совпадение — нас интересует, как часто ребенок бьет других детей, и мы измеряем частоту ударов. Исследователя же эмоций, скорее всего, не интересует частота сердечных сокращений сама по себе; частота сердечных сокращений — это лишь ключ к эмоциональному состоянию. Это различие определяют как различие между признаком и специфической моделью. Иногда мы измеряем специфические модели конструкта, то есть частные случаи (удары, плач, улыбки и т. д.) интересующего нас поведения. А иногда — только признаки, не конструкт сам по себе (поднятие бровей, изменение частоты сердечных сокращений и т. д.), по которым можно судить об этом конструкте. И разумеется, одна и та же характеристика может выступать либо в роли признака, либо в роли специфической модели, в зависимости от ее функции в конкретном исследовании. При изучении плача приступы плача, естественно, — специфические модели. При изучении привязанности приступ плача это признак — обычно один из множества, — по которому судят о характере привязанности.

Последнее разграничение касается целей измерения, то есть того, что мы собираемся делать с полученными данными. В некоторых случаях цель — выявление индивидуальных различий между испытуемыми, оценка степени различия испытуемых из одной выборки по параметру агрессии, привязанности или чего-либо еще. Такая цель особенно часто стоит перед корреляционным исследованием, в котором осуществляется попытка выявления связи между вариациями значений одной группы показателей (например, индивидуальных различий в уровне агрессии у детей) и вариациями значений другой группы показателей (например, различий в полученном воспитании). В других исследованиях в центре внимания находятся не столько индивидуальные различия, сколько непосредственные детерминанты изучаемого поведения. Возьмем в качестве примера гипотетическое исследование социального подкрепления и агрессии. Цель такого исследования могла бы состоять в определении отношений между колебаниями уровня агрессии и наличием или отсутствием подкрепления, а не в оценке того, кто из детей более или менее агрессивен. Или же рассмотрим экспериментальное изучение связи просмотра телепрограмм с эпизодами насилия и агрессивного поведения, подобное тому, которое провели Либерт и Бэрон (Liebert & Baron, 1972). Вновь цель не в выявлении индивидуальных различий в уровне агрессии; цель — узнать, изменяется ли уровень агрессии как функция от характера телепрограмм, которые смотрят дети.

Описанное выше различие иногда называют различием между свойством и состоянием. При измерении свойства нас интересует вопрос, каковы люди вообще, при этом цель, как правило, состоит в выявлении связи измеряемой характеристики с неким другим показателем или некими другими показателями в одной и той же выборке. При измерении состояния нас интересует вопрос, каковы люди в данный момент, при этом цель, как правило, состоит в выявлении связи вариаций непосредственных поведенческих реакций с некоей потенциальной детерминантой изучаемого поведения. В обоих случаях, несомненно, важно выбирать адекватную операционализацию изучаемого конструкта. Более того, конкретные измерительные операции могут быть общими и для оценки состояния, и для оценки свойства. Если, к примеру, определенный итоговый индекс физических актов (ударов, пинков, щипков и т. д.) выступает как критерий индивидуальных различий по уровню агрессии, то этот же критерий, вероятно, может быть использован и в экспериментальном исследовании эффектов просмотра программ с эпизодами насилия. Однако, даже если критерии совпадают, способы измерения этих параметров и их использования могут быть разными в разных видах исследования, Когда в центре внимания находятся индивидуальные различия между людьми, первостепенное значение приобретает оценка специфических моделей поведения в выборке: возможность упорядочить результаты испытуемых по определенному параметру за-

висит от возможности оценить репрезентативные модели поведения каждого испытуемого. Когда же в центре внимания находится влияние экспериментальных манипуляций на изучаемое поведение, вопрос измерений в выборке, а также индивидуальные различия отходят на второй план: теперь нас скорее всего будет интересовать общий, сравнимый с другими, тип поведения, который позволяет выявить искомый эффект. В действительности в этом случае имеющиеся индивидуальные различия становятся даже помехой, поскольку вносят дисперсию ошибки, которая может искажать эффект, представляющий исследовательский интерес.

В этом разделе анализировался ряд направлений, по которым различаются измерения. Все они сведены в табл. 4.1. Как уже отмечалось, более полное освещение этой темы (например, Messick, 1983) добавило бы ряд новых граней. Однако, несмотря на это многообразие параметров измерения, принцип, который следует уяснить, довольно прост: мы выбираем стратегии измерения согласно конкретным целям исследования.


Таблица 4.1 Аспекты измерения

Направление Описание
Аспект поведения Какой из аспектов поведения (например, частота, интенсивность, временные параметры) измеряется
Явное/внешне не выраженное Явный объект измерения (наблюдаемое поведение) или неявный (например, некие
физиологические изменения)
Признак/специфическая модель Является ли критерий признаком, по наличию которого судят о конструкте, или специфической моделью данного конструкта
Свойство/состояние Находятся в центре внимания устойчивые индивидуальные различия между испытуемыми или непосредственный эффект экспериментальных манипуляций

Качество измерения

Как было сказано выше, измерение — это процесс принятия решений: выбора ограниченного количества методов оценки конструкта из значительно большей совокупности методов. В этом разделе мы рассмотрим некоторые факторы, определяющие, насколько удачен выбор того или иного способа измерения.

Как говорилось в главе 2, «изменчивость» зависимой переменной подразумевает, что получаемые результаты с некоторой долей вероятности изменяются как функция от факторов, изучаемых исследователем. Поэтому один из критериев качества измерения состоит в том, чтобы оно давало необходимый уровень и диапазон значений переменной. В противном случае показатели будут так скученны, что ни один эффект не проявится. Чаще всего этот вопрос обсуждают, говоря о корреляционном исследовании и проблеме ограничения диапазона переменных (смотри главы 3 и 7); однако он имеет отношение и к эксперименту. Рассмотрим вновь исследование Черри и Парка (Cherry & Park, 1993), описанное в главе 2. Предположим, что в качестве стимульного материала для оценки памяти они предъявляли бы не 24, а 4 предмета. В этом случае большинство испытуемых, вероятно, безупречно справились бы с заданием, и не было бы никакой возможности обнаружить эффект контекста (схемы или модели), на выявление которого было направлено исследование.

Эта гипотетическая переформулировка исследования Черри и Парка иллюстрирует один из возможных видов ограничения диапазона: так называемый эффект верхнего предела. Об эффекте верхнего предела говорят, когда задание слишком легкое, и поэтому большинство испытуемых получает баллы, находящиеся на верхней границе шкалы или очень близко от нее. Возможна и противоположная ситуация — скученность показателей у нижней границы шкалы вследствие слишком высокого уровня трудности заданий. Эта проблема, как вы наверное догадались, называется эффектом нижнего предела.

При проявлении достаточной предусмотрительности обычно удается избежать эффектов и верхнего, и нижнего пределов. Поиску оптимального уровня трудности может помочь предварительное исследование с аналогичными заданиями и выборкой. Если сомнения все же остаются, для уточнения критериев можно провести пилотажное исследование. Но как бы ни был предусмотрителен исследователь, он все равно может столкнуться с трудностями, если одни и те же задания и процедуры должны использоваться с испытуемыми, находящимися на разных уровнях развития. Задание, умеренно трудное для одной возрастной группы детей, может вызвать эффект верхнего предела детей старшего возраста, эффект нижнего предела — у детей младшего возраста.

Обсуждая подбор заданий для разных возрастных групп, мы затрагиваем глобальный вопрос эквивалентности измерения. Как говорилось в главе 3, проблема эквивалентности измерений становится актуальной всякий раз, когда в исследовании сравниваются группы испытуемых. В психологии развития наиболее часто этот вопрос встает при сравнении возрастных групп, однако может иметь значение и при сравнении любых групп, сформированных естественным путем. При изучении различий между полами по уровню когнитивных способностей, к примеру, важно отбирать материал, одинаково знакомый и интересный как для мальчиков, так и для девочек. При сравнении разнообразных этнических и культурных общностей важно — и зачастую весьма затруднительно — подобрать методики, которые подходили бы для представителей всех этих групп. Довольно трудно бывает подобрать критерии, адекватные для одной группы испытуемых. Трудность измерения возрастает в несколько раз, когда цель исследования состоит в выявлении межгрупповых различий.

Из сказанного об эквивалентности измерений следует, что одного типа операционализации изучаемого конструкта зачастую бывает недостаточно. Методика, пригодная для одной группы, может оказаться непригодной для другой группы. Это явление — частный случай общей закономерности: Даже когда не производится сравнение групп, результаты использования лишь одной методики — неустойчивый базис для получения выводов. КукиКэмпбелл (Cook& Campbell, 1979) называют применение только одного типа измерительных операций монооперациональным искажением. По их мнению, одна операция практически всегда дает недостаточное представление об изучаемом конструкте, то есть раскрывает лишь некоторые аспекты того (агрессий, интеллекта, половой типизации и т. д.), что мы пытаемся измерить. Наряду с этим любое измерение включает ряд специфических для каждого задания дополнительных факторов (например, определенный порядок слов в инструкции, характер стимульного материала, конкретный человек, выполняющий функции экспериментатора), и поэтому трудно с помощью только одного типа измерений узнать, какая часть полученных результатов действительно имеет значение, а какая — следствие действия дополнительных факторов. Можно быть гораздо более спокойными за наши выводы при использовании нескольких форм измерения. Этот принцип вам уже знаком; в главе 3 мы говорили то же самое об опасности монометодического подхода при изучении причинно-следственных связей. Правилом для обоих случаев является использование конвергентных операций, а не единственного метода исследования.

В этом разделе, посвященном качеству исследования, остается рассмотреть еще два конструкта, крайне значимых для оценки измерения: надежность и валидность. Надежность характеризует согласованность пли воспроизводимость измерений. Вопрос состоит в следующем: будут ли результаты повторных применений некой методики одинаковы или весьма близки? Чем выше степень согласованности при неоднократном применении, тем выше надежность. Цель измерения всегда заключается в максимизации надежности, Валидность, как и везде, имеет отношение к точности — в данном случае, к точности измерений. Вопрос состоит в том, точно ли отражают полученные в ходе измерения значения изучаемый конструкт, то есть измеряем ли мы именно то, что предполагали измерять? Валидность, очевидно, вопрос, касающийся всего процесса измерения. Это глобальная цель, охватывающая все частные моменты, обсуждавшиеся в данном разделе.

Всегда, когда мы что-либо измеряем, встают вопросы надежности и валидности. Однако на практике эти конструкты чаще всего рассматриваются в их отношении к двум видам измерения: к стандартизованным тестам и к обсервативным оценкам. Стандартизованным тестам и методу наблюдения посвящены оставшиеся разделы этой главы; в контексте этих двух форм измерения я более подробно остановлюсь на вопросах надежности и валидности.

Тесты

Для определения, достойна ли некая измерительная операция называться тестом, не существует общепринятых критериев. В том смысле, в котором данный термин употребляется здесь, это измерительный инструмент, выполняющий функцию оценки ряда важнейших психологических характеристик. Существует множество психологических характеристик и еще больше тестов, претендующих на их измерение; список их включает несколько тысяч наименований (например, Burps, 1978). На страницах этой книги вы встретите ряд примеров: методики оценки темперамента в младенчестве (глава 10), Я-концепции у дошкольников (глава 12), полоролевого развития у старших детей (глава 12) и интеллекта в разные периоды жизни (главы 10, 11 и 13). Приведенные в качестве примера тесты — как и все тесты вообще — различаются по объекту оценки, по возрастным группам, для которых они предназначены, по схеме получения ответов и способам использования результатов тестирования. Однако общим для них всех является то, что они должны отвечать двойному критерию — валидности и надежности.

Валидность

При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то другим? Очевидно, что недостаточно назвать тест тестом интеллекта, нужны другие критерии. В целом, существует три типа критериев валидности.

Первый — тест должен отвечать требованиям содержательной валидности. Термин содержательная валидность означает адекватность, с которой задания теста характеризуют изучаемое понятие. Включает ли тест все важнейшие аспекты объекта, которые мы хотим измерить, и правильно ли оценивается значение каждого из них? Предположим, наш тест должен оценивать знания арифметики на уровне 4-го класса. Тест, содержащий примеры только на сложение, будет обладать недостаточной содержательной валидностью. Значительно лучшей содержательной валидностью будет обладать тест, включающий репрезентативную подборку задач на сложение, вычитание, умножение и деление.

Добиться содержательной валидности желательно, но это не всегда легко. Даже в отношении такого строго структурированного предмета, как элементарная арифметика, могут возникнуть расхождения, касающиеся адекватности подобранных заданий. К примеру, сколько должно быть примеров с двузначными, а сколько — с трехзначными числами; в какой контекст или в какие контексты должны быть помещены эти примеры? Когда объектом является нечто более сложное, чем элементарная арифметика, добиться содержательной валидности бывает практически невозможно. Как бы ни был широк диапазон подобранных вопросов теста, сомнительно, чтобы с помощью одного контент-анализа можно было бы продемонстрировать полноту и репрезентативность подбора вопросов для оценки любого из возможных аспектов «интеллекта». В таких случаях необходимы другие индексы валидности.

Вторая форма валидности — критериальная валидность. Здесь вопрос состоит в том, связаны ли результаты выполнения теста испытуемым с определенным внешним критерием характеристики, оцениваемой этим тестом. В случае теста на знание арифметики разумным критерием были бы отметки по арифметике за учебный год. Тест, значительно коррелирующий с этими отметками, обладал бы необходимой критериальной валидностью. В случае с интеллектом характерным критерием является возможность с помощью IQ-тестов спрогнозировать уровень школьной успеваемости или успешность выполнения стандартизированных тестов достижения; в действительности, исторически именно потребность в инструментах прогноза школьной успеваемости заставила приступить к разработке первого IQ -теста (тест Симона—Бине, 1905 год). Чаще всего критериальная валидность — это главная форма валидности тестов, основная функция которых состоит

в получении прогностической прагматической оценки. Поэтому именно критериальная валидность лежит в основе использования тестов академических способностей (Scholastic Aptitude Test — SAT) или письменных экзаменов для выпускников (Graduate Record Examinations — GRE) с целью прогноза успеваемости в колледже; использования результатов забега на 40 ярдов с целью прогноза успехов профессиональных футболистов и т. д.

Выделяют две формы критериальной валидности. Тест, коррелирующий с неким наличествующим в данный момент внешним критерием, считается обладающим текущей валидностью. Доказав, к примеру, что IQ, измеряемый во втором классе, коррелирует со школьной успеваемостью во втором классе, мы продемонстрировали бы текущую валидность нашей методики оценки IQ. О тесте, коррелирующем с неким внешним критерием в будущем, говорят, что он обладает прогностической валидностью. Доказав, что IQ, измеренный во втором классе, связан с успеваемостью в старших классах, мы продемонстрировали бы прогностическую валидность.

Последняя форма валидности, которую мы рассмотрим, называется конструкт-ной валидностью. Среди психометристов конструктная валидность считается наиболее важной формой валидности теста. К сожалению, из всех видов валидности исследователю ее труднее всего добиться, а автору учебника — труднее всего разъяснить. Я ограничусь лишь краткими предварительными замечаниями об этом сложном понятии. Более подробное изложение данной темы можно найти во многих источниках, включая работы Кронбах (Croiibach, 1990), Керлингер (Kerlinger, 1986) и Наннэлли (Nunnally, 1978).

Характерной особенностью конструктной валидности является ее теоретическая направленность. Как замечает Керлингер (Kerlinger, 1986), «это не просто вопрос валидизации теста. Необходимо попытаться валидизировать теорию, стоящую за тестом» (р. 420). Исходным пунктом поэтому становится некая концепция конструкта (интеллекта, креативности, Я-концепции, тревожности и т. д.), который мы хотим измерить. На основе этой концепции можно выдвинуть ряд гипотез. Это могут быть гипотезы об эффекте определенного рода экспериментальных манипуляций. Предположим, что мы пытаемся валидизировать некую методику измерения тревожности. Можно выдвинуть гипотезу о том, что повышение напряженности тестовой ситуации приведет к повышению показателя, полученного при помощи данной методики, и наоборот, снижение напряженности приведет к снижению этого показателя. Подобные результаты явились бы свидетельством наличия конструктной валидности.

Для установления конструктной валидности, помимо экспериментальных тестов, имеют значение и корреляционные данные. Прогнозируемые корреляции бывают двух видов. Одни гипотезы касаются вопроса о том, какие параметры конструкта положительно коррелируют с некими другими параметрами.

Рис, 4.1. Пример матрицы «свойствах методы. Буквами обозначены свойства или конструкты, а числами - методы исследования


Разрабатывая, к примеру, тест тревожности, мы могли бы предположить, что самоотчеты о переживании чувства тревоги коррелируют с физиологическими изменениями, которые рассматриваются как индикаторы тревоги (например, повышение частоты сердечных сокращений). Наличие прогнозировавшейся корреляции между показателями, имеющими общую теоретическую основу, называется конвергентной валидностью. Другие гипотезы касаются вопроса о том, какие показатели не должны коррелировать друг с другом. Например, при валидизации теста тревожности необходимо доказать, что некоторые физиологические изменения не связаны с самоотчетами о переживании чувства тревоги, таким образом, исключая общее возбуждение как объяснение полученных результатов. Дифференциация показателей, имеющих разную теоретическую основу, называется дивергентной (или дискрими-нантной) валидностью.

Весьма оригинальное решение вопроса конструктной валидности предложили Кемпбелл и Фиске (Campbell & Fiske, 1959), разработавшие матрицу «свойства X методы» (СМ). Использование матрицы СМ подразумевает анализ корреляций между предполагаемыми свойствами или конструктами, каждый из которых измеряется при помощи разных методов. В примере, проиллюстрированном на рис. 4.1, исследуется три свойства, каждое из которых оценивается при помощи трех методов, результатом чего является 9 показателей (А1,А2 и т. д.), составляющих массив таблицы. Конвергентную валидность демонстрировали бы достаточно высокие коэффициенты корреляции между показателями каждого столбца, то есть показателями, которые, как предполагается, характеризуют один и тот же конструкт и отличаются только методами, посредством которых они были получены. Дивергентную валидность демонстрировали бы низкие коэффициенты корреляции между любыми показателями, не попадающими в один столбец. Особенно интересны в этом отношении корреляции между показателями каждой строки — то есть, показателями, полученными при использовании одного и того же метода оценки. Иногда положительные корреляции между результатами обусловлены только методическим сходством заданий, а не характером измеряемых параметров. К примеру, в ряде тестов требуется быстрая реакция в условиях ограничения времени; тогда, что бы ни измеряли тесты, испытуемые, чувствующие себя в такой обстановке более уверенно, справятся с заданиями лучше. О корреляциях, являющихся результатом частичного совпадения методов, говорят, что они отражают дисперсию общности методов. Матрица СМ позволяет определить вклад дисперсии общности методов во все полученные корреляционные связи.

Как следует из вышесказанного, конструктная, как и критериальная валидность в большинстве случаев оценивается через проверку ожидаемых корреляций между результатами измерений. Однако между этими двумя видами валидности имеются существенные различия. Критериальная валидность обычно оценивается по какому-то одному внешнему показателю, например школьной успеваемости, в отношении которого мы хотим сделать прогноз; конструктная же валидность оценивается по целой системе предполагаемых взаимосвязей. Цель определения критериальной валидности, как правило, — в прагматическом прогнозе; цель определения конструктной валидности — валидизация лежащей в основе теста теории. Поэтому то, что последняя из рассмотренных форм валидности носит то же название, что и одна из форм валидности эксперимента, о которой рассказывалось в главе 2, не случайно (хотя и может смутить читателя). В обоих случаях сутью вопроса является теоретическая обоснованность: в одном — в отношении измерения, в другом — в отношении исследования в целом.

Надежность

Стандартизованный тест должен обладать не только валидностью, но и удовлетворять критерию надежности. Вопрос надежности в его применении к тестам также довольно очевиден: Согласованы ли результаты измерения данным тестом? Предположим, что мы даем одному ребенку IQ -тест несколько раз подряд, а затем сравниваем результаты. Если они близки, тест обладает хорошей надежностью; значительный разброс результатов свидетельствовал бы о недостаточной надежности.

Пример с IQ иллюстрирует одну из основных форм надежности — ретестовую надежность. Существует два способа оценки ретестовой надежности. Один — дать один и тот же тест дважды. Однако понятно, что если тесты одинаковы, ребенок может вспомнить свои ответы, а это приведет к искусственному завышению надежности (это также может привести к занижению надежности, если ребенок воспримет повторное предъявление теста как сигнал к изменению своих ответов). Дабы избежать этой проблемы, ретестовую надежность иногда оценивают с использованием взаимозаменяемых форм теста. Как следует из названия, такой подход требует наличия двух разных, но эквивалентных версий теста, при этом один вариант предъявляется в момент 1, а другой — в момент 2. Вновь высокая согласованность ответов будет свидетельствовать о высокой надежности.

Второй из основных типов надежности называется надежностью внутренней согласованности. Теперь суть состоит в согласованности ответов на разные вопросы одного теста, предъявляемого однократно. Как правило, для этого пользуются процедурой «расщепления» теста на нечетные и четные задания с

последующим сравнением ответов между двумя этими категориями. Вновь о высокой надежности будет говорить высокая согласованность ответов.

Важно отличать надежность от других конструктов, которые также имеют отношение к согласованности независимо от полученных результатов. Предположим, что интервал между первым и вторым выполнением теста интеллекта не один день, а два года. Обнаружив значительное расхождение между этими двумя показателя -ми, должны мы сделать вывод о ненадежности теста или о том, что IQ ребенка действительно изменился за два года? Допустим, мы решили измерять не интеллект, а вес. Если наши измерения показывают, что 9-летний ребенок весит на 15 фунтов больше, чем он весил в 7-летнем возрасте, должны ли мы заключить, что наши весы неисправны? Разумеется, вероятнее всего, что наш ребенок действительно прибавил в весе за прошедшие два года, то есть в период физического развития стабильность веса далека от идеальной. Многие аспекты жизнедеятельности ребенка (включая успешность выполнения IQ -тестов) далеки от идеальной стабильности в период его развития. Поэтому важно понимать разницу между надежностью измерения и стабильностью поведения.

Надежность измерения также важно отличать от типичности поведения. Вопрос типичности — это вопрос согласованности поведения в разных ситуациях. Предположим, нас интересует агрессия у дошкольников. Мы идем в детский сад и регистрируем все наблюдаемые там акты агрессии. На основе полученных данных мы вычисляем индекс агрессии для каждого ребенка. Затем мы отправляемся домой к детям и измеряем агрессию там. Обнаруживается, что наши показатели агрессии в домашних условиях слабо связаны с показателями агрессии в детском саду — иными словами, эти показатели существенно расходятся. Заключим ли мы, что один или оба метода измерения ненадежны? Хотя это вполне возможный вывод, более разумно было бы заключить, что уровень агрессии зависит от обстановки. В этом случае обнаруженный факт связан с типичностью поведения, а не с надежностью измерений.

Вероятно, полезно было бы резюмировать сказанное выше. Надежность — это свойство метода измерения; стабильность и типичность — это свойства поведения. Надежность — это то, что исследователь всегда пытается максимизировать. Стабильность и типичность же — это феномены, которые нужно изучать, а не максимизировать. Наконец, эти феномены можно изучать только по достижении достаточно высокого уровня надежности. Только будучи уверенными в надежности наших методов для определенного времени и ситуации, мы можем попробовать оценить согласованность поведения во времени (вопрос стабильности)*и в разных ситуациях (вопрос типичности).

Регрессия

Вернемся на время к ретестовой надежности. Надежность, которая далека от идеальной подразумевает, что результаты второго выполнения теста отличаются от результатов, полученных при первом тестировании. Можно ли уточнить это обобщенное утверждение и сказать что-либо о направлении изменения, то есть повысятся или понизятся результаты при втором предъявлении? Если рассматривать индивидуальные случаи, то предугадать направление измерения нельзя. Однако на уровне среднегрупповых показателей такой прогноз возможен. В целом испытуемые, получающие при первом тестировании низкие результаты, во второй раз справляются с заданиями успешнее, а испытуемые, получающие при первом тестировании высокие результаты, на второй раз справляются хуже. Тенденция, проявляющаяся в изменении при повторном тестировании изначально крайних показателей в направлении группового среднего, называется регрессией к среднему. Прежде чем попытаться объяснить, почему это происходит, рассмотрим конкретный пример. Допустим, мы предлагаем отобранной группе детей некий тест IQ и получаем распределение баллов, изображенное на рис. 4.2. Часть детей (пустые кружочки) получила оценки значительно ниже среднего, часть (закрашенные кружки) — значительно выше среднего, а результаты остальных (зачеркнутые кружки) находились в пределах среднего. Теперь предположим, что мы даем тот же тест той же группе неделю спустя и получаем распределение, изображенное на рис. 4.3. Как можно заметить, у детей, получивших первоначально низкие результаты, успешность в среднем повысилась, а у детей, первоначально получивших высокие результаты — снизилась. Таким образом, у обеих групп наблюдалась регрессия к среднему. Однако, поскольку некоторые из тех, кто первоначально справился с заданиями на среднем уровне, впоследствии улучшили или ухудшили свои результаты, общий диапазон значений и среднее значение остались неизменными.

Почему происходит регрессия? Результат любого испытуемого можно рассматривать как сумму двух компонентов — «истинного результата», или фактического значения измеряемого параметра, и погрешности, обусловленной несовершенством измерения. Ясно, что «погрешность» — это еще один способ описания надежности: абсолютная надежность подразумевает отсутствие погрешностей; и наоборот, чем больше погрешность, тем ниже надежность. В отношении погрешности обычно бывают оправданны два допущения. Первое — среди истинных показателей погрешность распределена по закону нормального распределения. Это означает, что небольшие погрешности встречаются чаще, чем существенные; это также означает, что погрешности с равной вероятностью могут привести как к завышению, так и к занижению индивидуальной оценки каждого испытуемого. Второе допущение — погрешности случайным образом распределены между испытуемыми и между тестовыми ситуациями. Это означает, что погрешность в результатах определенного испытуемого в одном тесте не коррелирует с погрешностью этого же испытуемого в другом тесте; погрешность в первом тесте не связана погрешностью во втором тесте.

Рассмотрим теперь результаты, изображенные на рис. 4.2. Каким образом на них отразились погрешности измерения? В частности, как повлияли на полученное распределение существенные погрешности, то есть те, которые приводят к значительному завышению или занижению результата? Справедливо допустить, что низкие показатели (пустые кружочки), в целом, явились следствием непропорционального количества отрицательных погрешностей; это одна из причин низких результатов части детей. Аналогично справедливо допустить, что высокие показатели, в целом, явились следствием непропорционального количества положительных погрешностей; это одна из причин высоких результатов другой части детей. Но что происходит при повторном тестировании? Вспомним, что погрешности результатов одного тестирования не связаны с погрешностями результатов другого. Поэтому маловероятно, что существенные погрешности изменят результаты тех же детей и в том же направлении. Скорее всего, результаты каждого ребенка затронет относительно небольшая погрешность, которая равно вероятно может исказить истинный показатель, как в сторону повышения, так и в сторону понижения. Это «выравнивание» погрешностей при повторном тестировании обусловливает тенденцию низких показателей к повышению, а высоких — к понижению; иными словами, обусловливает регрессию к среднему.

Основная проблема, которую ставит регрессия перед исследователем, очевидна. Как и недостаточная надежность в целом, регрессия представляет угрозу для валидности исследования. Более того, поскольку регрессия — систематический феномен, она может явиться причиной систематически неверных выводов. Предположим, что в описанном ранее исследовании IQ мы не только повторно протестировали детей, но и включили между первым и вторым тестированием новую образовательную программу. Получив результаты, указанные на рисунках 4.2 и 4.3, мы могли бы заключить, что эффект нашей программы зависит от изначального уровня способностей: программа привела к повышению IQ слабоодаренных детей, но фактически снизила IQ у одаренных. Очевидно, что в подобном случае регрессия может произвести ложное впечатление изменения. Или же регрессия может маскировать истинное изменение; к примеру программа действительно развивает у детей способности, однако истинное улучшение показателей делается незаметным из-за потерь, обусловленных регрессией.

Исследования программ вмешательства, таких как описанные выше, являются наиболее типичным контекстом проявления эффекта регрессии, так как выборкой для них обычно служат дети с низкой успеваемостью. Этому недостатку подвержены также определенного вида планы уравненных групп. Рассмотрим несколько измененную схему описанного в главе 3 исследования лиц, окончивших и не окончивших школу. Представьте теперь, что вас интересует стабильность IQ во времени. Сохраняются ли способности у окончивших школу лучше, чем у не окончивших ее? Вы уравниваете группы по показателю IQ, среднему между показателями обеих групп (скажем, 97) и проводите повторное тестирование 10 лет спустя, Принимая во внимание лишь регрессию, мы можем предположить, что средний показатель тех, кто окончил школу, повысится (поскольку отобраны представители популяции, имевшие относительно низкие результаты), а средний показатель тех, кто не окончил школу, снизится (поскольку отобраны представители популяции, имевшие относительно высокие результаты). Вновь регрессия может произвести заметный эффект, который не имеет ничего общего с эффектом изучаемой независимой переменной.

Рис. 4.2. Гипотетическое распределение результатов при первом предъявлении теста IQ


Рис. 4.3. Гипотетическое распределение результатов при повторном предъявлении теста IQ

Методы наблюдения

Прямое наблюдение поведения одновременно и наиболее ценный и наиболее сложный из методов психологического исследования. Поэтому я завершу эту главу обсуждением некоторых трудностей, связанных с наблюдением поведения.

Сначала нужно внести некоторую ясность. В определенном смысле, всякое исследование включает наблюдение поведения: как еще можно было бы оценить значение зависимой переменной? В ряде случаев регистрация поведения происходит практически, если не буквально, автоматическим образом. Реакции со стороны сердца могут фиксироваться на электрокардиограмме. Решая задачи, испытуемый может давать ответы, нажимая на кнопку, Достаточно взрослым испытуемым предлагаются опросники. Каковы бы ни были другие проблемы в таких исследованиях, проблема точности регистрации поведенческих реакций, как правило, не стоит.

При наблюдении точность регистрации определенно является проблемой. Обсервативное исследование обычно направлено на изучение довольно продолжительных эпизодов естественного поведения, которое невозможно зарегистрировать автоматически; от наблюдателя требуется вынесение суждений относительно наличия или отсутствия определенного поведения и о его значении. Поэтому центральный вопрос состоит в том, какова объективность решения наблюдателя. Разделим тему методов наблюдения на три основные проблемы: что наблюдать, как наблюдать и как определить точность результатов наблюдения. Более подробно с этими вопросами можно ознакомиться у Хартман и Вуд (Hartman & Wood, 1990), Одом и Огава (Odom & Ogawa, 1992), Сэкетт (Sackett, 1978), а также Йарроу и Уакслер (Yarrow & Waxier, 1979).

Что наблюдать

На определенном уровне ответы на вопрос «что» довольно очевидны. Понятно, что общие интересы исследователя ограничены поведением, которое можно наблюдать. Характер поведения, в свою очередь, определяет, насколько целесообразна та или иная стратегия наблюдения. Одни формы поведения легче изучать методом наблюдения, чем другие. Агрессия, к примеру, естественный претендент на обсервативную оценку: частое, наблюдаемое, «зримое» поведение. Хотя существуют и другие способы измерения (например, рейтинговые шкалы, изощренные экспериментальные тесты), они в меньшей степени отвечают целям исследования. И наоборот, частота сердечных сокращений и физиологические реакции не подходят в качестве объекта обсервативной оценки. Такие реакции трудно, а зачастую невозможно увидеть непосредственно, и применение других методов будет и более легким, и более разумным выбором.

Однако ситуация осложняется, когда исследователь выходит за рамки первоначального решения использовать методы наблюдения, пытаясь определить, какие именно аспекты поведения следует регистрировать. Предположим, мы изучаем стиль взаимодействия матери со своим младенцем. Для начала мы должны осознать, что все запротоколировать невозможно; наблюдение всегда связано с некоторым абстрагированием от конкретики каждого момента. Но до какого уровня конкретности следует абстрагироваться? Нужно ли отмечать тот факт, что мать подняла брови, широко раскрыла глаза, приподняла уголки рта, издала звук. Или мы должны работать на более глобальном, интерпретационном уровне, отмечая, что мать улыбнулась и заговорила с малышом? Или использовать еще более обобщенную систему интерпретации и указать на то, что мать поощряет только что произведенные действия младенца? Или мы должны перейти на еще более высокий уровень и отметить, что мать позитивно и доброжелательно относится к своему ребенку?

Проведенные выше разграничения обозначают как оппозицию микро- и макронаблюдения (Sackett, Ruppenthal & Gluck, 1978). Использование микросистемы наблюдения предполагает пристальное внимание к тонким деталям поведения, максимальную приближенность к фактическому поведению и практически нейтральное, четкое описание происходящего. Разумеется, некоторые детали все-таки опускаются и присутствует некоторая интерпретация; но даже в этих условиях целью является по возможности наиболее полное, конкретное и безоценочное описание. Макросистема наблюдения, напротив, предполагает некоторый отход от фактического описания, суммирование микроэлементов наблюдения, результатом которого становится формулирование определенной оценочной категории. «Улыбка» или «объятия» — примеры макрокатегорий на относительно специфическом уровне; «поощрение» и «отвлечение» — примеры более глобального, интерпретационного уровня.

Как следует из вышесказанного, противопоставление микро- и макросистем предполагает не столько дихотомию, сколько наличие континуума. В разных системах наблюдения может реализовываться разное соотношение конкретики и интерпретации. Таблицы 4.2 и 4.3 являют собой пример систем взаимодействия между матерью и младенцем, систем, которые довольно точно попадают в категории микро- и макронаблюдений. В системе, разработанной Эле, Троник и Бразелтон (Als, Tronick, & Brazelton, 1979) (табл. 4.2), анализируются наиболее элементарные формы адаптации младенца при взаимодействии с матерью. В системе, разработанной Лэмб (Lamb, 1976) (табл. 4.3), анализируются способы поддержания младенцем контакта со своими родителями в незнакомой ситуации, включая возможные различия в реагировании на мать и на отца. Главными направлениями оценки являются две глобальные макрокатегории: дистальное/аффилиативное поведение, проксимальное поведение/поведение привязанности.

То, где скорее всего будет работать исследователь на континууме от микро- к макросистемам, зависит от двух основных факторов. Один из них — цель исследования. Если она заключается в выявлении мимических признаков разнообразных эмоциональных состояний (например, Izard, 1979), естественно, необходима микросистема наблюдения. Если же цель в изучении терминант улыбки или смеха (например, Sroufe, Waters, & Matas, 1974), более разумно использовать макросистему. Конечно, в одном исследовании можно сочетать микро- и макроанализ, особенно если поведение фиксируется на видеопленке. Однако обратите внимание на однонаправленность перехода от одной системы к другой при использовании письменной регистрации. Как правило, имеется возможность, применив микросистему, затем перевести полученные результаты в макроимформацию — например, провести анализ мимики с последующим определением частоты улыбок. Используя же макросистему, невозможно перевести результаты в микроинформацию.

Вторую из главных детерминант уровня наблюдения можно обозначить как осуществимость, что бы исследователь ни хотел наблюдать, решающим условием будет возможность наблюдения. Регистрация микрохарактеристик, к примеру, может оказаться осуществимой только при тесном контакте с испытуемыми или только при наличии видеокамеры. Исследователи, работающие в других условиях (к которым, разумеется, относятся максимально естественные), бывают вынуждены ограничиться макросистемой наблюдения. Еще одним фактором, о котором вскоре мы поговорим более подробно, является надежность методов наблюдения. Результаты наблюдения не будут иметь смысла, если два независимых наблюдателя расходятся во мнении относительно наблюдаемого явления. Иногда требование микросистемы регистрировать мельчайшие подробности превосходит возможности наблюдателей, вынуждая исследователя перейти к более обобщенным категориям оценки. Иногда необходимость интерпретации при использовании макросистемы (были действия матери проявлением отвержения или просто попыткой переключить внимание ребенка?) может приводить к постоянным разночтениям, вынуждая исследователя перейти на уровень, более близкий к фактическому (например, отвернулась от ребенка). В чем бы ни заключалась проблема, общий принцип таков: соотношение конкретики и интерпретации в системе наблюдения определяется не только тем, что желательно, но и тем, что возможно.

Таблица 4.2

Пример микросистемы наблюдения для регистрации поведения младенца при взаимодействии с матерью

_________________________________I. Тип вокализаций_________________________________

1) отсутствуют; 2) отдельные звуки; 3) кряхтение; 4) гуление; 5) плач; 6) хныканье; 7) смех.

_________________________II. Направление зрительного внимания_________________________

1. Направление взгляда: 1) к лицу матери; 2) от лица матери; 3) взгляд следует за лицом матери; 4) слегка в сторону на уровне носа; 5) слегка в сторону, вниз; 6) слегка в сторону, вверх; 7) в сторону на уровне носа; 8) вниз; 9) вверх.

2. Поворот головы: 1) к матери на уровне носа; 2) к матери, вниз; 3) к матери, вверх;

4) слегка в сторону на уровне носа; 5) слегка в сторону, вниз; 6) слегка в сторону, вверх; 7) в сторону на уровне носа; 8) вниз; 9) вверх.

3. Левый/правый модификатор положения головы: 1) слева от младенца; 2) справа от младенца.

4. Моргание и специфические движения глаз: 1) моргание; 2) глаза скошены; 3) взгляд в сторону и сфокусирован на видимом предмете (например, стуле), не используемом матерью в качестве элемента взаимодействия; 4) взгляд значительно смещен в сторону от оси носа.

_________________________________III. Выражение лица________________________________

1. Щеки (лишь примеры): 1) нейтральное положение, расслаблены; 2) подтянутые, впалые; 3) выпуклые.

2. Брони (лишь примеры): 1) нейтральное положение покоя; 2) изогнуты, чуть приподняты посередине; 3) "постоянно двигаются вверх-вниз.

3. Рот (только примеры): 1) нейтральное положение покоя; 2) слегка приоткрыт и напряжен; 3) широкая улыбка; 4) широко открыт.

Окончание табл. 4.2

4. Глаза: 1) нейтральное положение; 2) широко открыты; 3) полузакрыты; 4) закрыты.

5. Язык: 1) не высунут; 2) чуть высунут, но не выходит за пределы губ; 3) язык высунут и выходит за пределы губ.

6. Специфические выражения лица: 1) плачущее; 2) гримаса; 3) надутое; 4) настороженное/серьезное; 5) жмурится; 6) зевает; 7) нейтральное; 8) морщит нос; 9) спокойное; 10) простая улыбка; И) ласковое; 12) широкая улыбка.

___________________________IV. Положение и движение тела___________________________

1) наклоняется вперед с согнутой спиной; 2) корпус повернут в сторону; 3) прогибается; 4) откидывается назад; 5) лежит на боку; 6) нейтральное; 7) положение изменяется матерью; 8) приподнимается; 9) туловище вытянуто, голова приподнята над подушкой или туловище и шея вытянуты; 10) наклоняется вперед с прямой спиной.

______________________________V. Движение рук и ног__________________________

1. Амплитуда движений: 1) отсутствует; 2) незначительная; 3) средняя; 4) значительная.

2. Руки и ноги, задействованные в движении: 1) отсутствуют; 2) одна рука или одна нога; 3) две руки или ноги; 4) три конечности; 5) обе руки и обе ноги; 6) из-за матери видны только руки — двигается одна; 7) то же, что и в 6 — обе руки.

3. Пространственная зона, в которой осуществляется движение: 1) отсутствует; 2) средняя линия; 3) между средней линией и плечами; 4) справа или слева.

4. Специфические движения рук: 1) трет глаза; 2) тянет руки ко рту; 3) машет; 4) шевелит пальцами; 5) руки сомкнуты па уровне средней линии; 6) руки и ноги вытянуты вперед.

5. Специфические движения ног: 1) брыкается; 2) вздрагивает.

Источник: «Analysis of Face-to-Face Interaction in Infant-Adult Dyads» (pp. 43-44) H. Als, E. Tronick & T. Berry Braxelton. In M. E. Lamb, S. J. Suomi, & G. R. Stephenson (Eds.), Social Interaction Analysis (pp. 33-76), Copyright 1979, Madison, WI: The University of Wisconsin Press.

Таблица 4.3 Пример макросистемы наблюдения для регистрации поведения младенца при взаимодействии с родителями

Дистальное/Аффилиативное поведение
Поведение Определение
Улыбка Выражение лица: брови не нахмурены; уголки губ приподняты
Взгляд Направление взгляда к родителю
Вокализации Все типы нетревожных вокализаций, за исключением смеха; нее случаи смеха отмечаются отдельно
Предложение Случаи, когда младенец предлагает, показывает предмет (игрушку) взрослому либо указывает на предмет
Проксимальное поведение/поведение привязанности
Поведение Определение
Близость Фиксируются каждые 15 секунд нахождения младенца и радиусе метра от взрослого

Окончание табл. 4.3

Проксимальное поведение/поведение привязанности
Поведение Определение
Приближение Движение к взрослому до расстояния 1 метр, т. е. движение к направлении «близости»
Нервозность Любая форма вокализации, выражающая дистресс и обращенная к взрослому
Прикосновение' Фиксируется каждый случай, когда младенец касается либо тела, либо одежды взрослого
Протягивание рук Ребенок поднимает и протягивает руку в направлении взрослого
Желание оказаться на Одно или более поведенческое проявление из следующих: ребенок нервничает, протягивает руки к взрослому, хнычет или льнет к ногам взрослого
руках у взрослого

Как наблюдать

Предположим, исследователь с ручкой и папкой в руке и твердым намерением провести наблюдение определенного рода повеления дошкольников приходит в детский сад. Как ему регистрировать интересующие его данные?

Один из возможных вариантов: просто записывать в повествовательной форме видимое поведение в его естественном виде. Этот метод называется нарративной записью, его также называют записью специфических моделей (термин предложен Баркер и Райт (Barker & Wright, 1951), поток поведения. Конечно, даже для максимально подробного нарративного описания все же характерна некоторая избирательность. Обычно все внимание сосредотачивается на одном ребенке, а поведение других детей учитывается лишь в момент их взаимодействия с наблюдаемым ребенком. Наблюдая ребенка, необходимо постоянно принимать решения о том, какие действия стоят того, чтобы их зафиксировать, а какие (например, моргание, сглатывание) можно проигнорировать. Кроме того, нужно принимать решения об уровне описания поведения. Например, сомкнул Джонни пальцы, сжал кулак или угрожал другому ребенку? В определенном смысле, при использовании нарративной записи наблюдатель выполняет функции видеокамеры и магнитофона. Однако он — это видеокамера-магнитофон со встроенным мощным аппаратом-редактором.

Несмотря на упомянутые выше ограничения, главным достоинством нарративной записи является ее подробность. Она дает больше информации, чем любой другой метод наблюдения. Эта полнота изложения делает нарративную запись особенно ценной для специалистов, которым требуется исчерпывающая информация о ребенке. Поэтому нарративную запись обычно используют учителя и клиницисты. Кроме того, нарративная запись может послужить отправной точкой для разработки исследовательских программ, наводя на мысль о существовании неких феноменов, которые затем будут изучаться более узконаправленными систематическими методами. Наконец, нарративная запись это не всегда и необязательно всего лишь подготовительное мероприятие перед исследованием; если регистрация производится достаточно умело и последовательно, полученные данные могут стать базой для исследования. В этих случаях нарративная запись представляет из себя «сырые» данные, которые необходимо кодировать и проанализировать; в результате из потока действий вычленяются интересующие исследователя элементы и феномены.

Если говорить о недостатках, ведение нарративной записи может потребовать значительных расходов и времени. Особенно высок уровень требований к наблюдателю, как и вероятность разных форм субъективности и систематических ошибок. У исследователя может накопиться огромный объем информации, только малая часть которой представляет некоторый интерес. Или, исследователь еще до начала наблюдения сформулировал вполне четкие цели и гипотезы, тогда нарративная запись будет не самой экономичной формой сбора данных. В обоих случаях имеет смысл использовать более узконаправленные методы наблюдения.

Второй из основных способов наблюдения — метод временных срезов (иногда называемый также методом интервальных срезов). От нарративной записи его отличают две особенности. Во-первых, при использовании метода временных срезов в центре внимания находится ограниченное количество специфических действий, а не их поток. В своем практическом применении приведенные в качестве примеров микро- и макросистема (табл. 4.2 и 4.3) также предполагают использование временных срезов. Здесь заранее оговорен точный список действий, и регистрируются только эти действия. Поскольку уже имеются четкие определения, нет необходимости составлять нарративное описание поведения; используется некий контрольный перечень или система кодирования. Второй отличительной особенностью является разделение всего периода наблюдения на строго отмеренные, обычно непродолжительные временные интервалы. Наблюдатель может 15 секунд наблюдать, отвернуться и регистрировать увиденное в течение 15 секунд, наблюдать еще 15 секунд, еще 15 секунд регистрировать и т. д. Таким образом, «срезы» в методе временных срезов происходят в двух плоскостях: анализируется только часть поведения, а само наблюдение производится только в определенные интервалы времени.

Третий способ лучше объяснить на примере. В своем, как это часто называют «классическом», исследовании Доу (Dawe, 1934) изучала ссоры дошкольников. Хотя мнения воспитателей и расходились, оказалось, что ссоры — не очень частое явление, имеющее место в среднем 3,4 раза в час. Если принять во внимание низкую частоту подобных случаев, использование нарративной записи временных срезов было бы малоэффективным. Кроме того, метод временных срезов мог бы ввести в заблуждение; наблюдатель мог бы упустить момент ссоры, если бы она произошла в период регистрации, или увидеть лишь ее часть, если бы она происходила в промежуточный момент. Поэтому Доу использовала метод выборочного анализа поведенческих событий, при котором единицей изучения служит эпизод изучаемого поведения, а не интервал времени. Как и при использовании метода временных срезов, наблюдатель прежде всего должен определиться, какое поведение его интересует. Однако, используя метод выборочного анализа поведенческих событий, наблюдатель просто дожидается, пока это поведение будет иметь место, и только затем начинает записывать. Протокольные записи Могут быть разных видов, от нарративного описания до последовательности кодов. Доу использовала сочетание заранее сформулированных категорий с дополнительными замечаниями. К оценивавшимся категориям относились «пассивное поведение», «мстительное поведение» и «ненаправленная активность». Какова бы ни была форма регистрации, сосредоточение на определенном виде поведения как элементарной единице наблюдения позволяет получить информацию (например, среднею продолжительность эпизодов изучаемого поведения, предшествующие ему события и события, следующие за ним), которая могла бы быть упущена при использовании временных срезов.

В целом, факторы, влияющие на выбор той или иной системы регистрации, те же, что и факторы, влияющие на выбор микро- или макронаблюдения: цель и осуществимость. В одних обсервативных исследованиях (например, в отчетах о клинических случаях) необходимо нарративное описание, в других — уместен более узконаправленный подход с использованием таких методов, как временные срезы и выборка событий. Каковы бы ни были цели, исследователь должен применять систему, отвечающую требованиям данных конкретных условий, не превосходящую возможности наблюдателей и лимит времени, а также, предполагающую рациональное соотношение между полезной информацией и затратами времени и усилий. Более подробно о плюсах и минусах разных систем регистрации можно узнать из ряда специальных работ (Hartman & Wood, 1990, Mann, Have, Plunkett, & Meisels, 1991, Odom & Ogawa, 1992).

Определение точности результатов наблюдения

Этот раздел открывает рассмотрение двух специфических факторов, способных отразиться на точности результатов наблюдения. Его завершает анализ проблемы надежности.

Поведение, которое регистрируется в обсервативном исследовании, может являться функцией от множества предшествующих и сопутствующих обстоятельств. Один из факторов, влияние которого на поведение нежелательно, — это само присутствие наблюдателя. Тем не менее присутствие наблюдателя и, как следствие, осознание испытуемым того, что он является объектом наблюдения, может так или иначе изменить поведение. Подобные эффекты входят в категорию реактивности — эффекта непреднамеренного влияния экспериментальных мероприятий на поведение испытуемого. Когда речь идет об обсервативном исследовании, эффект реактивности, как правило, называют проблемой влияния наблюдателя.

Вопрос о том, насколько важен эффект реактивности, уже давно является предметом научных споров. Есть основания полагать (например, Brody, Stoneman, & Wheatley, 1984; Russell, Russell, & Midwinter, 1992), что и взрослые, и дети ведут себя несколько иначе, зная, что за ними наблюдают; есть также свидетельства того,

что при определенных обстоятельствах наблюдение абсолютно не влияет на поведение, Хартманн и Вуд (Hartman & Wood, 1990) тщательно анализируют факторы, от которых зависит эффект реактивности. По их мнению, есть несколько способов снижения вероятности влияния наблюдателя. Один из них — дать испытуемым привыкнуть к присутствию наблюдателя, то есть ввести наблюдателя в обстановку до начала наблюдения и производить регистрацию только после того, как испытуемые привыкли к наблюдателю и возвратились к своему естественному поведению. Этот метод иногда называют «методом невидимки». Вариант его, который хотя и не всегда, но можно использовать, — наблюдение, производимое тем, с кем испытуемые уже хорошо знакомы,.кто является естественным персонажем в данной обстановке, например родителем или учителем. Выполнение функций наблюдателя известным лицом называется «включенным» наблюдением.

Еще одна стратегия — сокрытие факта наблюдения. Можно, к примеру, использовать скрытую камеру или одностороннее зеркало. Конечно, такая возможность нередко отсутствует — эти методы применимы только в специальных условиях. Кроме того, скрытое наблюдение связано с этическими, а также материально-техническими ограничениями. Как мы увидим в главе 8, наблюдение за людьми без их на то согласия может рассматриваться как нарушение принципов этики.

Второй недостаток обсервативных исследований — вероятность необъективности наблюдателя, которая является лишь частным случаем более общей проблемы. Многочисленные исследования, начатые Робертом Розенталем (Robert Rosen-thai, 1976), свидетельствуют о том, что ожидания исследователей, которые они привносят в свое исследование, иногда ведут к искажению результатов в направлении ожидаемых или желательных. Более подробно об этом рассказано в главе 5. В обсервативном исследовании присутствует риск того, что наблюдатель будет видеть и заносить в протокол только то, что ожидает увидеть, а не то, что происходит на самом деле.

Одним из доказательств может служить исследование Кент, О'Лири, Дайамент и Дитц (Kent, O'Leary, Diament, & Dietz, 1974). Наблюдателям были продемонстрированы видеозаписи, как было сказано испытуемым, исходной фазы и фазы экспериментального воздействия некой программы, направленной на коррекцию агрессивного поведения в школе. Половине наблюдателей было сообщено, что прогнозируется снижение уровня агрессии; другой половине — что никаких изменений не предвидится. Фактически все наблюдатели смотрели одну и ту же видеозапись, в которой никаких изменений поведения не происходило. Оценивая затем эффективность программы, 9 из 10 наблюдателей, ожидавших снижения уровня агрессии, сообщали о том, что оно действительно произошло; а 7 из 10 наблюдателей, не ожидавших изменений, не отмечали никаких изменений. Интересно, что протоколы, которые вели участники обеих групп в процессе просмотра видеозаписи, были сходными, однако окончательные оценки свидетельствовали о влиянии ожидания.

Результаты этого исследования говорят о том, что для снижения вероятности необъективности наблюдателя необходимо сделать систему оценки максимально специфичной и объективной. Чем шире простор для интерпретации, тем больше у наблюдателя возможностей исказить результаты собственной предвзятостью. Еще один способ снижения вероятности необъективности — сделать так, чтобы наблюдатель не знал о выдвинутых гипотезах или о том, к какой группе принадлежат испытуемые. Сокрытие информации, которая может привести к необъективности, является условием так называемого наблюдения «вслепую». Мотив его использования очевиден: если нет никаких ожиданий, нет и опасности эффекта ожидания. К сожалению, проведение наблюдения «вслепую» затруднительно, а в некоторых случаях — невозможно. Кроме того, даже если проведение наблюдения «вслепую» возможно, к нему прибегают далеко не всегда.

Еще одного рода проблемы так или иначе связаны с понятием надежности. Как отмечалось ранее, надежность означает согласованность результатов измерения. При использовании методов наблюдения ключевым моментом является единодушие наблюдателей: могут ли двое или более наблюдателей прийти к единым выводам относительно некоторого поведения? Такое согласие является необходимым условием точности результатов наблюдения. Однако выполнения этого требования недостаточно, поскольку существует вероятность того, что оба исследователя пришли к единому, но ложному выводу. Это вновь частный случай общего принципа: надежность — это необходимое, но недостаточное условие валидности.

Существует множество способов расчета надежности. Для определенного вида данных подходит коэффициент корреляции. Чем выше коэффициент корреляции между результатами, полученными двумя независимыми наблюдателями, тем выше надежность. Еще один, часто используемый индекс — процент совпадений. Предположим, оценка определенного вида поведения происходит 20 раз. Совпадение мнений двух наблюдателей в 19 случаях из 20 соответствует 93 %, достаточно высокой надежности. Совпадение только в 13 случаях из 20 соответствует 65 %, что может рассматриваться как неудовлетворительная надежность. О других методах расчета надежности, а также сложностях, связанных с каждым из них см.: .Mitchell, 1979 и Hartmann, 1982.

Вопрос о том, как рассчитать надежность, встает сразу, как только исследователь осознал необходимость надежности своего исследования. При обзоре журнальных статей (см. табл. 1.3) учитывалось наличие или отсутствие рассчитанного коэффициента надежности там, где это было желательно. Результаты обзора свидетельствуют о достаточно высоком, но не полном осознании необходимости учета фактора надежности: данные о надежности были представлены в 91 % случаев из тех, где эти данные были вполне уместны. Одом и Огава (Odom & Ogawa, 1992) более подробно рассматривают расчет коэффициента надежности в обсервативных исследованиях, включая анализ типов статистических показателей и критерии их использования.

Приемы повышения надежности легко описать, но не всегда легко использовать. До начала процедуры сбора данных наблюдатели должны пройти тщательную подготовку. Система оценок должна быть максимально четкой и конкретной. Для подготовки наблюдателей и уточнений системы оценок может использоваться пилотажное исследование, в ходе которого категории редко встречающегося и трудно оцениваемого поведения либо исключаются, либо трансформируются в более удобные категории. Наконец, если есть возможность, для того чтобы иметь непрерывную и воспроизводимую запись, лучше снимать поведение видеокамерой.

Как следует из вышесказанного, при сборе данных нужно как можно раньше позаботиться о надежности. Желательно также контролировать ее на всем протяжении исследования. О целесообразности этого говорят исследования Рэйд (Reid, 1970; Taplin & Reid, 1973). В исследовании Тэплин и Рэйд наблюдатели прошли предварительную подготовку, в ходе которой достигли приемлемого уровня надежности. Затем одну группу наблюдателей проинформировали о том, что надежность оцениваться больше не будет; а участникам второй группы сообщили, что периодически, без предупреждения будет осуществляться проверка их надежности. В действительности записи всех наблюдателей продолжали сравни-вать с исходным уровнем. Результат был очевиден: наблюдатели, ожидавшие, что их оценки будут подвергаться проверкам, сохраняли более высокий уровень надежности. Данная тенденция к снижению надежности изначально надежных наблюдателей при отсутствии контроля называется дрейфом наблюдателя. Дрейф наблюдателя относится к категории искажающих валидность факторов, которую Кэмпбелл и Стэнли (Campbell & Stanley, 1966) называют инструментацией: непреднамеренным изменением измерительного инструмента в ходе исследования.

До этого момента о надежности говорилось так, будто есть некий единый индекс надежности, которому исследование либо соответствует, либо нет. В действительности, в типичном исследовании, как правило, существует множество видов надежности — для определенных форм поведения, определенных аспектов поведения, определенных периодов времени, определенных подгрупп испытуемых и т. д. Суть состоит в том, что надежность должна быть продемонстрирована на том уровне, на котором производится анализ данных. Если, к примеру, исследователь хочет оценить посттестовые различия, обусловленные неким воздействием, необходимо продемонстрировать надежность посттестовых данных; надежности, достигнутой на фазе претеста, будет недостаточно. Аналогично, если изучается частота агрессивных действий, надежности общих оценок уровня агрессии будет недостаточно, исследователь должен показать, что наблюдатели сходятся во мнении и относительно частоты случаев проявления агрессии.

Ярроу и Уакслер (Yarrow & Waxier, 1979) иллюстрируют это положение интересным и несколько менее очевидным примером. Эти авторы описывают ряд обсервативных исследований, в которых коэффициенты надежности недсчитывались отдельно для мальчиков и для девочек. В некоторых случаях оценка поведения представителей одного пола была более надежной, чем оценка поведения представителей противоположного пола. По крайней мере в этих исследованиях оценки агрессии мальчиков были надежнее оценок агрессии девочек. Кроме того, существенная связь индивидуальных различий в уровне агрессии с другими показателями наблюдалась только у мальчиков. Как отмечают Ярроу и Уакслер, этот результат может отражать действительно имеющие место различия между полами или всего лишь недостаточную надежность оценок агрессивного поведения девочек. В этом случае, как и в предыдущем, надежность необходима на уровне, на котором используются данные.

Ярроу и Уакслер (Yarrow & Waxier, 1979) также обсуждают плюсы и минусы возложения на наблюдателя функций измерительного инструмента. Их рассуждение может быть кратким выводом к этой главе:

«Даже будучи чрезвычайно опытным, наблюдатель по многим критериям — неточный научный инструмент: нестандартный, неоткалиброванный, зачастую нестабильный и ненадежный. Эти недостатки компенсируются такими присущими лишь человеку качествами, как чувствительность, гибкость и аккуратность. Задача состоит в том, чтобы решить, как провести строгое наблюдение, в полной мере используя свойственную человеку проницательность» (р. 37).

Резюме

Эта глава начинается с рассмотрения некоторых базовых принципов измерения. Переменные, с которыми мы работаем, определяются — операционально — способами их измерения. Измерение всегда заключается в переводе некоего глобального конструкта (например, агрессии) в более конкретную, объективную, поддающуюся количественной оценке форму. Этот перевод подразумевает выбор из множества возможных ограниченного числа способов измерения. Необходимо выбирать аспект поведения, который будет измеряться (например, частота, интенсивность), характер объекта измерения (явный или неявный), определить, являются результаты измерения признаками или специфическими моделями изучаемого конструкта, и решить, следует сосредоточивать внимание на временном состоянии или на устойчивом свойстве.

При оценке качества измерения имеет значение следующее. Измерение должно привести к результатам, находящимся на определенном уровне и в определенных рамках, при отсутствии эффектов как нижнего, так и верхнего пределов. Если в исследование включаются разнородные группы (например, дети разных возрастов), необходимо решить вопрос эквивалентности измерения. Во избежание монооперационального искажения следует применять разноплановые методы. Наконец, исследователь должен позаботиться о надежности (согласованности) и валидности (точности) измерительных операций.

В следующем разделе главы, посвященном стандартизованным тестам, вопросы надежности и валидности рассматриваются более подробно. В отношении теста валидность означает, что тест измеряет именно то, что призван измерять. Анализируются три формы валидности теста: содержательная валидность, критериальная валидность и конструктная валидность. Наиболее сложной из этих форм является конструктная валидность, для установления которой могут потребоваться экспериментальные и корреляционные данные, а также обеспечение конвергентной и дивергентной валидности корреляций между показателями.

Надежность определяется как согласованность результатов измерения. Рассматриваются следующие формы надежности: ретестовая надежность и надежность внутренней согласованности. Рассматривается также угроза для валидности, возникающая при отсутствии надежности, — регрессия к среднему. Регрессия — это тенденция, проявляющаяся в изменении при повторном тестировании изначально крайних показателей в направлении среднего. Вероятность регрессии особенно велика в исследованиях с использованием экспериментального вмешательства и в определенного рода планах уравненных групп.

За разделом, посвященным тестам, следует рассмотрение другой важнейшей формы измерения — методов наблюдения. Анализируются три вопроса. Первый касается уровня специфичности, на котором оценивается поведение. При использовании микросистемы наблюдения учитываются мельчайшие детали поведения; макросистема наблюдения содержит более глобальные, интерпретационные категории. Выбор исследователем той или иной системы, находящейся на континууме от микро- к макромоделям, определяется целями исследования. Еще одной детер-минантой является осуществимость-определенная система наблюдения применима только при возможности обеспечения точности результатов наблюдения. Для выбора метода регистрации также имеют значение цели и осуществимость. Наиболее подробное описание поведения дает нарративная запись. К более узконаправленным методам наблюдения относят временные срезы и выборочный анализ поведенческих событий. В обоих случаях категории, по которым ведется оценка, определяются заранее, наблюдение происходит в рамках либо временных блоков (временные срезы), либо определенного вида поведения (выборка событий).

Последний из рассмотренных в этой главе вопросов касается проблем, которые могут возникнуть в обсервативном исследовании. Влияние наблюдателя — это особая форма реактивности; она связана с тем, что люди нередко изменяют свое поведение, если знают, что являются объектом наблюдения. Обсуждается ряд методов, направленных на снижение вероятности этого искажения. Еще один из возможных источников искажения — ожидания наблюдателя, который в некоторых случаях фиксирует то, что ожидает увидеть. Наиболее эффективный способ борьбы с этим искажением — минимизация ожиданий. Наконец, надежность наблюдателей определяется совпадением их мнения при категоризации определенного поведения. Надежность следует контролировать на протяжении всего исследования, с тем чтобы предотвратить феномен дрейфа наблюдателя. Кроме того, она должна быть проиллюстрирована данными, соответствующими анализируемым данным.

Упражнения

В этой главе подчеркивалось, что любой теоретический конструкт может иметь множество операциональных определении. Рассмотрите следующие конструкты: альтруизм, креативность, мудрость. Для каждого дайте концептуальное определение и по крайней мере два операциональных определения. Сделайте то же самое для двух других конструктов, которые вас особенно интересуют.

Выберите некий конструкт из области психологии развития, который вас особенно интересует (например, интеллект, креативность, темперамент, Я-концепцию). Найдите по меньшей мере два стандартизованных теста, направленных на оценку индивидуальных различий по данным конструктам. Дайте критическую оценку всем методикам. Какую из них вы бы выбрали для собственного исследования и почему?

Выполнение следующего задания предполагает, что у вас есть возможность привлечь к исследованию па крайней мере одного родителя с ребенком в возрасте около года. Достаньте статью Лэм (Lamb, 1976), о которой говорилось в тексте, изучите обсервативную систему оценки и попытайтесь применить ее на практике. Имейте в виду, что вам придется адаптировать лабораторную процедуру к домашним условиям; однако, по крайней мере, некоторые элементы системы Лэм вполне воспроизводимы в домашней обстановке. Упражнение будет особенно полезным, если вы попытаетесь провести исследование с разными парами родитель-ребенок. Кроме того, хорошо было бы объединиться с кем-то из сокурсников и рассчитать коэффициент надежности ваших наблюдений.

Загрузка...