Главная страница ИД «Первого сентября»Главная страница газеты «Первое сентября»Содержание №28/2003

Первая тетрадь. Политика образования

ШПАРГАЛКА ДЛЯ ЕГЭ 
 

Алексей СЕРЕБРЯКОВ,
Олег КОНОНОВ

Самоучитель  тестирования

Мы продолжаем тему подготовки к ЕГЭ, начатую нашей газетой 22 марта этого года. В этом путешествии нас будут сопровождать директор Центра тестирования «Гуманитарные технологии» психолог Алексей СЕРЕБРЯКОВ и инженер-математик, выпускник Академии им. Жуковского, руководитель отдела программного обеспечения центра Олег КОНОНОВ. Алексей Серебряков расскажет читателю об азах тестологии, а Олег Кононов переведет его рассказ на язык математики.

  • Что такое тест?

  • Чем занимается наука тестология?

  • Что представляют собой сырой и тестовый баллы?

  • Как и для чего их обрабатывают?

  • Какой продукт получается в итоге?

  • Как вычитать нужную информацию в графике распределения тестовых баллов?

НАЧНЕМ НАШУ КРАТКУЮ ЭКСКУРСИЮ НА КУХНЮ ТЕСТОЛОГИИ

Тест и время

Образовательный тест – это совокупность вопросов и заданий, выстроенных в определенном порядке.
Вопросы и задания могут предъявляться в разной форме.
В традиционном американском варианте к одному вопросу чаще всего предлагается несколько готовых ответов. Возле нужного испытуемый должен поставить крестик.
Британский вариант теста предлагает больше возможностей: для одних заданий испытуемый выбирает ответ по американской модели, для других – пишет ответ сам. Кроме того, британский вариант может предполагать (но отнюдь не обязательно) сочинение небольшого эссе.
Российский вариант ЕГЭ ближе к британскому. Кроме традиционных тестовых частей А и В, он включает оригинальный российский подраздел, так называемую часть С, когда испытуемый должен проявить свои творческие способности: написать маленькое сочинение или развернутое эссе.
В каждом тесте, будь он британский, американский или российский, заложен еще один фактор – время, за которое испытуемый отвечает на все вопросы.
В России во время единого государственного экзамена время отсчитывается экзаменационной комиссией в аудитории. После того как оно истекло, члены экзаменационной комиссии собирают тестовые бланки. Вопросы и задания, на которые испытуемые не успели ответить, считаются нерешенными.
При компьютерном тестировании время прохождения теста заложено в программе. Машина в определенном порядке предъявляет на экран тестовые вопросы и задания. Если учащийся быстро справился с несколькими легкими заданиями, компьютер может перевести его к заданиям средней сложности.
Сегодня в России компьютерное тестирование можно проходить как в режиме off-лайн, так и on-лайн.
На ЕГЭ компьютерные технологии тестирования пока не применяются.

Ввопросы и их расположение

Какие вопросы и задания включить в тест и в каком порядке эти задания выстроить, чтобы они с высокой точностью смогли измерить и оценить человеческие качества и навыки, – это одна из главных задач тестологии.
На протяжении ста лет психологи и тестологи всего мира решают ее с переменным успехом.
Одним из вариантов грамотно составленного теста может быть следующий. В нем три части. В первую группу входят элементарные вопросы и задания (например, вопрос: «Столица Франции?», ответ: «Париж»). Отвечать на такие вопросы легко. Они дают испытуемому уверенность в своих силах и надежду, что он успешно справится с тестом.
Во вторую группу создатели и разработчики тестов включают задания, над которыми надо задуматься. Однако в профессионально составленном тесте они предъявлены так, чтобы с ними могла справиться большая часть испытуемых.
Наконец, в грамотно составленном тесте должна присутствовать третья группа – задачи и вопросы повышенной сложности, на которые сумеют ответить немногие.
Испытуемые не должны увлекаться ни слишком сложными, ни слишком легкими заданиями. Порядок расположения вопросов в тесте (в классических тестах – от простого к сложному) является одним из основных условий. Но напрямую к начислению баллов он не имеет отношения.

Ход испытания

Тестирование началось. Его результаты (конечно, в огрубленной форме) известны специалистам заранее. Никаких новшеств быть не должно. Небольшая группа испытуемых справится только с самыми легкими вопросами теста. Подавляющее большинство должны ответить как на легкие, так и на достаточно сложные вопросы. Наконец, сливки из умников и умниц доберутся до самых заковыристых задачек. Этих ребят будет мало.
Поскольку далее нам с вами придется читать графики, отобразим эту ситуацию графически. Обозначим на горизонтальной оси количество решенных заданий, а на вертикальной – количество участников тестирования (рис. 1).

Рис. 1

Рис. 1

Кривая имеет форму колокола. На заштрихованном участке слева отмечен сегмент, в который вошли участники тестирования, набравшие от нуля до, например, 25 баллов. Можно смело сказать, что это неуспевающие. Их меньшинство. На заштрихованном участке справа – сегмент, в который вошли самые продвинутые участники тестирования. Они набрали от 70 до 95 баллов (100 баллов не набрал никто). Их тоже немного. В центре – основной массив набранных баллов. Здесь расположены результаты тех, кто выполнил вместе с легкими заданиями все задания средней сложности и даже небольшую часть сложных заданий. Этих участников тестирования – большинство. Подобное распределение баллов указывает на то, что тестовые задания были составлены правильно, испытания тестов прошли на репрезентативной группе, в ходе экзамена не было нарушений.

«Это нормальная кривая, полученная при хорошем качестве тестов, – объясняет Олег Кононов. – Она называется колоколом нормального распределения. Нарисуем на ней распределение баллов от нуля до 100. Мы видим, что небольшая доля участников тестирования решили только самые легкие задания. А на 100 вопросов (крайняя точка справа) не ответил практически никто. Если график распределения сырых баллов смещен в правую сторону (рис. 3), это наглядно свидетельствует о том, что слишком много участников тестирования справились со всеми заданиями. Такого при хорошо составленных тестах быть не должно. Авторы тестовых заданий должны сделать вывод: задания были слишком легкими, и их надо менять».

Тест и нетест

Рис. 2

Рис. 2

Левая асимметрия. Очертания кривой напоминают струю фонтана. Возникновение «всплеска» в левой части графика означает, что тест был несбалансирован. Он заключал в себе блок облегченных вопросов, на который сумели правильно ответить практически все участники тестирования. Вместе с тем в тесте был ряд усложненных заданий, с которыми не смог справиться почти никто. Мы видим это по тому, как в правой части графика кривая почти ложится на горизонтальную ось. Автор классической книги по тестологии «Психологическое тестирование» нью-йоркский профессор Анна Анастази так описывает это явление: «Испытуемые, результаты которых обычно распределены в довольно широком диапазоне, получат в этом тесте результаты близкие или равные 0, отсюда и нахождение пика кривой вблизи нижнего (левого) края шкалы».

Рис. 3

Рис. 3

Правая асимметрия. Пик кривой сдвинут к правой стороне шкалы. «Здесь результаты сосредоточены преимущественно на верхнем (правом) конце шкалы, – комментирует в своей монографии «Психологическое тестирование» профессор Анна Анастази, – что свидетельствует о чересчур низком потолке трудности в данном тесте. Такого рода скошенное распределение наблюдается, например, когда тест, предназначенный для общей популяции, дается выборке студентов или аспирантов, многие из которых показывают почти 100-процентный результат. С помощью такого теста невозможно измерять индивидуальные различия между испытуемыми, чьи показатели принадлежат к верхнему краю распределения. Если бы в тест были включены более трудные задания, многие из испытуемых, несомненно, набрали бы большее количество очков, чем максимум для данной серии заданий».

Рис. 4

Рис. 4

Тестологи признают, что их продукция далеко не всегда совершенна.
В качестве иллюстрации представим себе гипотетический тест по географии.
Он предлагает школьникам ответить на следующие вопросы: «1. Столица Российской Федерации? 2. Столица Республики Того? 3. Столица Гвинеи-Бесау?».
«Разумеется, такая совокупность вопросов даже не может называться тестом, – разъясняет Алексей Серебряков. – На первый вопрос – «Столица Российской Федерации?» – ответят 100 процентов детей, на следующие два вопроса – два-три ребенка, которые учатся в географическом классе. Такой тест ничего не измеряет. Применять на практике его нельзя».
Впрочем, некачественный тест может попасть на экзамен, если его предварительно не испытывали в репрезентативной группе учащихся (см. ниже).
Полезно узнать о некоторых ошибках в составлении тестовых заданий.
Левая асимметрия (рис. 2). Так на графике может выглядеть распределение первичных баллов описанного выше теста по географии. На один вопрос теста правильно ответили подавляющее большинство испытуемых, на другие вопросы правильно не ответил практически никто. Разумеется, на экзамен такой тест попасть не должен.

Правая асимметрия (рис. 3). Кривая на графике некоторое время находится в норме, однако вдруг резко уходит вверх. Этот гипотетический график сопоставим с результатами, полученными в 2002 году на ЕГЭ по русскому языку. (рис. 4). Вид кривой на графике столь далек от нормы, что эксперты засомневались. Их гипотеза: либо задания части С оказались чересчур легкими (хотя тестологи обещали сделать их максимально сложными). Либо… школьникам на ЕГЭ активно подсказывали взрослые.
Либо эксперты, воспользовавшись субъективностью процедуры оценки части С, занижали критерии, чтобы улучшить общий результат экзамена. Это могло делаться для того, чтобы в общей картине ЕГЭ регион выглядел одним из первых.
Как бы то ни было, для того, чтобы уверенно сделать выводы, одного лишь распределения сырых баллов недостаточно.

Предварительные испытания

Из сказанного следует вывод: ни один даже самый лучший образовательный тест не должен сразу попадать в экзаменационную аудиторию. По принятым во всем мире правилам, для начала психологи, социологи и статистики определяют репрезентативную выборку, на которой будут опробованы эти тесты. В эту группу отбирают людей, чей возраст, пол, социальное положение и т.п. в миниатюре представляют собой нужный социальный и возрастной круг. В случае с образовательными тестами в репрезентативную выборку входят учащиеся определенного возраста, разных способностей, разного социального положения, из разных школ.

«Составляя тесты, ученые изначально предполагают в первом приближении, как определенные люди будут на них отвечать, – объясняет Олег Кононов. – Затем данные уточняются. Для этого собираются протоколы репрезентативной группы испытуемых. Только при репрезентативной выборке мы можем оценить удачность компоновки теста в целом. Если «прогнать» через новые тесты группу всего в 3–5 человек, мы наверняка столкнемся со случайными комбинациями».
Какова эта «случайная комбинация»?
«Допустим, мы хотим протестировать всех школьников России, – уточняет Алексей Серебряков. – Вспомните тест про Москву и столицу Республики Того (разумеется, такого теста нет и, надеюсь, никогда не будет). Гипотетически предположим, что именно этот тест ученые хотят предложить школьникам. Как они будут действовать? Опробуют его в школьной аудитории из 5–10 человек. При этом может случиться невероятное: найдется несколько школьников, которые знают столицу Республики Того! Может быть, эти ребятишки просто увлекаются географией или жили с родителями в Африке. Но ученые, которые об этом не подумали, могут сделать неправильные выводы. “Надо задать гораздо более сложные вопросы, – подумают они, – а то тест слишком легкий!” И лишь на экзамене – не дай Бог! – выясняется: да ведь школьники России знают от силы разве что столицу России! То есть тест не работает!»
Чтобы избежать подобных конфузов, на Западе тестовые задания многократно проверяются в школах и в национальных центрах тестирования. В странах, где применяется образовательное тестирование, в каждой школе проходят внутренние «дежурные» тестирования, результаты которых принимаются к сведению учеником и его родителями (а заодно и экспертами). В России эта практика еще не нашла массового применения. В итоге тесты ЕГЭ, опробованные только в элитных школах РАН, уходят в регионы, где уровень школьной подготовки вовсе не тот, что в Москве.
«Академики РАН, составляющие для нас тесты, ориентируются на уровень знаний в столичных школах, а он значительно выше, чем в целом по России», – заявил куратор эксперимента по ЕГЭ Виктор Болотов.
Вдобавок тесты ЕГЭ уходят в российские регионы с грубыми ошибками. Маргарита Леонтьева, главный редактор издательства «Просвещение», признает, что редакторы издательства, готовя к изданию тесты ЕГЭ 2002 года, вынуждены были заново их перерешать, чтобы выловить из тестов, за которые школьники на ЕГЭ уже получили свои баллы, множество ошибок и опечаток.

КУХНЯ ТЕСТИРОВАНИЯ: ПРИГОТОВЛЕНИЯ НАЧИНАЮТСЯ

Ключ и трафарет

Тестирование завершилось. Испытуемые сдали работы. Полученные данные (по сути, еще полуфабрикаты) приносятся на тестологическую кухню, где их только предстоит приготовить.
Сосредоточимся на процессе подготовки результатов.
«Когда тестирование завершено, в нашем распоряжении оказывается некий массив ответов, – объясняет Олег Кононов. – Он содержит полную информацию: какой ответ тот или иной испытуемый дал на первый вопрос, на второй, на энный (будем считать, что на тестировании было задано N вопросов). Для каждой методики в классической теории тестирования существует некая матрица пересчета, которая называется ключом. Размер ключа – N на M. Эта матрица, или ключ, позволяет перевести вектор ответов в вектор сырых баллов. Последний имеет размер M. Обычно N существенно больше, чем M».
Что такое матрица?
Попадая на тестологическую кухню, ответы на вопросы теста еще представляют собой бесформенную массу. Одно задание ученик решил правильно, другое предпочел не решать, на третье дал неверный ответ и т.п. Чтобы вычленить из общей массы все правильные ответы, на этот бессвязный набор правильных или неправильных ответов тестологи накладывают матрицу, или ключ.
На заставке к любимому россиянами фильму Игоря Масленникова о Шерлоке Холмсе по экрану в беспорядке разбросаны буквы. Рука в перчатке накладывает на них трафарет. В окошечках трафарета появляются буквы, которые складываются в слова.
Похожая операция осуществляется и при первичной обработке тестовых заданий.
«На ответы теста накладывается своеобразная трафаретка, которая высвечивает заранее определенные точки, – объясняет Алексей Серебряков. – В некоторых случаях психологи именно так, вручную, и обрабатывают вопросы тестов. Если окно трафарета совпадает со значением, значит, за ответ можно ставить плюс. На образовательном тестировании операцию обработки правильных ответов за доли секунды совершает компьютер».
После наложения матрицы количество правильных ответов можно подсчитать и сопоставить друг с другом. А это значит, что правильные ответы разных людей на вопросы в дальнейшем можно будет сделать соизмеримыми.
Как мы в дальнейшем увидим, чтобы сделать их по-настоящему соизмеримыми и выстроить в порядке возрастания и убывания, тестологам потребуется множество сложных операций.

Что такое сырой балл?

После наложения трафарета, или матрицы, тестологи получают первый результат – сырые, или первичные, баллы. Они говорят о том, кто и сколько заданий решил правильно. Это ценная информация обладает существенным недостатком. Сырые баллы, набранные одним испытуемым, все еще трудно сопоставить с баллами, набранными по той же шкале другим испытуемым.
«Почему балл называется сырым? – объясняет Алексей Серебряков. – По аналогии – есть сырая курица, есть жареная курица. К тестологам поступают сырые баллы, которые они затем должны обработать, образно говоря, приготовить, пожарить».
Сырые баллы поступают в обработку.
«Сырые баллы могут варьироваться в различных диапазонах по разным шкалам, – объясняет Олег Кононов. – Первая шкала может иметь сырые баллы, лежащие в диапазоне от ноля до ста пятидесяти, вторая – от тридцати до сорока и так далее. Распределения и диапазоны зависят от того, что у нас находится в составе вопросов и в составе ключа. Но пока еще сырые баллы не смогут много нам рассказать. Например, тридцать семь по второй шкале. А много это или мало? Если вопросы сложные – это очень много. Если легкие – то это, может быть, и мало. Результат зависит вот от чего: если бы все испытуемые отвечали правильно на 50 вопросов теста, то 37 правильных ответов – это двойка. А если все ответили только на 25 вопросов, то 37 – это пять с плюсом».
Со школьной точки зрения (в соответствии с которой каждый правильный ответ приносит один или несколько баллов) главную роль играет количество верно решенных заданий. С этой точки зрения, если испытуемый правильно ответил на 37 из 50 вопросов теста, он должен получить твердую четверку.
Однако мы уже знаем, что количественные показатели в данном случае не применяются. Некорректно сравнивать показатели ученика, решившего 10 легких заданий, с показателями его соседа, ответившего за то же время на три сложных вопроса.
В процессе дальнейшей обработки сырых баллов тестологи запускают механизм, позволяющий увидеть, сколько человек ответили правильно на определенное количество определенных вопросов. Баллы этих групп при умножении на определенный коэффициент трудности заданий будут сопоставимы друг с другом. Именно эти результаты можно затем выстроить по рейтингу.
Для этого график распределения сырых баллов делится на сегменты, в каждом из которых находится группа испытуемых, правильно решивших соизмеримое количество задач.
«Далее мы должны оценить, какой балл соответствует какой единице в стандартизированной шкале, – продолжает Олег Кононов. – Чему может соответствовать значение 110 баллов? На горизонтальной шкале откладываем значения набранных баллов. На вертикальной – численность испытуемых. Теперь мы ясно видим: в диапазон от 110 до 111 попало, например, 53 испытуемых. Они набрали от 110 до 111 баллов. А в диапазон от 103 до 104 баллов попали 80 человек, значение выше. Таким образом, мы получаем плотность распределения сырых баллов».

Сырые баллы болтливы

Прежде чем увидеть, как сырые баллы будут превращены в стандартизированные, обратим внимание на важную деталь. В последнее время графики распределения сырых баллов публикуются наряду с графиками распределения стандартизированных, или тестовых, баллов.
Почему графики сырых баллов вызывают у экспертов такой интерес? Сырые, или первичные, баллы дают нам представление, какого качества тесты были предложены на экзамене. Могут они рассказать и о том, в какой обстановке проходило тестирование.
(Читатель может пересмотреть главку «ТЕСТ И НЕТЕСТ», где мы рассказали о графиках распределения сырых баллов.)
Изучать еще не «пожаренные» баллы интересно. Одни профессионалы, глядя на них, устанавливают, нужно ли подкорректировать матрицу ключа, другие задумываются, каковы были параметры тестов, справилась ли с ними данная группа испытуемых и не следовало бы включить в тесты совсем другие вопросы.
Графики распределения сырых, или первичных, баллов по тем или иным дисциплинам ЕГЭ в 2002 году были опубликованы в прессе и вызвали недовольство Министерства образования РФ. Почему?
Вот один из примеров. Функция распределения кривой, особенно по результатам экзаменов, включающих часть С, визуально казалась чересчур уж неуместно сдвинутой вправо (рис. 4).
Эксперты задумались: либо задания на ЕГЭ оказались слишком легкими, либо взрослые помогали школьникам их решать?

Обработка баллов продолжается

«Сырой балл – это действительно полуфабрикат, который не «пожарен». Есть его невкусно, да и не нужно. Надо немного постараться и перевести сырые баллы в стандартизированные данные», – говорит Алексей Серебряков.
Продолжаем наблюдать за процессом готовки. Теперь сырые баллы выстроены по плотности распределения. Тестологи выяснили, как все испытуемые справились с теми или иными заданиями: много ли испытуемых решили хотя бы одно или два задания высшей сложности, сколько человек справились с заданиями разных групп средней сложности и т.п.
Эти данные необходимы для следующей стадии обработки первичных баллов: перевода их в тестовые, или стандартизированные, баллы.
Мы убедились, что при оценивании тестовых заданий трудно применить обычную школьную практику (когда рейтинг строится в сравнении с некоей абсолютной величиной, например с оценкой в пять баллов).
При тестировании такие абсолютные шкалы не применяются.
Тестовые баллы, выставленные испытуемому, зависят не от того, как конкретный Петя Иванов справился с легкими или сложными заданиями. Они в значительной степени зависят от того, сколько участников тестирования справились с основным массивом заданий. Иначе говоря, как Петя Иванов выглядит на общем фоне.
Маленькое отступление. В разные столетия человеческой истории изменялся и средний рост человечества. Историки знают, что рост национальной французской героини Жанны д’Арк составлял 1 м 58 см (это известно по размерам ее личных военных доспехов). В ХIV веке Жанна д’Арк считалась высокой девушкой. Следовательно, по шкале распределения женского роста в ХIV веке Жанну д’Арк можно было бы поставить в крайний правый угол шкалы. Голливудская дива ХХ века Мэрилин Монро (рост 1 м 63 см), перенесенная в век Жанны д’Арк, была бы признана великаншей. В конце ХХ века, когда средний женский рост составляет приблизительно 1 м 65 см, Мэрилин Монро находилась бы в центре шкалы (на два сантиметра ниже среднего), а Жанна д’Арк была бы отодвинута уже в левый угол, вместе с женщинами маленького роста. Таким образом, визуально подтверждается старая истина, что все познается в сравнении.
Это же относится и к распределению тестовых баллов. Оно зависит от выборки. Этим социологическим термином мы обозначаем состав и общий уровень подготовки участников тестирования.
Тестовый балл, полученный участником ЕГЭ 2002 года, отнюдь не обязательно будет соизмерим с аналогичным тестовым баллом, полученным по тому же предмету участником ЕГЭ будущих лет. Давно зафиксирован тот факт, что в один год (или несколько лет) уровень подготовки выпускников по определенному предмету выше, в другое время – ниже.

Стрельба по мишени

«Для того чтобы перейти к стандартизированному баллу, нам необходимо оценить параметры распределения сырых баллов, – говорит Олег Кононов. – Первое, на что хотелось бы обратить внимание, – это математическое ожидание. Матожидание в данном случае – средний набранный участниками тестирования сырой балл».
Иначе говоря, тестологи теперь пускаются на поиски середины невидимого центра, вокруг которого разбросаны сырые баллы.
Можно представить это так. Несколько человек стреляют в мишень. Хотя все целятся в центр мишени, многие попадают в стену. Все точные выстрелы (попавшие в мишень) учитываются и оцениваются. Однако требуется учесть и те выстрелы, которые попали в стену. Существует определенный разброс пуль: одни попадают в стену в одном месте, другие – в другом. Чтобы вычислить место, куда (в известной степени случайно) попало больше всего путь, на стене измеряется центр массы попадания. Следы крайних выстрелов соединяются, в этом многоугольнике эмпирическим способом находится середина. Это медиана.
«Конечно, надо тщательнее наводить и стрелять не по стене, а по мишени. Но ведь не все из нас хорошие стрелки, – шутит Алексей Серебряков. – Мы знаем, что в природе все подчинено закону нормального распределения – в популяциях, в космосе, в тестировании. Везде можно вычислить медиану. Глядя на распределение сырых баллов, вы не всегда визуально обнаружите центр, медиану. Поэтому наша цель – взять аморфную массу сырых баллов и привести ее к нормальному распределению. Стандартизация баллов сводит все к центру и нормирует результаты. Даже визуально графики распределения сырых и стандартизированных баллов отличаются друг от друга. Распределение сырых баллов может быть зубчатым, напоминающим горные вершины, часто сдвинутым в сторону. При стандартизации мы приводим его к более плавной и правильной кривой. Если мы решим отлить такую фигуру из любого материала, то центр масс будет ровно посередине».

Графика ЕГЭ

Рис. 5

Рис. 5

Рис. 6

Рис. 6

«Есть специальные формулы,– объясняет Олег Кононов, – которые относятся к теории нормального распределения. Мы можем пересчитать показатели сырых баллов для каждого человека в показатели в стенах. Термин стен (от англоязычного термина «стандартная десятка») в данном случае означает использование стандартизованной шкалы с варьированием показателя от 1 до 10. До перевода в стены показатели по разным шкалам были несоизмеримы, а теперь мы можем построить профиль из соизмеримых показателей. Они выглядят в виде столбиков определенной высоты. Эти профили мы можем сравнивать: показатели по этой шкале больше, чем по этой, но меньше, чем по той. Предположим, здесь по первой шкале – творческий порыв, получена тройка, семерка, восьмерка. Это уже говорит о конкретном результате. Получается реальный профиль, позволяющий проводить оценку тех или иных качеств знаний в соответствии с классической теорией тестирования».
Обратим внимание на то, что график распределения сырых и тестовых баллов, полученных одной и той же группой людей на одном и том же тестировании, выглядит по-разному.
Полученный на ЕГЭ 2002 года график распределения сырых баллов на тестировании по математике выглядел удручающе: в правой части кривая почти ложилась на горизонтальную ось координат (рис. 5).
Это означает, что большинство испытуемых не справились с заданиями повышенного уровня, позволяющими поступать в престижные вузы. Вероятнее всего, организаторы экзамена предложили им тесты повышенной сложности.
Переработанные в стандартизированные баллы, те же самые данные выглядели уже более оптимистично (рис. 6). Когда тестологи определили необходимые показатели и выстроили корректные данные (убрав с оси координат те высокие баллы, которых не набрал практически никто, а раз так, то нечего и говорить о них), выяснилось, что значительная часть участников тестирования по математике все-таки прилично справились с заданиями среднего уровня.
Впрочем, одно не исключает другого. Действительно, на ЕГЭ 2002 года по математике школьники в целом справились с заданиями средней трудности, но почти не смогли решить более сложных заданий. Фокус в том, что решение именно этих заданий (вкупе с более легкими) позволяло набрать балл, необходимый для поступления на математику и информатику в престижные вузы.

Из пушки – в слона или из лазерной винтовки  – в канарейку

Среди процедур «обжарки», или вторичной обработки, тестовых баллов есть еще одна, для большинства наших читателей принципиально важная. Это выстраивание участников тестирования по рейтингу. По сути, это выставление оценки.
Тестовые баллы (об этом мы говорили выше) не абсолютны: их всегда надо рассматривать в контексте баллов, набранных каждым участником группы.
Иначе эта процедура называется шкалированием (на Западе ее обозначают общепринятым термином «баллирование»).
Каждый участник тестирования должен получить свои тестовые баллы, которые указывают, как он справился с заданиями. Эта оценка не столь наглядна, как школьные баллы «два» и «пять». Эта шкала пересчета (например, испытуемый получает сведения, что он – 85-й или
637-й) достаточно условна. Ее можно сжимать и растягивать.
Поэтому бесполезно гадать, хорошо ли это – быть 85-м или 637-м. Ясность можно внести, если все участники тестирования сообщат друг другу набранные ими баллы. Тогда им хотя бы станет ясно, кто следует за кем.
Перевод в определенную шкалу можно сравнить с фокусом наведения.
Если нам нужно прицелиться в слона, хватит собственного глаза. Если мы хотим с того же расстояния попасть в канарейку, нам понадобится винтовка с лазерным прицелом. Шкала, по которой оцениваются способности тестируемого, может состоять из 10, 100, 1000 баллов. Тысячебалльная шкала – это большее увеличение и большая точность прицела. Пятибалльная школьная шкала – это, по мнению экспертов, даже не двустволка, а пушка, из которой бьют по воробьям.
Чем больше дифференцирована шкала, тем выше точность ее прицела. Разные шкалы в тестировании используют в зависимости от задачи.
«В классическом тестировании самой первой и самой знаменитой была IQ-шкала (Ай-Кью – шкала, измеряющая интеллектуальный коэффициент), – говорит Алексей Серебряков. – Ее средний результат – 100 баллов. А далее в обе стороны показатели большего или меньшего интеллекта. В результате едва ли не весь мир в середине двадцатого века говорил: у тебя IQ сто тридцать – ого! А у меня – сто тридцать пять. И все друг друга понимали. Таким образом, 100-балльная шкала в области тестирования, пожалуй, более привычна миру. Но в «Телетестинге» мы выступали, например, за тысячебалльную шкалу образовательного тестирования. Когда тестируешь тысячи, тем более сотни тысяч школьников России, пятибалльной шкалы не хватает на то, чтобы всех дифференцировать. Полмиллиона детей с баллом «пять» – разве это результат? А тысячебалльная шкала позволяла больше дифференцировать по уровню знаний, навыков, умений. Когда надо отобрать десять лучших школьников из ста, нужно строить рейтинг построже, а из тысячи – тем более».

На операции шкалирования, или баллирования, тестологи не прекращают свою работу. Баллами можно оперировать и дальше, если это нужно для научно-исследовательской работы.
Но конкретный результат уже достигнут.
Испытуемые получают свидетельства о набранных баллах.
А высшие учебные заведения заранее определяют свой «сегмент» на графике распределения тестовых баллов. Они готовы принять абитуриентов с определенными тестовыми баллами. Разумеется, чем выше баллы, тем лучше для вуза.
Во время эксперимента по единому государственному экзамену специалистами головного Центра тестирования Министерства образования проводится еще одна операция с тестовыми баллами – их переводят обратно в пятибалльную шкалу, чтобы выставить в аттестаты привычные школьные оценки.
Но об этом мы расскажем в следующих публикациях.

Примечание. Примеры тестовых заданий и графики распределения баллов (за исключением случаев, особо оговоренных в тексте) полностью вымышлены авторами и приводятся в качестве учебных таблиц. Любые совпадения случайны.


Ваше мнение

Мы будем благодарны, если Вы найдете время высказать свое мнение о данной статье, свое впечатление от нее. Спасибо.

"Первое сентября"



Рейтинг@Mail.ru