Обработка результатов тестирования на современном этапе развития теории тестов

Разделы: Общепедагогические технологии


Современное состояние педагогического контроля в российской системе образования представляет собой контрастное сочетание старого с новым, субъективного с объективным, устного опроса по пятибалльной системе оценок с попытками внедрения контролирующих технологий. Тестовый метод на сегодняшний день быстро развивающееся направление на стыке педагогики, теории измерений, математического моделирования, математической статистики и автоматизации. Внедрение и развитие такого тестирования внесет существенный вклад в процесс реформирования отечественной системы образования и ее интеграции в мировую образовательную практику [11]. Учитывая важность тестирования для процесса обучения в школе, рассмотрим историю его развития и современное состояние методов тестирования в нашей стране.

История проверки знаний и способностей с помощью различных заданий насчитывает около 4 тысяч лет. Данные археологии свидетельствуют о том, что учителя древнейшей шумерской школы для проверки усвоения и закрепления материала практиковали “контрольные работы” по узнаванию текста пройденных произведений [12, c.73]. Однако первые научные труды по теории тестов появились в начале XX века, на стыке психологии, социологии, педагогики и других так называемых поведенческих наук (Behavioral Sciences). Одними из основоположников теории тестов были ученые Ф.Гальтон [14], Дж.Кеттел [13]. Вопросам теории тестов посвящены труды В.С.Аванесова, А.Анастази, Х.Зиверта, и др. [2, 3, 8].

Зарубежные психологи называют теорию тестов психометрикой (Psychometrika), а педагоги - педагогическим измерением (Educational measurement). На русском языке принято называть эту науку тестологией. Тестология - наука о тестах. Тест - это краткое стандартизированное испытание, предназначенное как для получения объективной количественной оценки результатов обучения, так и для распознавания интересующих нас особенностей и качеств личности [6].

Тесты для объективного контроля знаний и умений называют педагогическими. Педагогический тест принято определять как систему заданий определенного содержания, специфической формы, позволяющую качественно и эффективно измерить уровень и оценить структуру подготовленности учащихся, контролировать результат усвоения ими в процессе обучения знаний и умений. Педагогические тесты по целям применения делятся на: 1) тесты достижений, профориентированные тесты; 2) критериально-ориентированные тесты; 3) нормативно-ориентированные тесты; 4) аттестационные тесты; 5) тесты прогнозирования результатов обучения.

Существуют две основные формы тестовых заданий: 1) задания закрытой формы - задания с выбором из вариантов ответа, представленных испытуемому, задание на установление соответствия и задания на конструирование правильной последовательности; 2) задания открытой формы - задания, когда ответ конструируется, набирается или формулируется самим испытуемым, т.е. в постановке задания нет возможных вариантов ответа.

Разработка заданий в тестовой форме проводится на основе ряда обоснованных требований в рамках единой методики. В рамках методики, принятой в мировой практике, к таким требованиям относят следующие: 1) в тексте задания должна быть устранена всякая двусмысленность или неясность формулировок; 2) основная часть задания формулируется предельно кратко (как правило, не более одного предложения); 3) все варианты ответа к одному заданию должны быть приблизительно одинаковой длины; 4) из текста задания необходимо исключить все вербальные ассоциации, способствующие выбору правильного ответа с помощью догадки.

Содержание заданий и всего теста в целом должно удовлетворять определенным критериям, задающим систему нормативных требований к качеству содержания теста: 1) критерий полноты отображения материала учебной программы; 2) критерий соответствия содержания теста знаниям и умениям, на проверку которых тест направлен; 3) критерий соответствия теста требованиям Образовательного стандарта по дисциплине; 4) критерий качества содержания тестовых заданий.

Помимо критериев в классической тестологии выделяют следующие принципы отбора содержания тестового материала: 1) значимость; 2) научная достоверность; 3) соответствие содержания теста уровню современного состояния науки; 4) репрезентативность; 5) возрастающая трудность учебного материала; 5) вариативность содержания; 6) системность содержания; 7) комплексность и сбалансированность содержания теста; 8) взаимосвязь содержания и формы; 9) соответствие цели.

Методы измерения качества тестов опираются на теорию корреляций, главными параметрами которой являются надежность и валидность. Надежность - устойчивость результатов теста, получаемых при его применении. Валидность - пригодность теста, т.е. способность качественно измерять то, для чего он создан по замыслу авторов. Определение надежности и валидности тестов проводится путем статистической обработки результатов массового тестирования по различным группам испытуемых.

Под длиной теста понимается количество заданий, входящих в тест. Классическая теория тестов утверждает: чем длиннее тест, тем он надежнее. Но практика аудиторного тестирования показывает, что если тест очень длинный, то ухудшается мотивация и внимание. Оптимальная длина теста – 30-60 заданий. Каждый тест имеет оптимальное время тестирования - время от начала процедуры тестирования до момента наступления утомления. Разброс по характеристикам порога наступления утомления довольно большой - от 20 до 100 минут в одной возрастной группе. Основные причины утомления: возраст, мотивация, монотонность выполняемой работы, индивидуальные особенности испытуемых.

Минимальная продолжительность тестирования зависит от форм, количества и трудности заданий. Например, для выполнения простого тестового задания закрытой формы с выбором одного элемента из предложенных достаточно 10-15 секунд [1].

Появившиеся на рубеже XX века педагогические тесты быстро завоевали популярность во всех развитых странах. Однако в СССР к 30-м годам развернулась их встречная критика, а затем их полный запрет. И только в начале 90-х годов методы педагогического тестирования для контроля знаний и умений стали внедряться в российские школы и вузы. Тестирование в России в настоящее время развивается на двух уровнях: 1) на государственном уровне реализуются проекты по тестированию под эгидой Министерства образования РФ: ЕГЭ, Телетестинг, Централизованное компьютерное тестирование; 2) на корпоративном уровне наука стремительно развивается в рамках средних, профессиональных и высших образовательных учреждений и учебных центров.

На корпоративном уровне научными исследованиями и практикой тестирования в России занимается множество различных учреждений. Среди учебных заведений, которые активно занимаются и развивают направления тестирования, следует отметить Современная Гуманитарная Академия, МГУ, МГПУ, МЭСИ, ПТИ, Институт социальных проблем и некоторые другие вузы. Например, в центре тестирования Пензенского технологического института разработка тестов ведется на принципах организации систем искусственного интеллекта. При создании тестовых заданий, контролирующих усвоение учебного материала и связанных с ним понятий, акцент делается на анализ семантических связей актуальных понятий дисциплины с определяющими их базовыми понятиями. В Современной Гуманитарной Академии разработаны психометрические подходы к определению уровней (фаз) и темпов усвоения знаний и умений у обучающихся, основанные на теории линков - единиц знаний и нейрофизиологических процессах [9]. Также в Современной Гуманитарной Академии для определения усвоения новых понятий и умений студентов применяются компьютерные мастер-тесты и супертьюторы – обучающие компьютерные программы с обратной связью [5].

С развитием информационных технологий и коммуникаций методы тестирования вышли на новый уровень: тестирование с использованием персональных компьютеров и on-line тестирование с использованием Internet. Применение информационных технологий для оценивания качества обучения дает целый ряд преимуществ перед проведением обычного контроля. Прежде всего – это возможность организации централизованного контроля, обеспечивающего охват всего желаемого контингента учащихся. Далее, компьютеризация позволяет сделать контроль более объективным, не зависящим от субъективности преподавателя.

Развитие информационных технологий способствовало разработке и внедрению в практическое использование различных программных комплексов тестирования.

Анализ современной научно-методической литературы [7], а также информации из сети Internet [15, 16, 17] позволяет сформулировать основные признаки, которыми должен обладать современный программный комплекс тестирования:

  1. Основное требование для современной контролирующей системы заключается в абстрагировании от содержания, уровня сложности, тематики, типа и предметной направленности отдельных тестовых заданий. Подобная стандартизация позволяет не прибегать для создания каждого очередного теста и обработки его результатов к услугам программистов, а, освоив определенную систему, наполнять ее содержательную часть по различным дисциплинам на основе общих принципов. Высокая степень абстрагированности от конкретного учебного материала, отобранного для составления теста, определяет свойство универсальности;
  2. Контролирующая система должна состоять из подсистем следующего назначения: создание тестов (формирование банка вопросов и заданий, стратегий ведения опроса и оценивания), проведение тестирования (предъявление вопросов, обработка ответов), мониторинг качества знаний обучаемых на протяжении всего времени изучения темы или учебной дисциплины на основе протоколирования хода и итогов тестирования в динамически обновляемой базе данных. Наличие независимых, но взаимосвязанных, компонентов (подсистем): создания теста, мониторинга результатов, проведения тестирования определяет свойство модульности;
  3. Данные в контролирующей системе должны храниться централизованно на удаленном сервере. Доступ к данным осуществляется через локальную сеть. Наличие единого банка данных вопросов для каждой запущенной копии программы определяет свойство централизованности;
  4. Контролирующая система должна разграничивать права пользователей по типичным ролям (учащийся, преподаватель) для предотвращения доступа тестируемых к правильным ответам теста и т.п. – свойство защищенности;
  5. Контролирующая система может обладать возможностью настройки на проведение диагностирования с применением различных моделей диагностики для получения результатов, определённых ведущей идеей диагностирования, например, применение адаптивной модели тестирования – свойство адаптивности;
  6. В контролирующей системе должна проводиться математическая обработка результатов тестирования, в частности, расчет трудности заданий теста – свойство обработки результатов теста.

Перечислены основные требования, предъявляемые к современному программному комплексу тестирования. Также современную систему диагностирования должны определять следующие признаки: режимы тестирования, типы вопросов, используемых в тесте, случайная выборка заданий, ограничение времени тестирования, импортирование тестовых заданий из документа MicroSoft Word.

Таким образом, в настоящее время определение трудности заданий теста является одним из требований, предъявляемых к современному программному комплексу тестирования. Обработка результатов теста с определением трудности заданий теста необходима для научного подхода к составлению тестов.

С этой точки зрения интересной моделью обработки тестов, ориентированных на критерий, является однопараметрическая модель Раша [4, 10], которая позволяет:

  • формировать тест из заданий различной степени трудности;
  • делать достаточно объективный вывод о способности тестируемого на основании количества решенных задач;
  • делать вывод о вероятности решения того или иного задания определенного уровня трудности.

Для автоматизации расчетов интерпретации результатов тестирования разработана программа, которая обладает следующими возможностями:

  • удобный интерфейс, снабженный комментариями и подсказками;
  • ввод первоначальных данных о тесте - количество учащихся, количество вопросов теста;
  • конструирование матрицы заданий - элементами матрицы являются результаты ответов на вопросы теста, вопрос теста оценивается как правильно или неправильно;
  • расчет трудности заданий:
    a. за единицу измерения взят логит;
    b. в качестве диапазона значений взят интервал от -3.5 до 3.5.
  • построение шкалы логитов, на которой изображается трудность заданий;
  • проведение анализа шкалы логитов, который заключается:
    a. в определении заданий с одинаковой трудностью;
    b. если шкала не равномерно заполнена, то предлагает удалить задания с определенной трудностью.
  • расчет способности каждого учащегося:
    a. за единицу измерения взят логит;
    b. в качестве диапазона значений взят интервал от -3 до 3;
    c. шкала была переведена в обычную порядковую четырехбалльную шкалу оценивания. Для разметки диапазонов оценок использовались экспериментальные данные 105 респондентов;
    d. по произведенным расчетам среднее значение (img11.gif (59 bytes)) оценки диапазонов равно 0.2, а среднее квадратичное отклонение img12.gif (78 bytes)составило 2 единицы;
    e. шкала оценок поcтроена следующим образом:
    img1.gif (1810 bytes)
    f. корреляция между оценкой, выставленной учителем и полученной с помощью разработанной компьютерной программы составляет K=0.72, что является свидетельством существования значимой корреляционной связи. Следовательно, программа может быть использована для выставления традиционных оценок учащимся в процессе их обучения.
  • построение шкалы способностей учащихся;
  • построение характеристической кривой, позволяющей прогнозировать с какой вероятностью будет выполнено задание определенной трудности;
  • сохранение данных графиков и таблиц в файл формата MicroSoft Word.

Например, при проверке 20 учащихся с помощью теста, состоящего из 14 заданий, были получены следующие результаты:

  1. Шкала логитов, представленная ниже на форме, заполнена неравномерно, тест состоит из заданий средней степени трудности, отсутствуют задания с высокой и низкой степенью трудности, у заданий 3, 11 и 10, 14 трудность одинаковая;
  2. По результатам тестирования рассчитаны способности учащихся, оцененные в четырехбалльной системе:
  3. На основании построенной характеристической кривой можно спрогнозировать решение того или иного задания с определенной степенью сложности:

Невысокие требования к программному и аппаратному обеспечению делают программу доступной для школ с различным уровнем аппаратного о программного обеспечения. В частности, данная программа апробируется на факультете информатики, факультете учителей начальных классов Челябинского Государственного Педагогического Университета, МОУ №94 г. Челябинска.

Таким образом, в настоящее время методы тестирования в нашей стране представляют собой важное, перспективное и развивающееся направление для реформирования системы образования. Одним из главных вопросов для тестирования является обработка результатов теста, в частности, расчет трудности заданий. Для такой обработки результатов теста может быть использована однопараметрическая модель тестов Г.Раша. Компьютерная программа, созданная на основе данной модели, позволяет автоматизировано и объективно:

  1. Проводить обработку теста за счет определения трудности заданий, таким образом, что тест формируется из заданий различной степени трудности.
  2. Интерпретировать результаты тестирования, делая вывод о способности учащихся.
  3. Прогнозировать решение того или иного задания определенного уровня трудности.

Литература

  1. Аванесов В.С. Начала теории // Управление школой. – 1999. - №28 // http://testolog.narod.ru/Theory1.html.
  2. Аванесов B.C. Научные проблемы тестового контроля знаний: учебное пособие. - М., 1994. - 135 с.
  3. Анастази А. Психологическое тестирование. Кн.1. - М.: Педагогика, 1982 -. 320с.
  4. Дружинин В.Н. Экспериментальная психология: учебное пособие. – М.: ИНФРА – М, 1997. – 255с.
  5. Евтюхин Н.В. Структуризация знаний и технология разработки компьютерных мастер-тестов // Дистанционное образование. – 1999. -№1. – с. 12-17.
  6. Евтюхин Н.В., Бондарева Т.В., Дубинина Т.В., Сурыгина И.Ю. Современное состояние методов тестирования знаний и умений за рубежом и в России // Инновации в образовании. – 2004. - № 1. – с.27 – 47.
  7. Захарова И.Г. Информационные технологии в образовании: Учеб.пособие для вузов. – М.: Академия, 2003. – (Высшее образование). – 198с.
  8. Зиверт X. Тестирование личности: Типы задач. Примерные вопросы. Решения. Советы по поводу раскрытия личности. - ML: Инф-ра-М, 1998.- 196 с.
  9. Карпенко М.П. Проблемы измерения знаний и образовательные технологии // Журнал практического психолога. – 1997. - №4.
  10. Лапикова Н.В. Компьютерная обработка результатов тестирования на основе однопараметрической модели тестов Г.Раша/ Психолого-педагогические исследования в системе образования: Материалы Всероссийской научно-практической конференции: В 4 ч. Ч. 1.- Москва – Челябинск: Изд-во “Образование”, 2003. - С.45-47.
  11. Матушанский Г.У. Педагогическое тестирование в России // Педагогика. – 2002. - № 2. – с.15 – 21.
  12. От глиняной таблички – к университету: Образовательные системы Востока и Запада в эпоху Древности и Средневековья: Учеб. пособие / Под ред. Т.Н.Матулис. – М.: Изд-во РУДН, 1998. – 531 с.
  13. Тесты успешности. Сост. В.Муравьев. М., 1979 -1981.
  14. Ярошевский М.Г. История психологии. / 3-е изд., М., 1985.
  15. http://repetitor.1c.ru/
  16. http://www.abiturient.net/
  17. http://usatic.narod.ru/