Автореферат Редикарцевой


УДК 004:378.146                                                                   На правах рукописи

 

                

 

 

 

 

 

Редикарцева Елена Михайловна

 

 

 

 

 

 

Разработка самонастраивающейся системы оценки знаний

 

 

 

 

 

 

05.13.10 – Управление в социальных и экономических системах

 

 

 

 

 

 

Автореферат

диссертации на соискание ученой степени

кандидата технических наук

 

 

 

 

 

 

 

 

 

Республика Казахстан

Алматы, 2007


Работа выполнена в Северо-Казахстанском государственном университете имени М.Козыбаева

 

 

Научный руководитель:

доктор технических наук, профессор                                          Мутанов Г.М.

 

 

Официальные оппоненты:

 

– доктор технических наук, профессор                                       Яворский В.В.

 

– кандидат технических наук, доцент                                           Оспанов С.С.

 

 

Ведущая организация: Евразийский национальный университет имени Л.Н.Гумилева

 

 

 

 

Защита состоится « 18 » октября 2007 года в 14 ч.30 мин. на заседании диссертационного совета ОД 14.13.03 при Казахском национальном техническом университете имени К.И.Сатпаева по адресу: 050013, Республика Казахстан, г. Алматы, ул. Сатпаева, 22, нефтяной корпус, конференц-зал

 

 

 

С диссертацией можно ознакомиться в библиотеке Казахского национального технического университета имени К.И.Сатпаева

 

 

 

 

Автореферат разослан «___» сентября 2007 года

 



Введение

 

Актуальность работы. В любой образовательной системе особое место занимает контроль – отслеживание усвоения знаний и мониторинг качества обучения. Внедрение новых образовательных и информационных технологий в учебный процесс усиливает потребность в автоматизированных системах, позволяющих объективно, быстро и надежно оценивать знания учащихся.

На сегодняшний день тестирование как одна из наиболее технологичных и объективных форм контроля повсеместно используется во многих странах мира, в том числе, и в Казахстане, в области подготовки и сертификации специалистов, а также в системе мониторинга и оценки качества образования.

Анализ работ по теории и практике тестирования показал, что информатизация образования позволила существенно модернизировать тестовые технологии контроля знаний и поднять их на качественно иной уровень. Использование новых информационных технологий, во-первых, позволило автоматизировать обработку результатов, благодаря чему стало возможным массовое тестирование, во-вторых, привело к созданию компьютерных систем тестирования знаний. Такие системы позволяют не только компьютеризировать традиционные бланковые тесты посредствам автоматизации процессов формирования теста и предъявления тестовых заданий, но и открывают новые возможности представления предметной области, за счёт включения в тестовые задания звуковых эффектов, анимационных фрагментов и т.п.

Одно из направлений дальнейшего повышения эффективности контрольно-оценочных процедур связано с созданием на базе средств вычислительной техники систем оценки знаний, способных своевременно реагировать на индивидуальные особенности подготовки тестируемых при предъявлении заданий. Подобные системы принято называть системами компьютерного адаптивного тестирования. В настоящее время в области исследований, связанных с адаптивным тестированием, идет процесс поиска новых методов и технологий.

Подводя итог сказанному выше, можно сделать вывод, что актуальность исследования обусловлена расширением сферы использования тестового контроля знаний, а также необходимостью разработки и практической реализации научно обоснованных алгоритмов компьютерного адаптивного тестирования.

Научные результаты получены при выполнении государственного заказа МОН РК по программе 002 «Фундаментальные и прикладные научные исследования» в рамках прикладной научно-исследовательской работы по теме: «Универсальная интегрированная компьютерная система оценки знаний», (контракт  № 749 от  15. 07. 2004), где автор принимал участие в качестве исполнителя.

Цель исследования заключается в разработке методов компьютерного адаптивного тестирования, предоставляющих возможность повышения эффективности контрольно-оценочных мероприятий, и создании самонастраивающейся системы оценки знаний, позволяющей идентифицировать уровень знаний обучаемых, а также на основе статистической информации, получаемой в процессе тестирования, проводить качественный анализ заданий тестовой базы. Достижение цели потребовало решения следующих задач:

             проведение анализа существующих математических моделей и методов, используемых при оценивании знаний, и построение модели тестовой базы, как необходимого элемента системы конструирования адаптивных тестов;

             разработка априорных и апостериорных методов определения параметров тестовых заданий позволяющих на основе экспертных и статистических методов оценить значения параметров тестовых заданий как до, так и после проведения тестирования;

             разработка и исследование моделей и методов компьютерного адаптивного тестирования, позволяющих за минимальное время оценить уровень знаний с точностью и надёжностью, заданными априорно;

             разработка самонастраивающейся системы оценивания знаний, позволяющей не только идентифицировать уровень знаний обучаемого, но и осуществлять в процессе эксплуатации анализ качества тестовых заданий.

Объектом исследования являются контрольно-оценочные мероприятия в сфере образования.

Предмет исследования – организация процесса компьютерного адаптивного тестирования.

Идея работы заключается в реализации немедленного реагирования на индивидуальные особенности подготовки тестируемых при предъявлении заданий по средствам компьютерного адаптивного тестирования, позволяющего идентифицировать уровень знаний в процессе контрольно-оценочной деятельности.

Методы исследования основаны на использовании положений теории вероятностей и математической статистики, системного анализа, теории автоматического управления, классической теории тестирования, математической теории оценки качества тестовых заданий.

Научная новизна состоит в том, что на основе положений математической теории оценки качества тестовых заданий и аппарата теории вероятностей и математической статистики, а также теории автоматического управления предложен новый подход к проведению тестирования, позволяющий

             реализовать принцип индивидуализации контрольно-оценочных процедур;

             конструировать тест с надёжностью, заданной априорно;

             сократить количество предъявляемых при опросе заданий, не снижая качества получаемой оценки.

Положения, выносимые на защиту:

             модель тестовой базы, отличающаяся тем, что тест рассматривается как стратифицированная выборка из генеральной совокупности тестовых заданий, характеризующихся, согласно трёхпараметрической логистической IRT-модели, помимо прочих, такими параметрами, как трудность, дифференцирующая способность и вероятность угадывания правильного ответа;

             априорные методы определения параметров тестовых заданий, основанные на экспертных оценках, и апостериорные методы, основанные на оценках метода максимального правдоподобия, позволяющие оценить трудность тестового задания и вероятность угадывания правильного ответа в тестовом задании до проведения пилотажного тестирования, а в дальнейшем, по мере накопления статистических данных, уточнять значения таких параметров тестового задания, как дифференцирующая способность, трудность и вероятность угадывания правильного ответа;

             информационная модель тестового задания и теста, отличающаяся наличием параметра угадывания;

             метод оценивания уровня знаний, основанный на построении доверительных интервалов и максимизации информационной функции теста, позволяющий определить уровень знаний с априорно заданной точностью и надёжностью.

Практическая значимость заключается в том, что разработана самонастраивающаяся система, позволяющая качественно и эффективно оценить уровень знаний обучаемых, а также уточнять в процессе функционирования значения параметров тестовых заданий, благодаря чему стало возможным выявление некачественных тестовых заданий и совершенствование тестовой базы в процессе её эксплуатации.

Внедрение результатов. Самонастраивающаяся система оценки знаний внедрена в учебный процесс Северо-Казахстанского государственного университета имени Манаша Козыбаева и Северо-Казахстанской областной специализированной школы-лицея для одарённых детей ЛОРД.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на научных семинарах ФИТ СКГУ им. М.Козыбаева (Петропавловск, 2002 – 2007); научных семинарах ВКГТУ им. Д.Серикбаева (Усть-Каменогорск, ноябрь 2003, май 2006); 2-й международной конференции молодых учёных (Алматы, КазНТУ им. К.И.Сатпаева, апрель 2002); на всероссийской научно-методической конференции «Информатизация образования – 2002» (Нижний Тагил, НТГПИ, октябрь 2002); международной  научно-практической конференции «Актуальные проблемы высшей школы в третьем тысячелетии» (Петропавловск, СКГУ им. М.Козыбаева, ноябрь 2002); международной  научно-практической конференции «Творчество молодых XXI веку» (Петропавловск, СКГУ им. М.Козыбаева, май 2003); международной  научно-практической конференции «Автоматизированные системы мониторинга и управления качеством образования» (Петропавловск, СКГУ им. М.Козыбаева, май 2004); международной  научно-практической конференции «Состояние, проблемы и задачи информатизации в Казахстане» (Усть-Каменогорск, ВКГТУ им. Д.Серикбаева, сентябрь 2005); международной  научно-практической конференции «Педагогические измерения: состояние и перспективы развития» (Астана, НЦГСОТ, ЕНУ им. Л.Н.Гумилёва, сентябрь 2006).

Публикации. По теме диссертационного исследования соискателем опубликовано 20 печатных работ.

Объём и структура диссертации. Диссертация изложена на 112 страницах машинописного текста, включает 12 рисунков, 7 таблиц и 119 формул, состоит из введения, четырёх разделов, заключения, списка использованных источников из 125 наименований и приложения с документами о внедрении результатов работы.

 

Содержание работы

 

На сегодняшний день накоплен значительный опыт проведения массовых тестирований, как одного из возможных методов оценки знаний. Существенный вклад в создание теоретической базы педагогических измерений  внесли зарубежные учёные такие, как Birnbaum A., Lord F. M.,  Novick M.R., Rasch G., и другие. Тестированию, как методу измерения и оценивания знаний посвящены работы Algina J., Crocker L., Hambleton R.K., Rogers H.J.,  Swaminathan H., Wright D., Аванесова В.С., Балыкбаева Т.О., Майорова А.Н., Мутанова Г.М., Челышковой М.Б., Шевчук Е.В. и многих других зарубежных, российских и казахстанских учёных.

Анализируя существующие к настоящему моменту модели и методы объективного оценивания знаний, нетрудно заметить, что в практике педагогических измерений в силу достаточной теоретической обоснованности и формализации широкое распространение получили классическая теория тестирования (Classical Test Theory – CTT) и математическая теория оценки качества тестовых заданий (Item Response Theory – IRT). Данные подходы к решению проблемы оценки знаний дополняют друг друга, при этом основные положения классической теории тестов в большей мере ориентированы на тесты, как системы заданий, в то время как в фокусе изучения IRT находятся отдельные задания. Последнее позволяет сделать вывод о том, что при конструировании адаптивных тестов следует в большей степени акцентировать внимание на положениях математической теории оценки качества тестовых заданий.

При организации процесса компьютерного тестирования знаний, в том числе адаптивного, необходимо создание базового множества тестовых заданий (другими словами, базового теста, банка тестовых заданий или тестовой базы), обладающих рядом параметров. Описанные в литературе методы определения параметров тестовых заданий в большинстве своём основываются на статистической обработке так называемого «сырого» балла, набранного в результате пилотажного тестирования. При этом существующие априорные методы не могут быть применены для логистических IRT-моделей, а апостериорные не предполагают использования в качестве исходных данных матриц результатов тестирования с неопределёнными элементами, в то время, как именно такие матицы результатов характерны для тестовых баз с большим количеством заданий.

В диссертационной работе тестовая база рассматривается как генеральная совокупность заданий для измерения уровня знаний. При этом тест есть выборка заданий из тестовой базы, формируемая в зависимости от ответов испытуемого. По завершению тестирования на основе информации, получаемой из анализа ответов на предъявленные задания теста, делается вероятностный вывод об уровне знаний.

 Организация тестовой базы основана на следующих принципах:

-     тестовая база полностью отражает содержание предметной области;

-     содержательная валидность тестовой базы проверена экспертами и не вызывает сомнений;

-     каждое задание тестовой базы имеет ряд атрибутов (параметров) основным из которых является трудность тестового задания;

-     значения параметров тестовых заданий на начальном этапе определяются экспертно, в дальнейшем, по мере проведения тестирований и накопления статистических данных, уточняются с использованием трёхпараметрической логистической IRT-модели.

Согласно трёхпараметрической логистической IRT-модели, вероятность  Pji) правильного решения тестового задания j испытуемым с уровнем знаний θi выражается равенством

 

                      (1)

 

где aj – дифференцирующая способность тестового задания j, βj – трудность задания j, gj – вероятность угадывания правильного ответа при выполнении задания j. Здесь и в дальнейшем,  m – количество испытуемых, n – количество тестовых заданий.

Определить значения параметров тестовых заданий, не прибегая к пилотажному тестированию, возможно с использованием экспертных методов, самый простой из которых, метод моноэкспертизы. В роли эксперта выступает автор тестового задания, который не только формулирует задание, определяет время, отводимое на его решение, но также определяет значения
параметров
aj, βj, и gj.

При генерации адаптивного теста наиболее значимым параметром является трудность задания βj, менее значимым, но существенным является вероятность угадывания правильного ответа gj. Параметром aj, на начальном этапе использования тестовой базы можно пренебречь, приняв для всех заданий aj=1. Вероятность угадывания правильного ответа gj на задание множественного выбора j можно определить по формуле

 

,                                                       (2)

 

где  sj – количество дистракторов в j-м задании теста. Таким образом, остаётся определить лишь значение параметра βj. Необходимо учесть что, в любой логистической модели, в том числе и в трёхпараметрической (1), рассматриваются значения параметра трудности тестового задания βj в шкале логитов. При определении значения параметра βj – трудности тестового задания экспертными методами удобнее использовать процентную или какую-либо другую шкалу, отличную от шкалы логитов. Поэтому возникает необходимость перехода от соответствующей шкалы к шкале логитов. Пусть в некоторой шкале трудность тестового задания βj может принимать значение из интервала (a; b). И пусть одним из экспертных методов определена трудность  тестового задания j в этой шкале . Тогда преобразование f, заданное функцией

                                                 (3)

 

отображает интервал (a; b) в интервал (0; 1), то есть нормирует значение :

 

,     .                           (4)

 

Нормированное значение  трудности тестового задания j можно интерпретировать, как среднее значение вероятности правильного решения задания j. Соответствующее значение трудности тестового задания j в шкале логитов можно определить по формуле

 

          ,                                              (5)

 

где g – преобразование, заданное функцией

 

.                                              (6)

 

Таким образом, переход к шкале логитов осуществляется путём композиции преобразований f и g. Обратный переход от шкалы логитов к нормированной шкале осуществляется путём преобразования g-1 обратного к g

 

.                                              (7)

 

 

После проведения тестирования возможно определение или уточнение значений параметров αj, βj, γj и θi по полученным результатам. Источником исходной информации является матрица результатов X=(xij), элементы которой в простейшем случае равны нулю или единице:

 

                                  (8)

 

Если испытуемый i не выполнял задание j, то значение xij не определено, то есть, в общем случае матрица X может быть разреженной. Для определения значений параметров, а точнее их статистических оценок воспользуемся методом максимального правдоподобия. Пусть Pij и Qij – соответственно вероятности правильного и неправильного выполнения i-м испытуемым  j-го задания теста, которые, согласно (1), заданы выражениями

 

 ,                                     (9)

 

 .                  (10)

 

Тогда функция правдоподобия примет вид

 

 ,                                      (11)

 

а её логарифм

 

.   (12)

 

В (11), (12) умножение и суммирование проводится по всем i и j, для которых элемент xij определён, то есть, имеет числовое значение.

 Неизвестные оценки максимального правдоподобия для параметров αj, βj, γj и θi  находим из необходимого условия экстремума логарифма функции правдоподобия, которое, с учётом (9) и (10), после преобразований примет вид

 

                                    (13)

 

где  n – количество испытуемых, m – количество вопросов в тестовой базе, Pij задана согласно (9).

Таким образом, система (13) содержит 3n+m нелинейных уравнений, поэтому найти её решение в аналитическом виде практически невозможно. Для практических целей достаточно найти значения параметров с заданной погрешностью, что возможно, если использовать при решении системы (13) итерационные методы.

В рамках описанной модели уровень знаний θ есть генеральная доля правильных ответов на все мыслимые тестовые задания, отображающие предметную область. Таким образом, по данным тестирования можно найти точечную  и/или интервальную  статистическую оценку θ. Как известно из курса математической статистики, точечной оценкой генеральной доли является выборочная доля, т.е.

 

,                                              (14)

 

где p – доля правильных ответов испытуемого. Эта оценка является несмещённой, состоятельной и эффективной, тем не менее, она является лишь приближённым значением θ, причём точность приближения можно считать достаточной для практических выводов лишь в случае, когда испытуемому было предложено большое количество тестовых заданий . Для тестов небольшой длины вопрос о точности оценки может быть решён, если определить интервальную оценку θ с надёжностью δ. Границы  и  доверительного интервала для θ в предположении, что θ имеет нормальное распределение, могут быть определены по формуле

 

                                    (15)

 

где p – доля правильных ответов испытуемого,  – квантиль уровня  распределения Стьюдента с (k-1) степенями свободы. 

         Если необходимо определить оценку θ с заданной точностью ∆, то при фиксированной надёжности δ можно заранее определить длину теста k (точнее нижнюю оценку для k), т.е. количество заданий, которое необходимо предложить испытуемому. Зависимость между точностью оценки ∆ и количеством тестовых заданий k, которое необходимо задать для достижения этой точности, в неявном виде может быть задана равенством

 

                                        (16)

 

В (16) tδ заменено на tδ(k–1), так как значение квантиля tδ зависит не только от надёжности δ, но и от количества степеней свободы, то есть, в конечном счёте, от k, ε – ширина доверительного интервала (ε=2∆).

Используя интервальное оценивание уровня знаний можно существенно сократить длину теста, если проводить тестирование в несколько этапов, сужая на каждом этапе область допустимых значений θ. При этом, чтобы по возможности минимизировать длину теста задания в него следует подбирать таким образом, чтобы из результатов выполнения этих заданий можно было извлечь как можно больше информации об уровне знаний испытуемого.

Количество информации Фишера о θ, содержащейся в результате xj выполнения задания j испытуемым с уровнем знаний θ принято называть информационной функцией Ij(θ) задания j, а количество информации Фишера о θ, содержащейся в результатах xi1, xi2, …, xik выполнения теста длины k испытуемым с уровнем знаний θ – информационной функцией I(θ) теста. Информационная функция I(θ) теста состоящего из k заданий равна сумме информационных функций этих заданий, а  информационная функция задания j, равна отношению квадрата производной  по переменной θ функции Pj(θ) к произведению Pj(θ)(1- Pj(θ)) (или Pj(θ)Qj(θ)), где Pj(θ) для трёхпараметрической логистической модели определяется согласно (1). Таким образом, информационная функция I(θ) теста длины k для трёхпараметрической логистической модели может быть выражена по формуле

 

                 (17)

 

В силу аддитивности I(θ) (17) значение информационной функции теста I0), полученного из предыдущего добавлением (k+1)-го задания, при некотором θ0 – априорно найденном значении θ будет максимально возможным, если максимально возможным будет значение Ik+10) информационной функции (k+1)-го задания.

Определив путём построения доверительных интервалов по результатам выполнения k тестовых заданий границы  и  варьирования θ, (k+1)-е задание следует выбирать из множества оставшихся заданий тестовой базы, таким образом, чтобы значение информационной функции I(θ) теста, составленного из этих k+1 заданий при  было максимальным, то есть

 

                     (18)

 

или, что то же самое,

 

                (19)

 

Далее, с учётом результата xk+1 выполнения (k+1)-го тестового задания, выбранного согласно (19) по результатам выполнения k+1 тестовых заданий необходимо уточнить границы  и  варьирования θ, и т.д. Процесс следует повторять до тех пор, пока  (∆ – точность оценки).

Согласно классической теории тестов оценка уровня знаний тем точнее и надёжнее, чем большее количество заданий включено в тест. Как правило, оценка уровня знаний определяется непосредственно по доле правильно решённых заданий. Чтобы оценить теоретическое значение доли правильно решённых заданий с априорно заданными точностью ∆ (или ε = 2∆) и надёжностью δ испытуемому необходимо предложить k тестовых заданий, другими словами, предложить тест длины k. Обозначим через pг и p – генеральную и выборочную долю правильных ответов соответственно,  через p1 и p2  – границы, в которых с надёжностью δ находится истинное значение pг. В таблице 1 представлена взаимозависимость между длиной теста k и величинами p1 и p2 для p = 0.2 с надёжностью δ = 0.9.

 

Таблица 1 Взаимозависимость между длиной теста и границами p1 и p2 доверительного интервала для генеральной доли правильных ответов

k

5

10

15

20

25

30

40

50

60

70

100

p1

0.08

0.09

0.1

0.11

0.11

0.12

0.12

0.13

0.13

0.14

0.14

p2

0.66

0.51

0.44

0.4

0.38

0.36

0.33

0.31

0.3

0.29

0.28

 

По таблице видно, что абсолютная величина разницы между p1 и p2 составляет в случае теста малой длины (= 5), более 0.5, то есть более половины всего диапазона варьирования pг, кроме того, с ростом длины теста k разница между p1 и p2 снижается довольно медленно. Подтверждением этого факта является следующее. Дисперсия  доли правильных ответов p, равна

 

                                        (20)

 

Генеральная доля правильных ответов pг вообще говоря неизвестна, но  учитывая то, что функция p(1-p) достигает максимума при p=0.5, можно утверждать, что

 

                                                  (21)

 

или для среднего квадратического отклонения s(p) доли правильных ответов

 

                                                (22)

 

Соотношения (20) – (22) доказывают утверждение о том, что с ростом длины теста k ширина доверительного интервала убывает достаточно медленно (обратно пропорционально арифметическому квадратному корню из k), а самыми широкими интервалы будут в тех случаях, когда количество правильных и неправильных ответов примерно одинаково.

Ситуация усугубляется при наличии угадывания. В случае отсутствия угадывания pг отождествляется с уровнем знаний θ. Если испытуемый пытается угадать правильный ответ в случае, когда не может справиться с заданием, то генеральная доля правильных ответов pг при равной привлекательности дистракторов может быть определена по формуле

 

                                               (23)

 

где s – среднее количество дистракторов в заданиях теста. Разрешив (23) относительно θ, получим линейную зависимость θ от pг

 

                                       (24)

 

Анализируя (24) нетрудно заметить, что доверительный интервал  для уровня знаний θ шире доверительного интервала [p1p2] для генеральной доли правильных ответов pг (рисунок 1), так как  для любого s >1.

 

 

Рисунок 1 Зависимость между шириной доверительного интервала для уровня знаний θ и шириной доверительного интервала для генеральной доли правильных ответов pг

 

В таблице 2 приведены данные о том, во сколько раз доверительный интервал для уровня знаний θ шире доверительного интервала для генеральной доли правильных ответов pг в зависимости от количества дистракторов s.

 


Таблица 2 Влияние количества дистракторов на увеличение ширины доверительного интервала для θ относительно ширины доверительного интервала для pг

s

2

3

4

5

6

во сколько раз доверительный интервал для θ шире доверительного интервала для pг

2

1.5

4/3≈1.3

1.25

1.2

 

Помимо наличия угадывания и длины теста на ширину доверительного интервала влияет также надёжность оценки δ (чем ближе δ к единице, тем шире интервал). Зависимость между шириной доверительного интервала ε (без учёта угадывания), надёжностью оценки δ и длиной теста k выражена равенством (16). Данные о ширине доверительного интервала без учёта угадывания для тестов различной длины приведены в таблице 3.

 


Таблица 3 Ширина доверительного интервала ε (без учёта угадывания) для тестов различной длины

количество заданий в тесте

k

надёжность оценки (в %)

50

60

70

75

80

85

90

95

98

99

10

0.23

0.29

0.37

0.41

0.46

0.52

0.61

0.75

0.94

1.08

20

0.16

0.20

0.24

0.27

0.30

0.34

0.40

0.48

0.58

0.66

40

0.11

0.14

0.17

0.19

0.21

0.24

0.27

0.32

0.39

0.43

80

0.08

0.10

0.12

0.13

0.15

0.16

0.19

0.22

0.27

0.30

120

0.06

0.08

0.10

0.11

0.12

0.13

0.15

0.18

0.22

0.24

150

0.06

0.07

0.09

0.09

0.11

0.12

0.14

0.16

0.19

0.21

 

На рисунке 2 представлена зависимость между шириной доверительного интервала ε (без учёта угадывания) и надёжностью оценки δ для тестов длины k=5; 10; 20; 30; 40.

 

 

Рисунок 2 Зависимость ширины доверительного интервала ε от надёжности оценки δ для тестов длины k

 

Данные, приведённые в таблице 3, и иллюстрация зависимости между ε и δ, приведённая на рисунке 2, позволяют утверждать, что с увеличением длины теста точность оценки увеличивается довольно медленно. В таблице 3 приведены данные о ширине доверительного интервала без учёта угадывания для различных значений надёжности оценки δ и тестов различной длины k. Чтобы внести поправку на угадывание достаточно умножить значение ε на коэффициент из таблицы 2.

При адаптивном тестировании, проводимом по средствам описанных выше методов зависимость между шириной доверительного интервала ε, надёжностью оценки δ и длиной теста k также выражена равенством (16), но, во-первых, нет необходимости делать поправку на угадывание, поскольку соответствующие коррективы уже содержатся в трёхпараметрической логистической IRT-модели, заложенной в основу принципов организации тестовой базы, во вторых,  при фиксированной точности оценки взаимосвязь между длиной теста и надёжностью оценки подчиняется тем же законам, что и в случае традиционного тестирования, а именно уменьшение надёжности не приводит к существенному уменьшению длины теста (при фиксированной точности) или к существенному увеличению ширины доверительного интервала (при фиксированной длине теста). Тем не менее, за счёт поэтапного сужения области допустимых значений q, при фиксированных значениях δ и e длина теста k для адаптивного теста существенно меньше, чем для традиционного теста. На основании приведённых выше математических выкладок была построена имитационная модель процесса адаптивного тестирования знаний для метода с построением доверительных интервалов. Как показали исследования построенной модели, а также данные эксперимента использование метода формирования адаптивного теста с построением доверительных интервалов с последующей максимизацией информационной функции теста позволяет достаточно быстро классифицировать уровень знаний обучаемого не только в том случае, когда он «отличник» или «двоечник» (как в случае пирамидального тестирования), но и в других случаях. Вследствие этого использование данного метода, как показывают исследования, позволяет сократить количество вопросов в тесте, а соответственно и время тестирования, в среднем на 20 – 25%, по сравнению с традиционным тестированием.

Обобщённый алгоритм оценивания знаний с построением доверительных интервалов и последующей максимизацией информационной функции теста представлен на рисунке 3.

Рисунок 3 – Алгоритм адаптивного оценивания знаний

На рисунке 4 представлена функциональная схема самонастраивающейся системы оценивания уровня знаний.

 

Рисунок 4 Самонастраивающаяся система оценки знаний

 

Регулятор Р выполняет функции генератора теста. Если разность de между априорно заданной точностью оценки e и точностью  оценки, полученной на очередном этапе тестирования, отрицательна, то есть  генератор теста формирует блок тестовых заданий с параметрами aj, βj, gj. Эти задания предлагают тестируемому, который выступает в качестве субъекта управления СУ. Другими словами, регулятор Р генерирует управляющее воздействие U,  U – вектор размерности k(r) с компонентами  (aj, βj, gj), j=1, …, k(r), k(r)– количество тестовых заданий, предъявляемых тестируемому на r-м этапе. Поскольку компонентами вектора U являются трёхмерные векторы параметров тестовых заданий, можно также сказать, что U представляет собой матрицу размерности k(r)´3. Тестируемый выполняет задания, тем самым, субъект управления СУ формирует вектор результатов x, xj – результат выполнения j-го задания, определяемый согласно (8). В устройстве текущей идентификации И путём обработки данных о параметрах тестовых заданий U и результатах выполнения этих заданий x определяется оценка  уровня знаний q. Значение текущей оценки  передаётся в регулятор Р (генератор теста), что позволяет последнему сформировать следующий блок наиболее информативных тестовых заданий,  то есть таких заданий, для которых значение информационной функции при  по возможности максимально.  Кроме того, по вектору результатов x в преобразователе П определяется точность  текущей оценки  уровня знаний.

Описанный подход к проведению тестирования позволяет индивидуализировать контрольно-оценочные процедуры по средствам немедленного реагирования на особенности подготовки тестируемых за счёт эффективного использования всей доступной информации об уровне знаний и имеющейся в наличии базы тестовых заданий.

 

Выводы

 

В результате проведённого исследования

-     рассмотрены существующие на сегодняшний день математические модели педагогических измерений, проанализированы возможности их использования для разработки самонастраивающейся системы оценивания уровня знаний;

-     обоснована необходимость использования в практических приложениях трёхпараметрической логистической IRT-модели, построена модель тестовой базы, отличающаяся тем, что тест рассматривается как стратифицированная выборка из генеральной совокупности тестовых заданий, характеризующихся, помимо прочих, такими параметрами, как трудность, дифференцирующая способность и вероятность угадывания правильного ответа (согласно трёхпараметрической логистической IRT-модели);

-     разработаны априорные методы определения параметров тестовых заданий, основанные на экспертных оценках, позволяющие оценить трудность тестового задания и вероятность угадывания правильного ответа в тестовом задании до проведения пилотажного тестирования;

-     разработаны апостериорные методы определения параметров тестовых заданий, основанные на оценках метода максимального правдоподобия, позволяющие по матрице результатов, в том числе и по разреженной, оценить дифференцирующую способность тестового задания, трудность тестового задания и вероятность угадывания правильного ответа в тестовом задании;

-     построена информационная модель тестового задания и теста, позволяющая определить количество информации об уровне знаний, содержащейся в результатах тестирования, отличающаяся наличием параметра угадывания;

-     разработан метод оценивания уровня знаний, основанный на принципах статистического оценивания, позволяющий определить уровень знаний с априорно заданной точностью и надёжностью, проведён сравнительный анализ эффективности предложенного метода с традиционным;

-     разработан и программно реализован алгоритм оценивания уровня знаний, основанный на построении доверительных интервалов и максимизации информационной функции теста;

-     разработана самонастраивающаяся система оценивания уровня знаний, позволяющая с минимальными временными затратами оценить с заданной точностью и надёжностью уровень знаний обучаемых, а также на основе статистической информации, полученной в процессе тестирования, провести качественный анализ заданий тестовой базы.

Полученные научные результаты внедрены в учебный процесс Северо-Казахстанского государственного университета имени Манаша Козыбаева и Северо-Казахстанской областной специализированной школы-лицея для одарённых детей ЛОРД.

 

Список опубликованных работ по теме диссертации

 

1.           Гусаков В.П., Редикарцева Е.М. Создание самонастраивающейся системы оценки знаний методом тестирования. // Труды 2-й международной научно-практической конференции молодых учёных, г. Алматы: КазНТУ, 2002. – т.1. – с. 48 – 56.

2.           Гусаков В.П., Редикарцева Е.М. Реальный путь к созданию самонастраивающейся компьютерной тестовой системы. // Сборник трудов всероссийской научно-методической конференции «Информатизация образования 2002», г. Нижний Тагил: НТГПИ, 2002. – с. 230 – 235.

3.           Редикарцева Е.М. Различные подходы к созданию компьютерных тестовых систем. // Материалы международной  научно-практической конференции «Актуальные проблемы высшей школы в третьем тысячелетии», г. Петропавловск: СКГУ, 2002. – т.V. – с. 40 – 43.

4.           Перницкий Ф.Ф., Редикарцева Е.М. и др. 1001 тест по высшей математике для студентов технических специальностей вузов. Петропавловск: СКГУ, 2002. – 180 c.

5.           Редикарцева Е.М., Грызов И.В. Построение доверительного интервала для доли знаний, определяемой методом тестирования. // «Творчество молодых XXI веку». Материалы международной научно-практической конференции, г. Петропавловск: СКГУ, 2003. – т.1. – с. 122 – 124.

6.           Мутанов Г.М., Редикарцева Е.М. К вопросу об адаптивном тестировании знаний  // Вестник Восточно-Казахстанского государственного технического университета им. Д.Серикбаева, 2003. – № 4. – с. 108 113.

7.           Гусаков В.П., Редикарцева Е.М. Качество оценки знаний методом тестирования // Материалы международной научно-практической конференции «Автоматизированные системы мониторинга и управления качеством образования», Петропавловск: СКГУ, 2004. – c. 167 – 169.

8.           Редикарцева Е.М. Математическая модель адаптивного тестирования знаний // Материалы международной научно-практической конференции «Современные исследования в астрофизике и физико-математических науках», Петропавловск: СКГУ, 2004. – c. 268 – 270.

9.           Ашимов У.Б., Гусаков В.П., Редикарцева Е.М. и др. Универсальная интегрированная компьютерная система оценки знаний // Отчёт о выполнении прикладной научно-исследовательской работы, выполняемой в рамках государственного заказа Министерства образования и науки Республики Казахстан по контракту  № 749 от 15.07.04 / СКГУ им. М.Козыбаева, Петропавловск: СКГУ, 2004. – 50 c.

10.       Мутанов Г.М., Гусаков В.П., Редикарцева Е.М. Адаптивное тестирование знаний в системе ZETest // Материалы международной научно-практической конференции «Состояние, проблемы и задачи информатизации в Казахстане», Усть-Каменогорск: ВКГТУ, 2005. – ч.2. – с. 105 – 109.

11.       Мутанов Г.М., Редикарцева Е.М. Математические модели конструирования педагогических тестов  // Вестник Восточно-Казахстанского государственного технического университета им. Д.Серикбаева, 2005. – № 2. – с. 110 – 114; Материалы международной научно-практической конференции «Состояние, проблемы и задачи информатизации в Казахстане», Усть-Каменогорск: ВКГТУ, 2005 . – ч.2. – с. 96 – 101.

12.       Мутанов Г.М., Редикарцева Е.М. Методы компьютерного адаптивного тестирования знаний // Материалы международной научно-практической конференции «Состояние, проблемы и задачи информатизации в Казахстане», Усть-Каменогорск: ВКГТУ, 2005. – ч.2. – с. 101 – 105.

13.       Редикарцева Е.М. Инновационные технологии контроля знаний // Материалы международной  научно-практической конференции «Инновационные технологии в образовании и науке», Петропавловск: СКГУ им. М.Козыбаева, 2005.  – т.1. – с. 151 – 155.

14.       Редикарцева Е.М. Сборник тестовых заданий по математике: учебно-методическое пособие для студентов экономических специальностей. Петропавловск: СКГУ им. М.Козыбаева, 2006. – 106 c.

15.       Редикарцева Е.М. Статистический анализ качества тестовых заданий  // Материалы международной  научно-практической конференции «Продукция высшей школы и её конкурентоспособность», Петропавловск: СКГУ им. М.Козыбаева, 2006. – т.2. – с. 123 – 126.

16.       Ахметжанов М.С., Шебелистова О.В., Редикарцева Е.М. Сборник тестовых заданий по математике: учебно-методическое пособие. Петропавловск: СКГУ им. М.Козыбаева, 2006. – 105 c.

17.       Қайрат Ж.Қ., Редикарцева Е.М. Математикадан тестік тапсырмалар жинағы (экономика мамандықтарының студенттері үшін): оқу-әдістемелік құрал. Петропавл: М.Козыбаев атандағы СҚМУ, 2006. – 110 б.

18.       Редикарцева Е.М. Конструирование адаптивных педагогических тестов // Материалы международной  научно-практической конференции «Педагогические измерения: состояние и перспективы развития», Астана: НЦГСОТ, 2006. – с. 279 – 286.

19.       Редикарцева Е.М. Адаптивное оценивание знаний  // Вестник Восточно-Казахстанского государственного технического университета им. Д.Серикбаева, 2006. – № 4. – с. 139 – 144.

20.       Мутанов Г.М., Редикарцева Е.М. Разработка компьютерной системы оценки знаний с адаптацией // Вестник КазГАСА, 2006. – № 4. – с. 182 – 187.

 

 


TYЙIН

Редикарцева Елена Михайловна

 

БІЛІМДІ БАҒАЛАУДЫҢ ӨЗДЕРІНШЕ ИКЕМДЕЛЕТІН

ЖҮЙЕСІН ӘЗІРЛЕУ

 

Техника ғылымдарының кандидаты ғылыми
дәрежесін алу үшін дайындалған диссертация

05.13.10 – Әлеуметтік және экономикалық жүйелердегі басқару

 

Қазіргі уақытта сынақтама бақылаудың анағұрлым технологиялық және объективті нысандарының бірі ретінде жаппай әлемнің көптеген елдерінде, соның ішінде Қазақстанда мамандарды дайындау және сертификациялау аумағында, сондай-ақ білім мониторингі және оның сапасын бағалау жүйесінде пайдаланылады. Білімді ақпараттандыру білімді бақылаудың сынақтамалық технологиясын елеулі түрде түрлендіруге және оларды сапалы өзге деңгейге көтеруге мүмкіндік берді. Әйткенмен де, білімді сапалы бағалау мәселесі көкейтесті болып табылады. Бақылау-бағалау процедураларының сапасын көтеру бағыттарының бірі тапсырманы ұсыну кезінде сынақталатындардың дайындалуының жеке ерекшеліктерін тез арада сезіну есебінен олардың бейімделуімен байланысты.

Диссертациялық жұмыстың мақсаты бақылау-бағалау процедураларының тиімділігін көтеру мүмкіндігін беретін компьютерлік  бейімденушілік сынақтама әдістерін әзірлеуде және оқушылардың білім деңгейін сәйкестендіруге мүмкіндік беретін білімді бағалаудың өздерінше икемделетін жүйесін жасауда, сондай-ақ сынақтама процесінде алынатын статистикалық ақпарат негізінде сынақтамалық база тапсырмаларына сапалы талдауды жүргізуде болып табылады. Осы мақсатқа жету үшін  жұмыста келесі міндеттер қойылып, шешілген:

-     білімді бағалау кезінде пайдаланылатын математикалық үлгілер мен құрастыру жүйесінің қажетті элементі болып табылатын сынақтамалық база үлгісі құрылған;

-     сынақтаманы өткізгенге дейін, сол сияқты одан кейін сынақтамалық тапсырмалар параметрлерінің мәнін сараптамалық және статистикалық әдістер негізінде бағалауға мүмкіндік беретін сынақтамалық тапсырмалар параметрлерін анықтаудың тәжірибеге байланыссыз және тәжірибеге негізделген әдістері әзірленген;

-     аз уақытта тәжірибеге байланыссыз тапсырылған нақтылықпен және сенімділікпен білім деңгейін бағалауға мүмкіндік беретін үлгілер жасалған, әдістер әзірленіп, зерттелген;

-     оқушының білім деңгейін сәйкестендіріп қана қоймай, сонымен бірге пайдалану процесінде сынақтамалық тапсырмалардың сапасын талдауды жүзеге асыруға мүмкіндік беретін білімді бағалаудың өздерінше иекемделетін жүйесі әзірленген.

Айтылып кеткен міндеттерді шешу үшін ықтималдық теориясының және математикалық статистика әдістері, жүйелік талдау, автоматтандырылған басқару теориясының, сынақтаманың классикалық және қазіргі заманғы теорияларының қағидалары пайдаланылды.

Жұмыс «Білімді бағалаудың әмбебап біте қайнастыру компьютерлік жүйесі» тақырыбы бойынша 002 «Іргелі және қолданбалы ғылыми зерттеулер» бағдарламасы бойынша Қазақстан Республикасы Білім және ғылым министрлігінің мемлекеттік тапсырысы аясында орындалған.

Диссертациялық жұмыстың негізгі нәтижелері:

-     педагогикалық өлшеудің бүгінші күндегі математикалық үлгілері, қарастырылған, білім дейгейін бағалаудың өздерінше икемделетін жүйесін әзірлеу үшін оларды пайдалану мүмкіндігі талданған;

-     тәжірибелік қосымшаларда  үш параметрлі логистикалық  IRT-үлгілерді пайдалану қажеттілігі дәлелденген, өзгелердени басқа, қиындық, саралау қабілеттілігі және дұрыс жауапты шешу ықтималдығы (үшпараметрлі логистикалық IRT-үлгіге сәйкес) сияқты параметрлермен сипатталатын  сынақтамалық тапсырмалардың бас жиынтығынан стратифициялық іріктеу ретінде қаралатын сынақтамадан өзгеше сынақтамалық база үлгісі құрылған;

-     пилотаждық сынақтаманы өткізгенге дейін сынақтама тапсырмасының қиындығын және сынақтама тапсырмасында дұрыс жауапты шешу ықтималдығын бағалауға мүмкіндік беретін сарапшылық бағаларға негізделген сынақтамалық тапсырмалар параметрлерін анықтаудың   тәжірибеге байланыссыз әдістері әзірленген;

-     ұяқалып нәтижелері бойынша, соның ішінде сиретілген ұяқалып бойынша  сынақтамалық тапсырманың дифференциялық қабілетін, сынақтамалық тапсырманың қиындығын және сынақтамалық тапсырмадағы дұрыс жауапты табу ықтималдығын бағалауға мүмкіндік беретін барынша көп қисынды әдіс бағаларына негізделген сынақтамалық тапсырмалар параметрлерін анықтаудың тәжірибеге негізделген әдістері әзірленген;

-     табу параметрінің барлығымен ерекшеленетін сынақтама нәтижелеріндегі білім деңгейі туралы ақпарат мөлшерін анықтауға мүмкіндік беретін сынақтамалық тапсырманың және сынақтаманың ақпараттық үлгісі жасалған;

-     нақтылықпен және сенімділікпен қойылған тәжірибеге байланыссыздықпен бірге білім деңгейін анықтауға мүмкіндік беретін статистикалық бақылау қағидаларына негізделген білім деңгейін бағалау әдістері әзірленген, ұсынылған әдіс тиімділігін дәстүрлі әдіспен салыстырмалы бағалау жүргізілген;

-     сенімгерлік аралықтарды және сынақтаманың ақпараттық функциясын максимизациялауды құруға негізделген білім деңгейін бағалау алгоритмі әзірленіп, бағдарламалық іске асырылған;

-     аз уақытты шығындай отырып, тапсырылған нақтылықпен және сенімділікпен оқушылардың білім деңгейін бағалауға, сондай-ақ сынақтама процесінде алынған статистикалық ақпарат негізінде сынақтамалық база тапсырмаларына сапалы талдау жүргізуге мүмкіндік беретін білім деңгейін бағалаудың өздерінше икемделетін жүйесі әзірленген.

Алынған ғылыми нәтижелер Манаш Қозыбаев атындағы Солтүстік Қазақстан мемлекеттік университетінің және Солтүстік Қазақстан облыстық дарынды балалар үшін мамандырылған ЛОРД мектеп-лицейінің оқу процесіне енгізілген.


 

THE SUMMARY

 

of Redikartseva Yelena

 

DEVELOPMENT OF SELF-TUNING SYSTEM OF KNOWLEDGE EVALUATION

 

05.13.10 –  Management in the social and economic system

 

The dissertation is presented for the scientific

degree of candidate of engineering sciences

 

At the present time, multiple-choice testing is one of the most technological and objective form of control which is used in many countries including Kazakhstan, in the spheres of training and certification of specialists, and also in the system of monitoring and evaluation of education quality.  Informatization of education allowed significant improvement of test technologies of knowledge control and raised it on qualitatively new level.  Never the less, the problem of quality of knowledge evaluation still exists.  One of the ways to improve the control and evaluation procedures quality relates to their adaptation by an immediate reaction to individual characteristics of a person tested at the moment of offering a test item.  

The purpose of the dissertational work is to develop methods of computer-adaptive testing which improve effectiveness of control and evaluation procedures, and to create self-tuning system of knowledge evaluation which allows identifying the level of students’ knowledge, and also on the basis of statistical information received during the process of testing, performing qualitative analysis of the multiple-choice tests.  For this purpose, the work was built on and solved the following tasks:

-     performed analysis of existing mathematical models and methods used in evaluation of knowledge, built a model of test base which is necessary element for the system of designing adaptive tests;

-     developed a priori and a posteriori methods of determination of test items parameters which, on the basis of expert and statistical methods, allow evaluating of the test items parameters before and after the test;

-     built models, developed and studied methods which allow evaluating the level of knowledge with priory set precision and accuracy within the limited time;

-     developed self-tuning system of knowledge evaluation which allows identifying the level of knowledge of students and also analyzing the quality of the test items during the process of exploitation. 

For achievement of the enlisted tasks we used methods of theory of probability and mathematical statistics, principles of systematic analysis, theory of automated management, Classical Test Theory and Item Response Theory.  

The work is performed within the frames of governmental offer of the Ministry of education and science of the Republic of Kazakhstan under the program 002 “Fundamental and applied scientific research” on the topic “Universal integrated computer system of knowledge evaluation.”

Main results of the dissertational thesis:

-     considered exiting mathematical models of pedagogical measuring, analyzed possibilities of their utilization for development of self-tuning system of knowledge level evaluation;

-     approved necessity of utilization of three-parametrical logistical IRT-model in practical applications, built a model of a testing base which has a test considered as a stratified choice from a general set of test items which, besides other parameters, are characterized by difficulty parameter, discrimination parameter and "guessing" parameter (according to the three-parameters logistic IRT-model);

-     developed prior methods of determination of testing parameters based on expert evaluations which allow evaluating difficulty of test item and probability of guessing of the right answer before the pilot testing performance;

-     developed a posteriori methods of determination of testing items parameters based on evaluation of a method of maximum likelihood which allow evaluating item difficulty parameter, item discrimination parameter, and "guessing" parameter of test item based on the results’ matrix, including expanding one;

-     built informational model of test item and test which allow determination of quantity of information about the level of knowledge contained in the results of the testing, which differs by the parameter of guessing;

-     developed a method of evaluation of knowledge level based on the principles of statistical evaluation which allows determination of knowledge level with a priori set precision and accuracy, made a comparative analysis of effectiveness of the offered and traditional methods;

-     developed and performed in a program an algorithm of evaluation of level of knowledge based on projecting of trusting intervals and maximization of informational function of the test;

-     developed self-tuning system of knowledge level evaluation which is able to evaluate knowledge level of students within the minimum time frames with priory set precision and accuracy, and on the basis of statistical information received during the test, make a qualitative analysis of the testing database.

Received scientific results were implemented into educational process of North-Kazakhstan State University named after Manash Kozybayev and North-Kazakhstan oblast specialized school-lyceum for talented children LORD.