Тел.: (812) 643-77-67 | Mail: fit.herzen.conf@gmail.com

Поиск по сайту

Нымм В.Р.,
Пиотровская К.Р.,
Еремеева Ю.П.,
Макогон И.С.

РГПУ им. А.И. Герцена
г. Санкт-Петербург
jetnomm@gmail.com, krp62@mail.ru, pavloffna@bk.ru

Методы статистики и компьютерная лингводидактика


Nymm V.,
Piotrowska X.,
Yeremeeva Y.,
Makagon I.

HSPU
St. Petersburg, Russia

Methods of statistics and CALL-technologies

The using of statistical methods for evaluation and comparison of dif-ferent learning management algorithms are under discussion. Text-mining se-lection of learning content in the context of CALL-problem research are re-views.

Междисциплинарная группа из РГПУ им. А.И. Герцена проводит научно-педагогические исследования по проблеме компьютерного обучения иностранным языкам в течении последних 10 лет. В качестве основного инструмента исследований используется разработанная на филологическом факультете программа компьютерного обучения и тестирования, объединяющая в единой оболочке функциональные модули, реализующие практически все основные типы упражнений типа “стимул - реакция”, на основе которых строятся практически все современные учебники иностранного языка.

В соответствии с [5], задача компьютерного обучения, реализуемого в рамках упражнений типа “стимул – реакция”, трактуется нами как задача управления, где в качестве объекта управления выступает обучаемый, в качестве управляющего устройства – компьютерная обучающая программа, а обучение рассматривается как процесс организации такого целенаправленного воздействия на обучаемого, в результате которого он (обучаемый) переходит в требуемое (целевое) состояние.

В качестве неделимого объема (или кванта) такого воздействия рассматривается акт выполнения обучаемым одного единственного упражнения, реализуемый по сценарию, который включает следующие три шага:
– предъявление обучаемому стимула упражнения в форме текста задания и контекста;
– ввод обучаемым ответа на предъявленное задание (т.е. его реакция на предъявленный стимул);
– реакция обучающей системы на ответ обучаемого в форме вывода сообщения, подтверждающего правильность ответа, если он был таковым, или в форме верного ответа и объяснения, почему ответ должен быть именно таким – в противном случае.

Тогда под термином “управление процессом обучения” естественно понимать функцию или алгоритм выбора каждого очередного упражнения, зависящий от реакций обучаемого в ходе предыдущего обучения.

Каждый такой алгоритм реализует определенные цели, т.е. решает некоторую задачу. В качестве целей обучения нами рассматриваются следующие две. Первая цель определяет желаемое состояние обучаемого на момент завершения процесса обучения и выражается в форме неравенства Q(p)

Учитывая тот факт, что связь между сформулированными целями довольно опосредована, решение задачи перемещается в область поиска эвристического построения, интуитивно близкого к “гипотетически оптимальному” и обеспечивающего достаточно быструю сходимость функционала Q(p) к пороговому значению q. Что же касается сравне-ния различных алгоритмов, то оно осуществляется на основе значений статистических характеристик, вычисление значений которых выполняется на основе информации, которую обеспечивают встроенные в программу средства сбора данных о ходе обучения.

В качестве примера реализации такого подхода рассмотрим алгоритм [4], построенный на базе одноэлементной модели обучения парным ассоциациям. В основе модели, предложенной в [2], лежит утверждение о том, что ассоциация, связывающая стимул и реакцию, не может формироваться частично или постепенно. Предполагается, что, однажды возникнув, ассоциация сохраняется в течение длительного времени, и обучаемый будет давать верный ответ при каждом новом предъявлении ему стимула. Для одноэлементной модели состояние обучаемого в любой момент времени описывается вектором p(t)=(p1(t),p2(t),...,pn(t)), каждая координата которого имеет значение 0, если по i-му упражнению ассоциация не сформирована, и значение 1 – в противном случае.

Для задачи обучения лексике иностранного языка в качестве критерия завершения обучения по каждому отдельному упражнению рассматривается событие, состоящее в том, что на одном и сеансов обучаемый дает верный ответ с первого же в ходе текущего сеанса предъявления стимула этого упражнения. Если считать, что в день реализуется не более одного сеанса, то это означает, что верный ответ с первого раза был дан не менее, чем через 24 часа после предыдущего предъявления этого стимула. Обучение в целом считается завершенным, когда значения всех координат вектора p, вектора параметров состояния обучаемого, станут равными 1.

Эффективность алгоритма оценивалась по результатам экспери-мента, в котором принимала участие группа из 50 студентов филологического факультета. Материал изучения включал 100 языковых клише (устойчивых словосочетаний, вводных конструкций и т.п.) по общена-учной тематике. Процесс обучения осуществлялся в ходе последовательных сеансов. Интервал времени между сеансами у разных студентов колебался от 24 до 72 часов. На основе обработки данных были получе-ны следующие результаты. Среднее число предъявлений стимула (по группе в целом), которое потребовалось для завершения обучения по одному упражнению, оказалось равным 4,64. Разброс этого показателя для отдельных обучаемых достаточно велик: от 2.72 до 7.81, стандартное отклонение – 1.57.

Среднее число сеансов, в ходе которых эти предъявления реализовывались, оказалось достаточно малым – всего 1.91. Это означает, что “выучивание” правильного ответа в среднем осуществлялось примерно за два сеанса так, что на третьем сеансе обучаемый мог воспроизвести правильный ответ с первого раза. Разброс значений этого показателя так же достаточно мал: от 1.51 до 2.37, стандартное отклонение – 0.32.

Несмотря на то, что процедура тестирования была достаточно утомительной (она проводилась по всему материалу обучения, а не по выборке из него, как это делается обычно), результаты обучения оказались более чем оптимистичными. Доля правильных ответов для разных обучаемых оказалась в диапазоне от 0.61 до 0.9, среднее значение – 0.779, стандартное отклонение – 0.0832.

Не меньшую роль играет широкое использование статистических методов при формировании контента обучения систем компьютерного обучения. Хотя объективные методы отбора учебных терминологических единиц (например, статистико-вероятностный подход, получивший свое развитие в работах научных школ Р.Г. Пиотровского и Р. Кёллера) известны с шестидесятых годов XX века [1], до сих пор отбор терминологических единиц производится подчас субъективно, исключительно с опорой на личный опыт и интуицию преподавателя или исследователя. Особенно остро эта проблема стоит при изучении профессионально ориентированного языка и связана с ускоряющимися темпами информа-ционного обмена и появлением новых специализированных подъязыков, с лексико-грамматическим составом, не описанным в традиционных учебниках. Сегодня статистико-вероятностный подход переживает некоторое возрождение и в России [3], и за рубежом, на что указывают, например, работы группы исследователей из Японии и Новой Зеландии. Эта группа создала ряд открытых и довольно надежных сервисов, под названием AntConc, которые активно используются в корпусных исследованиях [6, 7].

Целевое назначение программ, входящих в семейство программ AntConc следующее:
1) AntConc: конкордансер (частотный словарь, коллокации, конкорданс);
2) AntPConc: построитель параллельных текстов для последующего анализа текста и построения конкордансов;
3) AntMover: анализатор семантической структуры текста;
4) AntWordProfiler: профилирования словаря и проверки сложности тек-ста;
5) ProtAnt: инструмент для поиска файла прототипа;
6) TagAnt: инструмент для теггирования по частям речи;
7) AntFileConverter, EndCodeAnt, VariAnt: сервисные программы (перекодировка символов, спеллеров и подготовка формата текстов к последующей обработке).

Рис.1. Технологическая цепочка по обработке текста с помощью про-грамм семейства AntConc.

В настоящее время на базе этих сервисов нами разрабатывается технологическая цепочка операций по квантитативному отбору содержания обучения и созданию информационного обеспечения программы (см рис. 1). Предварительно студент должен перевести заранее отобранные тексты в нужный формат, используя программы AntFileConverter, EndCodeAnt и VariAnt. Далее с помощью программы AntConc построить частотный словарь, выделить ключевые слова и выявить устойчивые словосочетания с ключевыми словами. Объем исследуемых текстов далее наращивается путем использования программы ProtAnt по введенным ключевым словам, которые выявлены на предварительном этапе или по эталонному тексту. Эта программа осуществляет отбор текстов наиболее близких по лексическому составу к поставленной учебной задаче (см. рис. 2). После этого необходимо вернуться снова к работе по лингвостатическому исследованию в программе AntConc, но уже расширенного состава учебных текстов, а также к профилированию полученного словаря и разметке текстов (см. рис. 3). Для удобства формирования учебных упражнений с помощью программы AntMover производится фрагментация и структурно-семантическая разметка текстов по предложениям с сохранением каждого предложения в отдельный файл. Далее программой ProtAnt снова обрабатываются уже файлы отдельных предложений и выявляются те из них, которые по лексическому или грамматическому составу подходят для генерации упражнений в CALL – программу (см. рис. 4).

Организованный комплекс уже выступает в виде поддержки в реализации таких дисциплин как «Квантитативная лингвистика и новые информационные технологии», «Компьютерная лингводидактика», «Новые информационные технологии в филологии», «Сетевой инструментарий лингвиста». Описанная выше работа ведется на базе филологического факультета, лаборатории инженерной лингвистики и института компьютерных наук и технологического образования РГПУ им. А.И. Герцена и сосредоточена на создании сетевой версии программной системы на базе языка Python.

Литература:
1. Алексеев П. М., Герман-Прозорова Л. П., Пиотровский Р. Г., Ще-петова О. П. (1974) Основы статистической оптимизации преподавания иностранных языков // Статистика речи и автоматический анализ текста. Л.: Изд. ЛГПИ. - С. 209
2. Аткинсон Р., Бауэр Г., Кротерс Э.(1969) Введение в математиче-скую теорию обучения, М.: Мир
3. Лаздинь Т. А.(2009) Основы статистической оптимизации препода-вания иностранных языков //Вестник Санкт-Петербургского университе-та. Сер. 9. Вып. 3.СПб: Изд. СПбГУ
4. Нымм В.Р., Пиотровская К.Р., Быстрая В.А. (2015) CALL – тех-нологии: управление процессом обучения языку // Высокотехнологич-ная образовательная среда. Сборник статей Международной научно-практической конференции, СПб.: ООО «Книжный дом», С. 172 – 179
5. Растригин Л.А. (1988) Адаптивное обучение с моделью обучаемо-го. / Л.А. Растригин, М.Х. Эренштейн. - Рига: Изд. Зинатне. -160 с
6. Anthony L., Baker P. (2015, July). ProtAnt: A Freeware Tool for Au-tomated Prototypical Text Detection. In F. Formato and A. Hardie (Eds). Proceedings of Corpus Linguistics 2015 Lancaster, UK: Lancaster Universi-ty. Pp. 24-26
7. Nation P., Anthony L. (2016) Measuring vocabulary size. In Handbook of Research in Second Language Teaching and Learning, Volume III, E. Hin-kel (Ed.) New York: Routledge, 2016

Комментарии

Оставьте свой комментарий