Тел.: (812) 643-77-67 | Mail: fit.herzen.conf@gmail.com

Поиск по сайту

Тербушева Е.А.
СПбГУ
Санкт-Петербург
ekatherina88@mail.ru

Компьютерные программы для интеллектуального анализа данных как инструментарий преподавателя в его повседневной деятельности и элемент профессиональной компетенции


В статье рассматриваются возможности и особенности применения техник интеллектуального анализа данных в педагогической деятельности, анализируются причины, затрудняющие освоение и использование соответствующих инструментов в настоящий момент. Также приводится пример использования программы Weka для анализа данных учащихся.

Terbusheva E.A.
St. Petersburg State University,
St. Petersburg, Russia
ekatherina88@mail.ru

Computer programs for data mining as a teacher's tool in its day-to-day activities and an element of professional competence

The article considers the possibilities and features of the data mining application in pedagogical activity, analyzes the reasons that make it difficult to learn and use the relevant tools at the moment. An example of the use of the Weka program for student data analyzing is also given.

В связи со стремительным развитием информационных и коммуникационных технологий (ИКТ), их активным внедрением в учебный процесс, повышаются и требования к уровню владения ИКТ преподавателем. Для построения эффективного учебного процесса (в том числе индивидуализации обучения, корректировки учебных и контрольных материалов) необходимо уметь анализировать множество данных, поведение и производительность учеников, учебные планы, тесты и опросы, данные о шагах и результатах обучаемых из таких источников, как дистанционные и онлайн курсы, обучающие программы, электронные учебники. Кроме того, современные стандарты предъявляют требования к организации исследовательских работ учащихся. Необходимыми являются умения педагога контролировать и оценивать процесс и результаты их выполнения. Одним из важнейших шагов исследовательской деятельности является анализ экспериментальных данных. Таким образом, умение анализировать данные является неотъемлемой частью профессиональной компетенции педагога и применяется как для оценки и корректировки собственной деятельности, так и для организации исследовательских работ обучаемых по различным направлениям.

Для анализа данных на современном уровне все чаще используются методы и средства интеллектуального анализа данных (ИАД). Алгоритмы ИАД позволяют обнаруживать нетривиальные и заранее неочевидные закономерности в данных. Методы ИАД для преподавателя могут быть использованы []:

  • для анализа образовательных данных для организации процесса обучения
    • с помощью методов классификации (прогнозирование значения некоторого категориального атрибута, который описывает студента. Например: предсказание итоговых оценок студентов с целью выявить отстающих и назначить им дополнительное задание; предсказание оценок по лог-файлам в Moodle или по активности студентов в дистанционной системе; классификация студентов на 3 группы с низким, средним и высоким риском провала (т.е. предсказание значения риска)
    • с помощью методов кластеризации (т.е. разбиения множества объектов на группы схожих объектов. Например: выявление студентов в схожих ситуациях для выработки модели рекомендаций; разделение всех студентов на группы для выполнения групповых проектов; выявление нетипичного поведения или студентов (когда объекты оказываются в очень маленьких кластерах)
    • с помощью методов нахождения ассоциативных правил (для обнаружения шаблонов в данных теста)
  • для организации и консультирования исследовательских работ учащихся (для учащихся различных специальностей, т.е. для анализа данных различных научных областей)

В связи с активным развитием и внедрением алгоритмов интеллектуального анализа данных, является логичным предположить, что в будущем данные методы будут встроены в различные учебные системы. Тем не менее, для их эффективного использования, в любом случае необходимо иметь представление о возможностях методов интеллектуального анализа данных, способах использования добываемой информации, настройках ключевых параметров алгоритмов.

Особенностью данных, которые нужно анализировать преподавателю является их маленький объем. Например, данные тестов или лог-файлы работы обучаемых в некоторой системе на группу 15-30 человек. В некоторых случаях это данные нескольких групп или накопленные за несколько лет обучения. В любом случае такие наборы считаются маленькими, когда речь идет об интеллектуальном анализе данных. Многие алгоритмы ИАД лучше работают на гораздо больших наборах данных. Это накладывает некоторые ограничения на область подходящих техник.

В настоящее время существует достаточное количество компьютерных программ для интеллектуального анализа данных, распространяемых свободно. Например, Weka, RapidMiner, Knime, Orange и другие. Несмотря на то, что дисциплины по интеллектуальному анализу данных активно вводятся в учебные программы, они пока носят больше теоретический характер. Практических учебных материалов по применению методов и средств ИАД на русском языке недостаточно.

Причины, затрудняющие освоение компьютерных программ по ИАД:
- отсутствие русскоязычного интерфейса у большинства свободно распространяемых программ для интеллектуального анализа данных, русскоязычных справочников по данным системам.
- недостаточность литературы на русском языке по современным программам анализа данных
- недостаточность образовательных данных в открытом доступе для обучения и экспериментов (нет единого интегрированного хранилища данных)
- необходимость в знаниях методов мат. статистики и овладении задачами и методами интеллектуального анализа данных, разработке и внедрение соответствующих учебных дисциплин.
- отсутствие методики преподавания интеллектуального анализа данных будущим специалистам-педагогам.

Приведем пример использования программы Weka, который демонстрирует реалистичность освоения подобных сред интеллектуального анализа данных и их возможное применение. В табл. 1 приведены данные для 28 учащихся выпускного класса. Данные являются небольшой выборкой данных, собранных и анализируемых в работе []. Полный набор данных с описанием доступен на ресурсе Machine Learning Repository [].

Таблица 1. Данные 28 выпускников.

Первая часть файла - объявление переменных

Вторая часть файла - данные

@relation student

@attribute FamilySize {GT3,LE3}
@attribute ParentEducation {1,2,3,4}
@attribute Reason {course,other,house,reput}
@attribute StudyTime {0-1,2-5,6-10,10+}
@attribute Failures {0,1,2,3,4}
@attribute PaidClass {no,yes}
@attribute Internet {no,yes}
@attribute FamilyRelation {1,2,3,4,5}
@attribute FreeTime {1,2,3,4,5}
@attribute Alcohol {1,2,3,4,5}
@attribute Health {1,2,3,4,5}
@attribute Absences numeric
@attribute Test1 numeric
@attribute Test2 numeric
@attribute TestFinal numeric

@data
GT3,4,course,2-5,0,no,no,4,3,1,3,6,5,6,6
GT3,1,course,2-5,0,no,yes,5,3,1,3,4,5,5,6
LE3,1,other,2-5,3,yes,yes,4,3,2,3,10,7,8,10
GT3,4,house,6-10,0,yes,yes,3,2,1,5,2,15,14,15
GT3,3,house,2-5,0,yes,no,4,3,1,5,4,6,10,10
LE3,4,reput,2-5,0,yes,yes,5,4,1,5,10,15,15,15
LE3,2,house,2-5,0,no,yes,4,4,1,3,0,12,12,11
GT3,4,house,2-5,0,no,no,4,1,1,1,6,6,5,6
LE3,3,house,2-5,0,yes,yes,4,2,1,1,0,16,18,19
GT3,3,house,2-5,0,yes,yes,5,5,1,5,0,14,15,15
GT3,4,reput,2-5,0,yes,yes,3,3,1,2,0,10,8,9
GT3,1,reput,6-10,0,no,yes,5,2,1,4,4,10,12,12
LE3,4,course,0-1,0,yes,yes,4,3,1,5,2,14,14,14
GT3,4,course,2-5,0,yes,yes,5,4,1,3,2,10,10,11
GT3,4,house,0-1,0,no,yes,4,4,1,2,4,14,14,14
GT3,4,reput,6-10,0,yes,yes,3,2,1,2,6,13,14,14
GT3,3,reput,2-5,0,no,no,5,3,1,4,4,8,10,10
GT3,3,course,0-1,3,no,yes,5,5,2,5,16,6,5,5
LE3,3,house,0-1,0,yes,yes,3,1,1,5,4,8,10,10
GT3,4,reput,2-5,0,no,yes,4,4,1,1,0,13,14,15
GT3,4,other,0-1,0,yes,yes,5,4,1,5,0,12,15,15
LE3,4,course,2-5,0,no,yes,4,5,1,5,2,15,15,16
LE3,2,reput,2-5,0,no,yes,5,4,2,5,0,13,13,12
GT3,2,house,0-1,2,yes,yes,1,2,1,5,14,6,9,8
GT3,2,house,0-1,0,yes,yes,4,2,1,5,2,12,12,11
GT3,4,other,0-1,0,yes,yes,2,2,2,1,4,15,16,15
LE3,3,house,2-5,0,no,yes,5,3,1,5,4,11,11,11
GT3,4,house,2-5,0,yes,yes,4,4,5,5,16,10,12,11

Посмотрим, возможно ли предсказать результаты итогового теста учащихся на основе имеющейся информации.
Для этого можно выполнить следующие шаги:
1) перенести данные из табл. 1 в текстовый редактор блокнот и сохранить как student.arff в кодировке по умолчанию (ANSI).
2) запустить программу Weka и выбрать модуль Explorer
3) на вкладке Preproces загрузить данные (файл student.arff) с помощью кнопки Open file.
4) выполнить дискретизацию численных атрибутов, т.к. некоторые алгоритмы классификации работают только на категориальных атрибутах. Для этого на вкладке Preproces выбрать Filter->weka->filters->unsupervised->attribute->Discretize и в параметрах указать индексы численных атрибутов (13-15) и число промежутков, на которые они разбиваются (мы использовали 4).
5) перейти на вкладку Classify и выбрать алгоритм классификации, иначе классификатор. Примеры результатов работы алгоритмов в виде деревьев решений представлены на рисунках ниже.

Рис. 1. Алгоритм trees->J48 (на всех атрибутах). Точность классификации - 89%.

Рис. 2. Алгоритм trees->J48 (без данных Test1 и Test2 ). Точность классификации - 71%.

6) проанализировать полученные результаты.

Как видим из рисунков, в построенных в результате выполнения алгоритмов классификации деревьях решений присутствуют не все доступные атрибуты, а только наиболее значимые. Так, из рис. 1 можно заключить, что результаты итогового теста очень схожи с результатами промежуточного теста. Если учащиеся, которые набрали мало баллов в первом тесте (от 0 до 7 баллов), занимались дополнительно, то в итоговом тесте смогли улучшить свои результаты. Из студентов, которые набрали в первом тесте больше 8 баллов, наибольшие итоговые баллы получили те учащиеся, родители которых имеют высшее образование. На рис. 2 ключевыми атрибутами являются образование родителей, дополнительные занятия и также время, расходуемое на учебу в неделю. Другие алгоритмы предлагают другие решения. Анализируя их совокупность, можно сделать более детальные выводы.

Основываясь на проведенном анализе можно, например:
- разделить учащихся на две группы, условно сильную и слабую на основе анкеты об образовании родителей, времени, затрачиваемом на учебу и информации о том, собирается ли обучаемый заниматься дополнительно. Ввести различные методики обучения для данных групп или ввести дополнительные домашние задания или занятия для слабой группы.
- наоборот сформировать равные группы с примерно одинаковым количеством потенциально слабых и сильных учеников.
- дать рекомендации по дальнейшему обучению на основе результатов первого теста.

В заключение отметим, что программы для ИАД могут быть полезны преподавателю. Освоение подобных программ становится необходимой частью профессиональной компетентности педагога в век информационных технологий. Для изучения техник и сред ИАД требуются соответствующие дисциплины и методики их преподавания, курсы повышения квалификации, практические пособия по применению соответствующего инструментария.

Литература:
1. Пиотровская К.Р., Тербушева Е.А. Интеллектуальный анализ данных в педагогической аналитике. Техническое творчество молодежи. 2016. № 2 (96). С. 10-14.
2. Cortez P., Silva A. Using data mining to predict secondary school student performance. Proceedings of 5th Annual Future Business Technology Conference, Porto, 2008, p. 5-12.
3. Machine Learning Repository. https://archive.ics.uci.edu/ml/datasets/Student+Performance#

Комментарии

  • AntoniophymN пишет:

    Открылся новый магазин все по 50 рублей, например определенный товар стоит 5000 рублей или 7000 рублей то у нас вы можете найти его всего за 50 рублей: http://shop-50-rubley.xyz магазин ежедневно пополняется, к концу недели будет очень богатый ассортимент.

  • Herbertnum пишет:

    Hot sale! E-gift card amazon with a face value of $ 2000 for only $ 500. https://amazonegiftcardcheap.wordpress.com The promotion will last until July 31, 2017. After July 31, the price will be $ 1000 https://amazonegiftcardcheap.wordpress.com

  • GeorgeDrash пишет:

    http://forums.orangineers.com/viewtopic.php?f=2&t=21127 http://novocad.ru/kollizii-v-revit-i-navisworks.html http://rknw.pl/forum/viewtopic.php?f=8&t=1134980 http://forum.autoecolepratique.com/viewtopic.php?f=4&t=188953 http://wishmaster2-0.myjino.ru/forum/index.php?topic=174731.new#new http://clubseatgdl.com.mx/foro/viewtopic.php?f=20&t=6063 http://forum.dvchess.ru/viewtopic.php?f=17&t=42991 http://dmitrovka139.ru/viewtopic.php?f=7&t=297755 http://forums.orangineers.com/viewtopic.php?f=17&t=21858 http://diaps.fr/forum/phpBB3/viewtopic.php?f=8&t=193999 http://fallenfrontiers.com/forum/viewtopic.php?f=2&t=3335 http://moosehill.nu/member.php?action=profile&uid=1252 http://www.alcoforum.com/viewtopic.php?f=25&t=3221 http://maddenpcmod.123forum.co.uk/viewtopic.php?f=20&t=9528 http://libria.su/librarium-elementum/forum/viewtopic.php?f=15&t=13154

  • Не согласен в части Machine Learning - здесь концентрация идет не только на алгоритмах и языках реализации...В Machine Learning визуализация поставлена великолепно, ей уделено должное внимание...Просто Machine Learning - в некоторых вопросах пересекается с ИАД...В части Data Mining - мне еще на заре студенчества давали курс на данную тему (я, естественно технарь и заканчивал аэрокосмический ВТУЗ). Из того что я читал на данную тему, и из того что мне преподавали, выражу свое субъективное мнение на счет Data Mining. Первое - это не подход, не метод и даже не способ исследования...Это своеобразное философское течение, работающее на базе нескольких постулатов, направленное в широком смысле слова на поиск закономерностей в необработанных разнородных данных, не подчиняющихся ЦЕНТРАЛЬНОЙ ПРЕДЕЛЬНОЙ ТЕОРЕМЕ ТЕОРИИ ВЕРОЯТНОСТИ, иначе бы всех отсылали к теор веру - и все, а далее Нормальный закон распространения, максимум правдоподобия и т. д....То есть тем самым Data Mining как бы искусственно уходит от классической математики...К Data Mining можно отнести условно и регрессионный и кластерный анализ, и ИАД, и Machine Learning, и эвристические алгоритмы поиска...Вот в этом вопросе мы с Вами расходимся...Просто я практик и мне давали в университете курс Data Mining с конкретными приложениями, с решением задач, при этом использовались стандартные пакеты математики, статистики...отсюда я и делаю вывод, что Data Mining - это синтезированное направление, более философское, нежели фундаментальное, оно ничего не дает в практическом плане, только теоретически!!! Отсюда и вопросы...А вот понять и почувствовать, что же в себе кроме постулатов и привнесенных из разных отраслей науки алгоритмов, несет это направление - крайне сложно!

  • пишет:

    Здравствуйте! Спасибо за Ваше внимание к работе. В зарубежной науке выделяется такая научная область, как Data Mining (это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности). В русскоязычной литературе устойчивым переводом данного термина стал "Интеллектуальный анализ данных". В ИАД используются достижения из различных областей, в том числе и статистики, и машинного обучения, с целью обнаружения полезных закономерностей. На мой взгляд, Машинное обучение больше концентрируется на алгоритмах, а Интеллектуальный анализ данных, на их приложении. В ИАД входят также и методы предварительной обработки данных, визуализации, поиска ассоциативных правил, не входящие в область машинного обучения. Поэтому термин ИАД является более широким. Совершенно верно, что можно использовать статистические пакеты. Но методы класификации/кластеризации/визуализации не относятся к стандартным статистическим методам, а сейчас активно включаются в статистические программы как дополнительные модули для анализа данных. Поэтому м.б. создается впечатление, что это все статистика. Также, статья не является "технической", не акцентрируется на деталях алгоритмов или их точности. Целью было показать возможность и реалистичность использования подобных методов для всех преподавателей, а не только специалистов в области ИТ. С этой же целью пример приведен на бесплатной программе Weka в то время как большинство известных статистических программ платные.

  • Здравствуйте. Очень интересная статья. Простите, в связи с тем, что в отечественной науки до сих пор нет единого определения понятия "Интеллектуальность"...и в Вашей статье не предложен Ваш вариант определения - не совсем понятно, относится ли кластерный и регрессионный анализ к интеллектуальному анализу или нет...На мой взгляд - не относятся...Корректнее было бы использовать вместо термина "ИАД" в данном случае термин "Машинное обучение" (англ. Machine Learning) — класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решению множества схожих задач... Также целесообразно рассмотреть классический пример ИИ - Нейронные сети и/ или нейронные облака (распределенные удаленные вычисления на базе нейросетей). Из примера с деревьями, что Вы представили - интеллектуальность ну никак "не прорисовывается". Данную достоверность классификации можно получить используя стандартные статистические методы...тоже самое можно сказать и в части прогноза...В остальном согласен, ИАД как аппарат поддержки принятия преподавателем решения - безусловно нужен...

Оставьте свой комментарий