Тел.: (812) 643-77-67 | Mail: fit.herzen.conf@gmail.com

Поиск по сайту

Тербушева Е.А.
СПбГУ
Санкт-Петербург
ekatherina88@mail.ru

Компьютерные программы для интеллектуального анализа данных как инструментарий преподавателя в его повседневной деятельности и элемент профессиональной компетенции


В статье рассматриваются возможности и особенности применения техник интеллектуального анализа данных в педагогической деятельности, анализируются причины, затрудняющие освоение и использование соответствующих инструментов в настоящий момент. Также приводится пример использования программы Weka для анализа данных учащихся.

Terbusheva E.A.
St. Petersburg State University,
St. Petersburg, Russia
ekatherina88@mail.ru

Computer programs for data mining as a teacher's tool in its day-to-day activities and an element of professional competence

The article considers the possibilities and features of the data mining application in pedagogical activity, analyzes the reasons that make it difficult to learn and use the relevant tools at the moment. An example of the use of the Weka program for student data analyzing is also given.

В связи со стремительным развитием информационных и коммуникационных технологий (ИКТ), их активным внедрением в учебный процесс, повышаются и требования к уровню владения ИКТ преподавателем. Для построения эффективного учебного процесса (в том числе индивидуализации обучения, корректировки учебных и контрольных материалов) необходимо уметь анализировать множество данных, поведение и производительность учеников, учебные планы, тесты и опросы, данные о шагах и результатах обучаемых из таких источников, как дистанционные и онлайн курсы, обучающие программы, электронные учебники. Кроме того, современные стандарты предъявляют требования к организации исследовательских работ учащихся. Необходимыми являются умения педагога контролировать и оценивать процесс и результаты их выполнения. Одним из важнейших шагов исследовательской деятельности является анализ экспериментальных данных. Таким образом, умение анализировать данные является неотъемлемой частью профессиональной компетенции педагога и применяется как для оценки и корректировки собственной деятельности, так и для организации исследовательских работ обучаемых по различным направлениям.

Для анализа данных на современном уровне все чаще используются методы и средства интеллектуального анализа данных (ИАД). Алгоритмы ИАД позволяют обнаруживать нетривиальные и заранее неочевидные закономерности в данных. Методы ИАД для преподавателя могут быть использованы []:

  • для анализа образовательных данных для организации процесса обучения
    • с помощью методов классификации (прогнозирование значения некоторого категориального атрибута, который описывает студента. Например: предсказание итоговых оценок студентов с целью выявить отстающих и назначить им дополнительное задание; предсказание оценок по лог-файлам в Moodle или по активности студентов в дистанционной системе; классификация студентов на 3 группы с низким, средним и высоким риском провала (т.е. предсказание значения риска)
    • с помощью методов кластеризации (т.е. разбиения множества объектов на группы схожих объектов. Например: выявление студентов в схожих ситуациях для выработки модели рекомендаций; разделение всех студентов на группы для выполнения групповых проектов; выявление нетипичного поведения или студентов (когда объекты оказываются в очень маленьких кластерах)
    • с помощью методов нахождения ассоциативных правил (для обнаружения шаблонов в данных теста)
  • для организации и консультирования исследовательских работ учащихся (для учащихся различных специальностей, т.е. для анализа данных различных научных областей)

В связи с активным развитием и внедрением алгоритмов интеллектуального анализа данных, является логичным предположить, что в будущем данные методы будут встроены в различные учебные системы. Тем не менее, для их эффективного использования, в любом случае необходимо иметь представление о возможностях методов интеллектуального анализа данных, способах использования добываемой информации, настройках ключевых параметров алгоритмов.

Особенностью данных, которые нужно анализировать преподавателю является их маленький объем. Например, данные тестов или лог-файлы работы обучаемых в некоторой системе на группу 15-30 человек. В некоторых случаях это данные нескольких групп или накопленные за несколько лет обучения. В любом случае такие наборы считаются маленькими, когда речь идет об интеллектуальном анализе данных. Многие алгоритмы ИАД лучше работают на гораздо больших наборах данных. Это накладывает некоторые ограничения на область подходящих техник.

В настоящее время существует достаточное количество компьютерных программ для интеллектуального анализа данных, распространяемых свободно. Например, Weka, RapidMiner, Knime, Orange и другие. Несмотря на то, что дисциплины по интеллектуальному анализу данных активно вводятся в учебные программы, они пока носят больше теоретический характер. Практических учебных материалов по применению методов и средств ИАД на русском языке недостаточно.

Причины, затрудняющие освоение компьютерных программ по ИАД:
- отсутствие русскоязычного интерфейса у большинства свободно распространяемых программ для интеллектуального анализа данных, русскоязычных справочников по данным системам.
- недостаточность литературы на русском языке по современным программам анализа данных
- недостаточность образовательных данных в открытом доступе для обучения и экспериментов (нет единого интегрированного хранилища данных)
- необходимость в знаниях методов мат. статистики и овладении задачами и методами интеллектуального анализа данных, разработке и внедрение соответствующих учебных дисциплин.
- отсутствие методики преподавания интеллектуального анализа данных будущим специалистам-педагогам.

Приведем пример использования программы Weka, который демонстрирует реалистичность освоения подобных сред интеллектуального анализа данных и их возможное применение. В табл. 1 приведены данные для 28 учащихся выпускного класса. Данные являются небольшой выборкой данных, собранных и анализируемых в работе []. Полный набор данных с описанием доступен на ресурсе Machine Learning Repository [].

Таблица 1. Данные 28 выпускников.

Первая часть файла - объявление переменных

Вторая часть файла - данные

@relation student

@attribute FamilySize {GT3,LE3}
@attribute ParentEducation {1,2,3,4}
@attribute Reason {course,other,house,reput}
@attribute StudyTime {0-1,2-5,6-10,10+}
@attribute Failures {0,1,2,3,4}
@attribute PaidClass {no,yes}
@attribute Internet {no,yes}
@attribute FamilyRelation {1,2,3,4,5}
@attribute FreeTime {1,2,3,4,5}
@attribute Alcohol {1,2,3,4,5}
@attribute Health {1,2,3,4,5}
@attribute Absences numeric
@attribute Test1 numeric
@attribute Test2 numeric
@attribute TestFinal numeric

@data
GT3,4,course,2-5,0,no,no,4,3,1,3,6,5,6,6
GT3,1,course,2-5,0,no,yes,5,3,1,3,4,5,5,6
LE3,1,other,2-5,3,yes,yes,4,3,2,3,10,7,8,10
GT3,4,house,6-10,0,yes,yes,3,2,1,5,2,15,14,15
GT3,3,house,2-5,0,yes,no,4,3,1,5,4,6,10,10
LE3,4,reput,2-5,0,yes,yes,5,4,1,5,10,15,15,15
LE3,2,house,2-5,0,no,yes,4,4,1,3,0,12,12,11
GT3,4,house,2-5,0,no,no,4,1,1,1,6,6,5,6
LE3,3,house,2-5,0,yes,yes,4,2,1,1,0,16,18,19
GT3,3,house,2-5,0,yes,yes,5,5,1,5,0,14,15,15
GT3,4,reput,2-5,0,yes,yes,3,3,1,2,0,10,8,9
GT3,1,reput,6-10,0,no,yes,5,2,1,4,4,10,12,12
LE3,4,course,0-1,0,yes,yes,4,3,1,5,2,14,14,14
GT3,4,course,2-5,0,yes,yes,5,4,1,3,2,10,10,11
GT3,4,house,0-1,0,no,yes,4,4,1,2,4,14,14,14
GT3,4,reput,6-10,0,yes,yes,3,2,1,2,6,13,14,14
GT3,3,reput,2-5,0,no,no,5,3,1,4,4,8,10,10
GT3,3,course,0-1,3,no,yes,5,5,2,5,16,6,5,5
LE3,3,house,0-1,0,yes,yes,3,1,1,5,4,8,10,10
GT3,4,reput,2-5,0,no,yes,4,4,1,1,0,13,14,15
GT3,4,other,0-1,0,yes,yes,5,4,1,5,0,12,15,15
LE3,4,course,2-5,0,no,yes,4,5,1,5,2,15,15,16
LE3,2,reput,2-5,0,no,yes,5,4,2,5,0,13,13,12
GT3,2,house,0-1,2,yes,yes,1,2,1,5,14,6,9,8
GT3,2,house,0-1,0,yes,yes,4,2,1,5,2,12,12,11
GT3,4,other,0-1,0,yes,yes,2,2,2,1,4,15,16,15
LE3,3,house,2-5,0,no,yes,5,3,1,5,4,11,11,11
GT3,4,house,2-5,0,yes,yes,4,4,5,5,16,10,12,11

Посмотрим, возможно ли предсказать результаты итогового теста учащихся на основе имеющейся информации.
Для этого можно выполнить следующие шаги:
1) перенести данные из табл. 1 в текстовый редактор блокнот и сохранить как student.arff в кодировке по умолчанию (ANSI).
2) запустить программу Weka и выбрать модуль Explorer
3) на вкладке Preproces загрузить данные (файл student.arff) с помощью кнопки Open file.
4) выполнить дискретизацию численных атрибутов, т.к. некоторые алгоритмы классификации работают только на категориальных атрибутах. Для этого на вкладке Preproces выбрать Filter->weka->filters->unsupervised->attribute->Discretize и в параметрах указать индексы численных атрибутов (13-15) и число промежутков, на которые они разбиваются (мы использовали 4).
5) перейти на вкладку Classify и выбрать алгоритм классификации, иначе классификатор. Примеры результатов работы алгоритмов в виде деревьев решений представлены на рисунках ниже.

Рис. 1. Алгоритм trees->J48 (на всех атрибутах). Точность классификации - 89%.

Рис. 2. Алгоритм trees->J48 (без данных Test1 и Test2 ). Точность классификации - 71%.

6) проанализировать полученные результаты.

Как видим из рисунков, в построенных в результате выполнения алгоритмов классификации деревьях решений присутствуют не все доступные атрибуты, а только наиболее значимые. Так, из рис. 1 можно заключить, что результаты итогового теста очень схожи с результатами промежуточного теста. Если учащиеся, которые набрали мало баллов в первом тесте (от 0 до 7 баллов), занимались дополнительно, то в итоговом тесте смогли улучшить свои результаты. Из студентов, которые набрали в первом тесте больше 8 баллов, наибольшие итоговые баллы получили те учащиеся, родители которых имеют высшее образование. На рис. 2 ключевыми атрибутами являются образование родителей, дополнительные занятия и также время, расходуемое на учебу в неделю. Другие алгоритмы предлагают другие решения. Анализируя их совокупность, можно сделать более детальные выводы.

Основываясь на проведенном анализе можно, например:
- разделить учащихся на две группы, условно сильную и слабую на основе анкеты об образовании родителей, времени, затрачиваемом на учебу и информации о том, собирается ли обучаемый заниматься дополнительно. Ввести различные методики обучения для данных групп или ввести дополнительные домашние задания или занятия для слабой группы.
- наоборот сформировать равные группы с примерно одинаковым количеством потенциально слабых и сильных учеников.
- дать рекомендации по дальнейшему обучению на основе результатов первого теста.

В заключение отметим, что программы для ИАД могут быть полезны преподавателю. Освоение подобных программ становится необходимой частью профессиональной компетентности педагога в век информационных технологий. Для изучения техник и сред ИАД требуются соответствующие дисциплины и методики их преподавания, курсы повышения квалификации, практические пособия по применению соответствующего инструментария.

Литература:
1. Пиотровская К.Р., Тербушева Е.А. Интеллектуальный анализ данных в педагогической аналитике. Техническое творчество молодежи. 2016. № 2 (96). С. 10-14.
2. Cortez P., Silva A. Using data mining to predict secondary school student performance. Proceedings of 5th Annual Future Business Technology Conference, Porto, 2008, p. 5-12.
3. Machine Learning Repository. https://archive.ics.uci.edu/ml/datasets/Student+Performance#

Комментарии

  • CraigCibia пишет:

    Приобрести можно на веб-сайте http://mangoo77.mangoosteen.com Хотим предложить вам удивительное средство для похудения Mangoosteen. При помощи него возможно избавиться от 15 килограмм за 2 недели. Дерево мангостан произрастает в Малайзии. Плоды данного дерева обладают потрясающими особенностями, которые были положены в основу сиропа Мангустина. Во флакончике имеется около 25 плодов данного замечательного растения. Плоды с дерева мангостан помогают растопить лишнюю липидную ткань. А также отлично воздействуют на человека в комплексе. Специфика производства средства, и уникальная упаковка помогают сберечь все удивительные свойства мангустина. Основным веществом сиропа Мангустина являются плоды с дерева гарциния, в которых имеется большое число питательных элементов. Благодаря компоненту окиси дифениленкетона, которое в огромных дозах содержатся в плодах, сильно замедляются окислительные процессы в теле. Ксантон является одним из самых сильных антиокислителей. В плоде дерева мангостан к тому же содержатся разные группы витаминов и элементы. Приобрести сироп Мансустина можно на веб-сайте http://mangoo77.mangoosteen.com.

  • SusanGuard пишет:

    [b]Перейдите ниже по ссылке, чтобы получить кредит:[/b] https://my.saleads.pro/s/276480a0-bfdf-11e7-b867-8f234a24dd91 ----------------------------------- Потребительские кредиты Сбербанка пенсионерам. Развитие и совершенствование банковских услуг делает их доступными для всех слоев населения. Те, кто еще вчера не имел возможности взять кредит из-за строгих критериев, сегодня без проблем могут оформить такую заявку. Прежде всего, к таким гражданам можно отнести пенсионеров. Теперь они – целевая клиенты тех банков, в которых для них разработаны особые условия по кредитам. К таким можно отнести, например, потребительский кредит для пенсионеров от Сбербанка России. Пенсионерам предоставлены разные возможности для получения банковского займа. Они на выбор могут либо получить кредит стандартным путем, а могут и подать заявку на получение пластиковой карты. акая карта будет являться кредитной, но помимо этого по ней можно вести и дебетовые расчеты, например, по зачислению пенсии. Ознакомьтесь со списком кредитных карт с льготным периодом кредитования на этой странице. Мы составили детальный обзор. Платежеспособность пенсионеров легко установить, собрав данные о размере ежемесячной пенсии, а в случае с работающими пенсионерами к этой сумме еще добавляется и сумма заработной платы. Бывает, что для погашения кредита, средств, получаемых одним гражданином, недостаточно. В таком случае предусмотрена возможность включить супруга или супругу как созаемщика. Кредитные программы для пенсионеров. Сбербанк разработал несколько видов кредитования для пенсионеров. Например, кредит, предполагающий обязательное участие поручителей и кредит, не предполагающий поручительства. Для пенсионеров даже существуют льготы и тарифы при взятии кредита для малого бизнеса. Первый вариант кредитования предполагает сумму, не превышающую 3 миллионов рублей, нижний порог – 15 000. Проценты по кредиту составят от 14,4 % до 19 % годовых. Есть ограничения по возрасту – на момент подачи заявки заемщику должно быть не более 75 лет. Минимальный срок — 3 месяца, максимальный – 5 лет. Заявка на кредит обычно рассматривается 2 суток. Предполагается участие созаемщика. Второй вариант кредитования предполагает такие же сроки погашения, но сумма уменьшается вдвое – всего до 1,5 миллионов. Максимальный возраст заемщика – 65 лет. Для владельцев банковского счета для получения пенсии срок рассмотрения займет пару часов, для иных те же двое суток. Кредитный калькулятор Сбербанка для пенсионеров. Потребительские кредиты сбербанка пенсионерам: льготные условия. Владельцы дебетовых расчетных счетов в Сбербанке России имеют право на льготные ставки по кредитам и особые условия кредитования. К таким условиям можно отнести возможность получения кредита при предъявлении одного только паспорта, принятие решения о выдаче кредита значительно сокращается. Наличие кредитного калькулятора от Сбербанка позволяет сделать расчет по кредиту для пенсионеров. В соответствующие графы необходимо будет только внести соответствующие данные. К ним можно отнести ставку по кредиту, сумму, срок погашения, вид платежа и валюта по кредиту. [b]Перейдите ниже по ссылке, чтобы получить кредит:[/b] http://bestsky.info/redir.html

  • Armandozew пишет:

    Alergyx – это уникальная, безопасная и эффективная комбинация растительных экстрактов, которая, будучи принятой внутрь, уже в течение 10 минут блокирует реакцию организма на аллерген, останавливая или предотвращая проявление аллергии. Полный курсовой прием препарата в течение 30 дней полностью избавляет от хронических форм недуга, очищает от токсинов и восстанавливает организм. ALERGYX помогает нашему телу выработать собственные «блокирующие антитела», которые НАВСЕГДА ИСКЛЮЧАТ ВОЗМОЖНОСТЬ ПОВТОРНОГО ВОЗНИКНОВЕНИЯ АЛЛЕРГИИ. Официальный сайт: http://alergyx.bxox.info

  • Armandozew пишет:

    Alergyx – это уникальная, безопасная и эффективная комбинация растительных экстрактов, которая, будучи принятой внутрь, уже в течение 10 минут блокирует реакцию организма на аллерген, останавливая или предотвращая проявление аллергии. Полный курсовой прием препарата в течение 30 дней полностью избавляет от хронических форм недуга, очищает от токсинов и восстанавливает организм. ALERGYX помогает нашему телу выработать собственные «блокирующие антитела», которые НАВСЕГДА ИСКЛЮЧАТ ВОЗМОЖНОСТЬ ПОВТОРНОГО ВОЗНИКНОВЕНИЯ АЛЛЕРГИИ. Официальный сайт: http://alergyx.bxox.info

  • SusanGuard пишет:

    [b]Перейдите ниже по ссылке, чтобы получить кредит:[/b] http://bestsky.info/redir.html ----------------------------------- Заполняйте заявки на все банки и займы чтобы узнать где дадут и найти лучшее предложение для себя. Высокий процент одобрения. до 55 дней без переплат. второй до 25000 рублей. ООО "Хоум Кредит энд Финанс Банк". ОГРН - 1027700280937. Адрес: 125040, г. Москва, улица Правды, д. 8, кор.1 Телефон: +7 (495) 785-82-25. ЗАО МКБ «Москомприватбанк». Адрес: 127299, г. Москва, ул. Космонавта Волкова, дом 14. Телефон: +7 (495) 787-68-88. «Тинькофф Кредитные Системы» Банк. Адрес: 123060, г. Москва, 1-й Волоколамский проезд, д. 10, стр. 1 Телефон: +7 (495) 648-11-11. ЗАО «ДжиИ Мани Банк». Адрес: 115035, Россия, г. Москва, улица Садовническая, д.82, стр.2 Телефон: +7 (495) 258-04-00. Юридический адрес: РОССИЯ, 117593 Москва, Соловьиный проезд, дом 2, офис 1. Адрес для почтовой переписки: 117593 Москва, а/я 11 - ИНН/КПП 7728660710/772801001 Телефон: +7 (495) 420-39-90. Оставляя свои данные на сайте credit-traffic.ru (ниже – «Компания») путем заполнения полей on-line заявки, Вы: подтверждаете и признаете, что прочитали изложенные ниже условия обработки Компанией Ваших данных, указываемых Вами в полях on-line заявки; и выражаете согласие с такими условиями без оговорок и ограничений. Под персональными данными подразумевается информация, относящаяся к субъекту персональных данных, в частности фамилия, имя и отчество, дата рождения, адрес, контактные реквизиты (телефон, адрес электронной почты) и иные данные, относимые Федеральным законом от 27 июля 2006 года № 152-ФЗ «О персональных данных» (далее – «Закон») к категории персональных данных. Направление информации через сайт Компании означает Ваше согласие на обработку предоставляемых персональных данных в объеме, в котором они были представлены Компании, в порядке и на условиях, определенных Законом любым способом, предусмотренным Компанией и(или) установленных Законом. Целью обработки персональных данных является оказание Компанией услуг, а также информирование об оказываемых Компанией услугах и реализуемых Компанией финансовых продуктов партнеров Компании и также информирование вас о финансовых продуктах любым удобным способом по контактам, которые Вы нам сообщили. В случае отзыва согласия на обработку своих персональных данных Компания прекратит их обработку и уничтожит данные в срок, не превышающий трех рабочих дней с даты поступления такого отзыва. Отзыв согласия на обработку Ваших персональных данных Вы можете отправить в произвольной форме на e-mail: info@credit-traffic. Займы до зарплаты, деньги в долг, займы онлайн, заем на карту! Первый займ бесплатно! Заполняйте заявки на все займы и банки чтобы узнать где дадут и найти лучшее предложение для себя. [b]Перейдите ниже по ссылке, чтобы получить кредит:[/b] https://ad.admitad.com/g/3e1725c17f7ac794b137e50e1abb43/

  • CraigCibia пишет:

    Приобрести можно на веб-сайте http://mangoo77.mangoosteen.com Рады предложить нашим клиентам удивительное средство для снижения веса сироп Мангустина. С ним возможно сбросить около 15 кг за недели. Дерево гарциния растет в Азии. Плоды данного дерева имеют удивительные особенности. Во флакончике имеется около 25 плодов данного замечательного растения. Плоды с растения мангустин помогают сжечь лишнюю липидную ткань. И замечательно влияют на организм в целом. Специфика производства средства, и уникальная упаковка позволяют сохранить все удивительные свойства растения. Основным компонентом сиропа Mangoosteen являются плоды с растения мангостин, в них содержится огромное число питательных элементов. Благодаря веществу ксантону, которое в огромных дозах содержатся в плоде, значительно притормаживаются процессы окисления в организме. Ксантон признается одним из наиболее мощных антиоксидантов. В плодах растения мангостан также имеются разные группы витаминов и элементы. Купить сироп Mangoosteen можно на интернет-сайте http://mangoo77.mangoosteen.com.

  • AntoniophymN пишет:

    Открылся новый магазин все по 50 рублей, например определенный товар стоит 5000 рублей или 7000 рублей то у нас вы можете найти его всего за 50 рублей: http://shop-50-rubley.xyz магазин ежедневно пополняется, к концу недели будет очень богатый ассортимент.

  • Herbertnum пишет:

    Hot sale! E-gift card amazon with a face value of $ 2000 for only $ 500. https://amazonegiftcardcheap.wordpress.com The promotion will last until July 31, 2017. After July 31, the price will be $ 1000 https://amazonegiftcardcheap.wordpress.com

  • GeorgeDrash пишет:

    http://forums.orangineers.com/viewtopic.php?f=2&t=21127 http://novocad.ru/kollizii-v-revit-i-navisworks.html http://rknw.pl/forum/viewtopic.php?f=8&t=1134980 http://forum.autoecolepratique.com/viewtopic.php?f=4&t=188953 http://wishmaster2-0.myjino.ru/forum/index.php?topic=174731.new#new http://clubseatgdl.com.mx/foro/viewtopic.php?f=20&t=6063 http://forum.dvchess.ru/viewtopic.php?f=17&t=42991 http://dmitrovka139.ru/viewtopic.php?f=7&t=297755 http://forums.orangineers.com/viewtopic.php?f=17&t=21858 http://diaps.fr/forum/phpBB3/viewtopic.php?f=8&t=193999 http://fallenfrontiers.com/forum/viewtopic.php?f=2&t=3335 http://moosehill.nu/member.php?action=profile&uid=1252 http://www.alcoforum.com/viewtopic.php?f=25&t=3221 http://maddenpcmod.123forum.co.uk/viewtopic.php?f=20&t=9528 http://libria.su/librarium-elementum/forum/viewtopic.php?f=15&t=13154

  • Не согласен в части Machine Learning - здесь концентрация идет не только на алгоритмах и языках реализации...В Machine Learning визуализация поставлена великолепно, ей уделено должное внимание...Просто Machine Learning - в некоторых вопросах пересекается с ИАД...В части Data Mining - мне еще на заре студенчества давали курс на данную тему (я, естественно технарь и заканчивал аэрокосмический ВТУЗ). Из того что я читал на данную тему, и из того что мне преподавали, выражу свое субъективное мнение на счет Data Mining. Первое - это не подход, не метод и даже не способ исследования...Это своеобразное философское течение, работающее на базе нескольких постулатов, направленное в широком смысле слова на поиск закономерностей в необработанных разнородных данных, не подчиняющихся ЦЕНТРАЛЬНОЙ ПРЕДЕЛЬНОЙ ТЕОРЕМЕ ТЕОРИИ ВЕРОЯТНОСТИ, иначе бы всех отсылали к теор веру - и все, а далее Нормальный закон распространения, максимум правдоподобия и т. д....То есть тем самым Data Mining как бы искусственно уходит от классической математики...К Data Mining можно отнести условно и регрессионный и кластерный анализ, и ИАД, и Machine Learning, и эвристические алгоритмы поиска...Вот в этом вопросе мы с Вами расходимся...Просто я практик и мне давали в университете курс Data Mining с конкретными приложениями, с решением задач, при этом использовались стандартные пакеты математики, статистики...отсюда я и делаю вывод, что Data Mining - это синтезированное направление, более философское, нежели фундаментальное, оно ничего не дает в практическом плане, только теоретически!!! Отсюда и вопросы...А вот понять и почувствовать, что же в себе кроме постулатов и привнесенных из разных отраслей науки алгоритмов, несет это направление - крайне сложно!

  • пишет:

    Здравствуйте! Спасибо за Ваше внимание к работе. В зарубежной науке выделяется такая научная область, как Data Mining (это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности). В русскоязычной литературе устойчивым переводом данного термина стал "Интеллектуальный анализ данных". В ИАД используются достижения из различных областей, в том числе и статистики, и машинного обучения, с целью обнаружения полезных закономерностей. На мой взгляд, Машинное обучение больше концентрируется на алгоритмах, а Интеллектуальный анализ данных, на их приложении. В ИАД входят также и методы предварительной обработки данных, визуализации, поиска ассоциативных правил, не входящие в область машинного обучения. Поэтому термин ИАД является более широким. Совершенно верно, что можно использовать статистические пакеты. Но методы класификации/кластеризации/визуализации не относятся к стандартным статистическим методам, а сейчас активно включаются в статистические программы как дополнительные модули для анализа данных. Поэтому м.б. создается впечатление, что это все статистика. Также, статья не является "технической", не акцентрируется на деталях алгоритмов или их точности. Целью было показать возможность и реалистичность использования подобных методов для всех преподавателей, а не только специалистов в области ИТ. С этой же целью пример приведен на бесплатной программе Weka в то время как большинство известных статистических программ платные.

  • Здравствуйте. Очень интересная статья. Простите, в связи с тем, что в отечественной науки до сих пор нет единого определения понятия "Интеллектуальность"...и в Вашей статье не предложен Ваш вариант определения - не совсем понятно, относится ли кластерный и регрессионный анализ к интеллектуальному анализу или нет...На мой взгляд - не относятся...Корректнее было бы использовать вместо термина "ИАД" в данном случае термин "Машинное обучение" (англ. Machine Learning) — класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решению множества схожих задач... Также целесообразно рассмотреть классический пример ИИ - Нейронные сети и/ или нейронные облака (распределенные удаленные вычисления на базе нейросетей). Из примера с деревьями, что Вы представили - интеллектуальность ну никак "не прорисовывается". Данную достоверность классификации можно получить используя стандартные статистические методы...тоже самое можно сказать и в части прогноза...В остальном согласен, ИАД как аппарат поддержки принятия преподавателем решения - безусловно нужен...

Оставьте свой комментарий