• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новости

«Прогресс движется только тогда, когда данными делятся»

«Прогресс движется только тогда, когда данными делятся»

Фото: iStock

Чтобы рекомендовать ребенку направление профессионального развития, нужно понять его потенциал. А для этого, в свою очередь, нужны данные, собранные на основе цифрового следа ученика. Насколько эффективна «методология доказательного обучения», как школы могут привить культуру принятия решений на основе данных, рассказал Андрей Комиссаров, руководитель направления цифровых продуктов образовательной экосистемы «Самолетум» (входит в ГК «Самолет»), представитель Альянса в сфере искусственного интеллекта.

Андрей Комиссаров
фото из личного архива
Беседу провел ведущий эксперт ИСИЭЗ НИУ ВШЭ Сергей Сычев. В рамках одного из исследовательских проектов по тематике цифровой трансформации он опрашивает участников рынка — ведущих ИТ-разработчиков. Некоторые из интервью, в частности это, публикует портал HSE Daily.

— Сегодня каждый человек с детства погружен в цифровую среду, у него формируется свой цифровой след. Как он может помочь в обучении и формировании профессионального трека школьника?

— Надо понимать, зачем вообще собирается цифровой след. В данном случае это цель, связанная с профессиональным самоопределением учащегося. Мы должны посмотреть, как можно картировать потенциал ребенка, для того чтобы ему рекомендовать направления профессионального развития, траектории, когда он придет в старшую школу. Либо это траектории, связанные с СПО, либо это траектории, связанные с вузами.

Одно из заблуждений современных школ — они полагают, что отвечают только за то, что происходит в стенах школы. Но не должно быть так, что ребенок по окончании школы не может принять ни одного самостоятельного решения, распланировать собственный карьерный путь, не понимает, в каком направлении ему двигаться, не может сдать профессиональных экзаменов. Цифровой след может собираться в школе для того, чтобы решать эту задачу — «ставить» ребенку профессиональное самоопределение, смотреть, как реализуется его потенциал, развиваются сопутствующие софт-скилы.

В России хорошие закон об образовании и ФГОСы (федеральные государственные образовательные стандарты. — Ред.), там обозначены метапредметные, личностные результаты, но, к сожалению, правоприменительная практика пока хромает. В частности, нет четких рекомендаций, как именно эти показатели измерять.

Соответственно, еще одна задача, кроме профессионального самоопределения, — это доказательное обучение, то есть подтверждение на данных того, какие именно образовательные результаты ребенком реально достигнуты. Плюс к этому — повышение прозрачности. В большинстве школ классы очень большие, но не всегда понятно, что именно происходит на уроках с каждым конкретным учащимся. Да и учителю опросить за 45 минут весь класс, чтобы понять, кто что понимает и может, не всегда возможно. У большей части тех, кого не опрашивают, падают мотивация, вовлеченность и сфокусированность, постепенно растет педагогическая запущенность. Группа тех детей, которые совсем не успевают по многим предметам, увеличивается.

И когда мы собираем домашнюю работу в виде зафиксированного на бумаге результата, то в этом результате не всегда видим рассуждения ребенка, не видим, почему он пришел к какому-то мнению. Проблема может быть решена, если мы сможем мониторить ситуацию с помощью цифрового следа и применять искусственный интеллект.

— Какую цифровую активность учеников можно интерпретировать как цифровой след?

— Представим школу как гибридное пространство: часть — офлайн, часть — онлайн. Так, в онлайне мы сможем создавать дополнительные сообщества по интересам. Например, вокруг внеурочной клубной деятельности, вокруг проектной деятельности, вокруг игровой деятельности, вокруг театральной деятельности и так далее. В школе есть много возможностей создать дополнительные планы деятельности, в которых обучение и взаимодействие будут идти не только в самой школе в моменте, в классе, но еще, скажем, во «ВКонтакте». Соответственно, если у нас есть сообщество, у него есть чат, если есть чат, есть и чат-логи, а это прекрасный цифровой след.

Основной цифровой след — это аудио, записанное на уроке. Оно позволяет, например, анализировать качество речи детей и давать им рекомендации, как развивать собственную речь.

Есть еще цифровой след групповой деятельности, когда дети работают в группах. Например, они решают STEM-задачи, или проектные задачи, или игровые задачи. В этом случае мы можем отследить роли, которые дети играют, мы можем отследить, кто более активен, кто менее активен, кто более сфокусирован, кто менее сфокусирован, и так далее.

Таким образом, расширяются возможности оценки по пятибалльной шкале.

Важным цифровым следом является рефлексия. Такой подход можно начинать внедрять в работе с детьми лет с одиннадцати, хотя нормальная рефлексивность у ребенка развивается где-то к тринадцати годам. Такой способ сбора данных, с одной стороны, развивает осознанность ребенка, то есть вы заставляете его думать, а с другой стороны, вы получаете много данных о том, как ребенок видит урок.

Таким образом, мы получаем рефлексию учеников как один вид данных. Второй вид данных мы можем получить от учителей. Это критериальное и ролевое, формирующее оценивание. Ролевое оценивание — это когда у вас есть список ролей, учителя осведомлены, что эти роли значат. То есть когда ребенок вот так себя ведет, это значит, что он в такой-то роли сейчас. Критериальное оценивание — это кнопочное, то есть я выбираю класс, я выбираю ребенка, я выбираю урок, я говорю, что я заметил, что он был в такой-то роли, о’кей.

Еще у нас дети ставят, так скажем, лайки. Это такой простой цифровой след и детям понятный — лайки, дизлайки отдельным педагогам и предметам. Мы также просим детей указывать, что им интересно.

— Многое реализовано из того, что вы рассказали?

— В группе компаний «Самолет» я работаю с начала августа, то есть физически в полном объеме реализовать то, что я описал выше, мы бы не успели. В моей лаборатории многие эксперименты давно велись, и мы это в принципе умеем делать. Пока же мы запустили по пилотным школам «Самолета» чат-бот для учителей, он называется «Штурман». В нем собирается критериальное, формируемое оценивание и ролевое оценивание как голосом, так и текстом. Он же выдает цифровой ученический профиль, но это профиль ровно по тому оцениванию, которое мы собрали, то есть что собрали, то и показываем.

— А как это у вас сейчас происходит?

— На данный момент мы в R&D-стадии. А чтобы валидировать что-то данными, используется подход триангуляции, когда у вас есть феномен, есть три разных источника данных, друг от друга независимых, и все эти три источника данных подтверждают, что феномен был.

Пока мы проводим сбор данных в трех школах.

Например, в одной из школ мы собираем то, что мы называем аудиоатмосферой, для чего ставим в классе микрофон. Голоса детей в этом случае, как правило, не идентифицируем. Аудиоатмосфера нужна для того, чтобы собирать общее семантическое ядро. Вообще при работе с данными в основном идет работа с семантическими ядрами, то есть в цифровом следе пытаемся выявить, как строится мысль, речь и на каких терминах, на каких связках. Работа с семантическими ядрами очень много дает. Она показывает нам, насколько учащиеся воспринимают и используют язык учителей, какие термины и связки применяют.

— Этот результат измеряется в процентах?

— Нам нужен не процент, нам нужна специфика этого семантического ядра, то есть нужно посмотреть, какие конкретно вещи у него не совпадают с учителем. Потому что, когда мы семантические ядра сравниваем, можем увидеть, что знания и понимания нет или оно ложное, и с этим тоже надо работать. Это будет индивидуальная специфика, которую мы прорабатываем.

— В идеале это может заменить оценочную систему в школе, то есть оценивать успеваемость степенью усвояемости, степенью вовлеченности, уровнем сфокусированности на уроке?

— Не заменить — дополнить.

— Это методологический прием или это все-таки оценочный инструмент?

— Это методология доказательного обучения. Здесь самое главное — понимать, зачем мы все это делаем. То есть во главе угла — культура принятия решений на основе данных в школе, в которой собираются данные. Если там такая культура есть, значит, мы можем в первую очередь посмотреть, что у ребенка с потенциалом, куда он развивается, дать ему рекомендации. Если такой культуры нет, то собранные данные просто положат «в коробочку».

— И через сколько-то лет, когда потребуется цифровой след конкретного ученика, у вас по нему будут размеченные данные?

— Как правило, если данные применяются, то они применяются в горизонте одного-двух лет, а потом все «закатывается в асфальт». То есть данные плохо хранятся в образовательных учреждениях, просто из-за того, что инфраструктура стоит денег. Вы архивируете данные, то есть закидываете их в дальний чулан.

— Вы используете какие-либо облачные вычисления, чтобы собирать и копить данные? Или у вас свои серверные ресурсы?

— «Самолет» только начал эту деятельность. Конечно, мы используем облачные вычисления, в основном это карты на графических процессорах. Работа с нейросетками требует много высокопроизводительных вычислений, это в основном GPU Nvidia (пример графических процессоров. — Ред.).

— А данные вы сами собираете или где-то покупаете готовые датасеты?

— Разумеется, собираем свои, в этом их ценность. Как правило, в образовании у кого данные, тот и молодец. Но все зависит от того, какую исследовательскую гипотезу вы принимаете. Поэтому, если мы берем что-то извне, это предобученные и заранее зафайнтюненные (Fine-Tune — классификация текста. — Ред.) большие языковые модели.

— Получается, весь «буст» в этом датацентричном образовании идет от больших языковых моделей?

— Нет, большие языковые модели — это всего лишь еще одно средство, которое мы можем использовать для того, чтобы организовать общение с ребенком. По сути, большую языковую модель лучше всего использовать как диалоговый симулятор, диалоговый тренажер. Вся прелесть большой языковой модели в том, что ты можешь с помощью prompt-инженерии и с помощью zero-кодинга ее дополнительно настраивать на определенные функции. Например, чтобы не дети задавали вопрос большой языковой модели, а чтобы она им задавала вопросы, заставляла их мыслить.

Но в целом применение искусственного интеллекта в образовании не сводится сейчас к большим языковым моделям. Самый часто применяемый в образовании искусственный интеллект — это, конечно же, распознавание текста, семантический анализ. Например, нейросетка BERT.

— Внедрение ИИ проходит через несколько этапов: это сбор и обработка данных, обучение модели, инжиниринг, установка, интеграция, техподдержка и переобучение. На каких этапах вы встречаете наибольшие сложности?

— В обработке вообще нет барьеров. В сборе есть барьеры юридического плана, когда приходят родители и говорят: «Никакого цифрового концлагеря для моего ребенка мы не допустим!» Многие даже не пытаются понять, какие данные собираются и зачем, в то время как мы пытаемся картировать потенциал ребенка, чтобы ему помочь нормально учиться.

— Если они напишут отказ от сбора персональных данных, ребенок выпадет из общей системы?

— Да, часть его данных выпадает из общей системы. А потом, когда у всех появились цифровые профили, а у этого ребенка не появился, возникает вопрос, почему. Мы понимаем, что родители отказываются импульсивно. Им кажется, когда ребенок вырастет, кто-то скажет: «Вот смотри, он себя плохо вел в школе, вот данные». Мне на конференциях очень часто задают вопрос: «А если я потом буду баллотироваться на государственно значимые посты, а у вас содержится цифровой след моей школьной активности, и вы меня будете компрометировать этим цифровым следом?» Это что ж такого надо сделать в школе, чтобы тебя можно было скомпрометировать на государственном посту? Такие опасения «лечатся» очень просто. По достижении 18 лет ребенок — сам ребенок, а не родители! — может подписать бумагу о том, чтобы его данные были анонимизированы. Удалить их он не может, он может попросить их анонимизировать.

— А есть какой-то период забвения, допустим, автоматически через пять лет данные исчезают либо погружаются в такую цифровую бездну, откуда их не извлечь?

— Да, есть период забвения, все происходит автоматически. Никому не интересно хранить привязку к персональным данным, ведь для этого нужны дополнительные серверные мощности и дополнительное хранение, и тратить деньги на это никто не хочет. Кто эти деньги сейчас тратит? Если мы берем частные школы, то эти деньги тратят учредители школы.

— То есть человек выпустился — данные слились?

— Данные не слились, данные анонимизировались. То есть они хранятся без привязки. Данные нельзя сливать, потому что они могут пригодиться для исследования.

— При записи аудио и видео остается голос и изображение, возможна идентификация. Как с этим быть?

— Идентификация голосовая — да. Если мы говорим про данные аудио, это совсем другой формат, потому что голос и показатели голоса являются персональными данными. Там все сложнее, с датасетами аудио идет совершенно другая работа, так же, как и с датасетами видео, потому что можно идентифицировать по лицам. Но мы-то с вами в первую очередь говорим про массивы данных.

Важно, если вы, например, собираете данные, связанные с голосом, изначально предлагать подписывать всем пользователям документ, хотя бы в формате открытой оферты. Например, пользовательское соглашение и соглашение об использовании персональных данных, такие два документа обязательно должны быть.

— Каковы, на ваш взгляд, перспективы создания рынка данных? Как его можно регулировать?

— У нас есть рынок данных, в принципе. Я не считаю, что он должен быть государственно регулируемым, скорее всего, это может убить прогресс в области искусственного интеллекта.

— У государства вопрос цифровой безопасности находится в числе приоритетов.

— У нас есть закон о персональных данных. Согласно этому закону, продавать персданные без согласия их владельца — это преступление. Никому не выгодно иметь дело с персональными данными. Мы убираем имена детей, название школы, ее адрес. Остается пол, возраст, класс, предмет и показатели критериального и формирующего оценивания. Как вы это привяжете к конкретному ребенку?

При этом анонимизированные датасеты продаются и покупаются, и, более того, их выкладывают на ресурсы, где все могут ими пользоваться, — прогресс движется только тогда, когда данными делятся.

Беседовал Сергей Сычев, ведущий эксперт ИСИЭЗ НИУ ВШЭ

Впервые опубликовано на портале HSE Daily