Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.

Система интеллектуального анализа больших данных

Работа и стажировка 

 

Ссылка при использовании данных iFORA: Система интеллектуального анализа больших данных iFORA (ИСИЭЗ НИУ ВШЭ)                                   

Михаил Комаров в эфире телеканала "Культура"

Главный научный сотрудник Центра стратегической аналитики и больших данных Михаил Комаров появился в эфире телеканала «Культура» в научно-просветительской программе «Черные дыры. Белые пятна».

Главный научный сотрудник Центра стратегической аналитики и больших данных Михаил Комаров

Главный научный сотрудник Центра стратегической аналитики и больших данных Михаил Комаров
Телеканал "Культура"

Ведущий программы: У нас в гостях главный научный сотрудник Центра стратегической аналитики и больших данных Института статистических исследований и экономики знаний Высшей школы экономики Михаил Комаров. Михаил Михайлович, здравствуйте!

Михаил Комаров: Здравствуйте!

Ведущий программы: Спасибо большое, что пришли к нам в студию. Илон Маск недавно презентовал свой новый чат-бот Grok 3 и заявил, что он умнее человека. Так ли это?

Михаил Комаров: Ну конечно, нет. Пока что мы, как люди, которые разрабатывают эти системы, мне кажется, умнее. Ну а с точки зрения умности, вопрос сложный. Все зависит от правил, которые закладываются в работу системы, и от данных, которые лежат в основе работы системы, и от ситуации, в которой мы хотим узнать правильный ответ. На самом деле основная проблема сейчас для таких систем - помнить контекст вопроса, который задается системе. Когда Вы беседуете с человеком, он понимает, о чем вы беседовали в самом начале, и исходя из этого отвечает Вам в своих рассуждениях.

Система Grok 3 и другие системы, которые работают с подкреплением, предполагают учет данного формата контекста. Если мы говорим, что мы находимся в России, в Москве и обсуждаем погоду, то мы, конечно, обсуждаем погоду применительно к тому, что сейчас с нами происходит, а не тому, что происходит в каком-то другом городе нашей замечательной страны. Это означает, что сеть помнит, о чем идет речь, и на пятый, и на десятый и на двадцать пятый вопрос продолжает удерживать у себя в своих математических моделях данный контекст информации. Система, которая была презентована, в целом данные условия немножко соблюдает, хотя есть и другие решения, в том числе наши отечественные, которые также позволяют учитывать данный контекст.

Ведущий программы: Михаил Михайлович, как все-таки обучаются подобные генеративные нейросети? Вы упомянули обучение с подкреплением. Насколько я понимаю, туда изначально загружают большой массив данных, чтобы появился контекст для беседы.

Михаил Комаров: Есть несколько форматов обучения нейросетей, например, формат обучения на статистических данных, когда у нас есть собранная статистика и мы можем математически описать те или иные происходящие действия, ответы и результаты. Например, мы с вами знаем, что два плюс два всегда равно четыре, и тут не может быть другой вероятности и какого-то другого результата. Однако мы также знаем, что, если мы в десять утра кому-то позвоним, нам могут сказать «доброе утро» или могут сказать «привет» или еще что-то, но вероятность такого ответа разная, это уже статистика.

С другой стороны, мы можем обучать нейросеть как, например, родители обучают детей, то есть речь идет об обучении с учителем. То есть если нейросеть говорит «доброе утро» в два часа дня, то мы говорим: «Нет, это неправильно. Сейчас уже добрый день и вообще уже обед». Мы говорим сети, что так неправильно делать.

И есть также третий формат — обучение с подкреплением. В этом случае мы выступаем учителями нейросети, но не каждый раз задаем правила ее работы. В случае с беспилотными автомобилями мы говорим, что нельзя заезжать за определенные полосы и нельзя перестраиваться, если у вас сплошная линия между полосами на дороге. Если система, которая управляет автомобилем, вдруг выезжает и наезжает на полосу, мы говорим, что так делать нельзя, и вычитаем балл. Если она приняла решение ехать прямо, то алгоритм говорит, что это отличное решение, и мы даем системе дополнительный балл.

Ведущий программы: Во всех примерах, которые Вы упоминали, человек сам берет информацию и предоставляет ее нейросети. А может ли нейросеть сама обучаться без человека и бесконтрольно потреблять большое количество информации?

Михаил Комаров: Безусловно, по определённым правилам. Правила задает человек. Дальше система может работать с другой подобной системой и с точки зрения вероятностных характеристик оценивать свои ответы по тем правилам, которые были первоначально заданы. Это можно сравнить с общением двух людей, которые, общаясь, узнают что-то новое друг от друга, хотя их уровень знаний примерно одинаковый. Но в дискуссии рождается истина.

Однако здесь возникают проблемы подобного рода систем. Критическая ошибка может закрасться в рамках этих обсуждений и в рамках обучения сети. И если мы это не заметим, то она будет сидеть в глубине обученной сети. Исправить это будет тяжело, потому что сеть с точки зрения своих математических алгоритмов будет считать, что два плюс два — пять, она у себя это запишет и, пока кто-то не скажет, что так неправильно, сети будут производить такие вычисления. Узнаем мы об этом в тот момент, когда попросим сделать сложное вычисление, а она в основе этого сложного вычисления возьмет один из неправильных ответов. Это довольно критичные риски.

Ведущий программы: Что будет, если нейросети начнут самообучаться? Не потеряет ли человек контроль над ними?

Михаил Комаров: Вопрос хороший, сложный. Здесь есть два варианта: все будет хорошо и все будет плохо. Начнем с первого.  Нейросети уже сейчас самообучаются и используют синтетические данные — те данные о ситуациях, которые в реальной жизни могли еще не происходить, либо которые не были оцифрованы. Системе надо развиваться. И она таким образом себя обучает.

Плохо, если мы не будем вообще никак участвовать в этом процессе. Приведу пример —ингредиенты и готовка. Нейросеть знает все рецепты приготовления самой простой яичницы или каши. Если она будет сама обучаться и скажет, что добавить перца в кашу —  это неплохо, то мы можем дойти до ситуации, когда у нас будет не каша, а перец, и система при этом нам не скажет, хорошо это или плохо. Система скажет: «Да, добавить перца не плохо». Но мы как взрослые люди понимаем, что дать эту кашу ребенку неправильно. Если мы не отследим такие выводы, то дальше мы придем к другим решениям, которые могут быть нами не отслежены, но которые приведут к еще большим последствиям.

Эфир можно послушать по ссылке

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!