• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новости

iFORA заходит в «большую» литературу

iFORA заходит в «большую» литературу

Сделано на Canva.com

Вышка запускает большие проекты, которые позволят в перспективе переформатировать научную деятельность университета и усилить связи между подразделениями. На недавнем заседании ректората обсуждали реализацию четырех больших проектов, которые стартовали чуть менее года назад на факультете гуманитарных наук. Расскажем, как в двух из них применяется система интеллектуального анализа больших данных iFORA, разработанная ИСИЭЗ НИУ ВШЭ.

Подробнее о презентации первых больших проектов читайте в новости на портале ВШЭ. Выдержки из нее приведены и в этом материале.

Запуск больших проектов — один из ключевых пунктов Программы развития ВШЭ до 2030 года. Данная новация рано или поздно коснется всех, подчеркнул ректор Ярослав Кузьминов на презентации первой четверки проектов, которые «пилотировал» факультет гуманитарных наук ВШЭ с участием междисциплинарных команд из разных кампусов университета. В ближайшее время и другие подразделения представят свои проекты, которые ВШЭ сможет включить в заявку на участие в программе «Приоритет — 2030», пришедшей на смену «5-100».

Большой проект должен быть понятен людям не из науки и востребован практиками, сказал во время презентации ректор. Если ученые изобрели луноход, то они должны его предъявить — «вот он ходит, чем-то тренькает, колесами переваливается, и сразу видно, что они не зря свой хлеб ели». Большой проект — это не просто большая тема, как, например, «Октябрь в искусстве», на которую можно писать все, что угодно. Речь идет о создании нового инструментария, базы данных, специфической методологии для других исследователей. «То есть мы создаем некоторый public domain для исследователя», — пояснил Ярослав Кузьминов.

По мнению проректора ВШЭ Марии Юдкевич, большие проекты как надстройка над существующим ландшафтом науки в университете помогут преодолеть разобщенность отдельных коллег и отдельных коллективов: «Предстоит сформировать мультидисциплинарные, межфакультетские и межкампусные распределенные команды, к которым на разных этапах смогут присоединиться другие коллеги, заинтересовавшиеся их повесткой».

В двух из четырех пилотных проектов, представленных на заседании ректората, задействованы ресурсы системы интеллектуального анализа больших данных iFORA, разработанной ИСИЭЗ.

Целью проекта «Литература как культурная практика и социальный опыт» является изучение того, как литература влияет через различные институты и практики на формирование ценностей, идентичностей и ориентиров общества. Итоговым продуктом станет цифровая платформа, позволяющая изучать практики производства и потребления литературы. С помощью iFORA будет апробирован алгоритм анализа частотности появления тех или иных дискурсивных концептов, контекста их употребления и визуализированы связи между собранными текстами.

Проект «Речевые практики» изучает разрыв между мыслительным и коммуникативным процессом на примере среза речевых практик русского языка. Это, например, метаязык, позволяющий точно выразить содержание при написании законов, но плохо понятный тем, кто законы не пишет; или псевдо-высказывания, когда статья написана учеными словами, но содержания там нет, с помощью метаязыка автор запутывает читателя. Итогом проекта станет совокупность баз данных по коммуникативным сбоям в современном русском языке и порождаемым ими политическим, экономическим, социальным, когнитивным и другим эффектам. Для их создания будет использован алгоритм выявления специфичной терминологии речевых практик и фильтрации профессиональных и лингвокультурных коммуникаций, также разработанный с использованием системы iFORA.

Среди датасетов, которые обработают сотрудники Центра стратегической аналитики и больших данных ИСИЭЗ для больших проектов факультета гуманитарных наук, будет, например, корпус русского романа (более 2000 текстов), базы данных литературных журналов, архивов советского культурного андеграунда, словарей и мемуаров (в том числе свыше 1100 мемуарных источников жертв ГУЛАГа) и другие источники, связанные с институтами производства литературы.

 

Комментирует заместитель директора Центра стратегической аналитики и больших данных ИСИЭЗ Илья Соченков:

ИСИЭЗ развивает методы и технологии iFORA для семантического анализа научно-технической и новостной информации, соцсетей и профессиональных медиа примерно с 2014 года. В большинстве наших проектов задействованы действительно большие данные, исчисляемые сотнями миллионов текстов различного вида, жанра и тематики.

В прошлом году у нас появилась идея применить систему iFORA для обработки профессионального дискурса и перенести отработанные на больших данных решения на область малых данных: к таковым относятся сравнительно небольшие корпуса, с которыми имеют дело профессиональные лингвисты и литературоведы. Собственно, эта идея и воплотилась в первых больших проектах Вышки. Участие в них намечает для нас отдельную область исследований, своего рода «обучение с переносом» (Transfer Learning).

Для выявления закономерностей в лингвокультурных коммуникациях в области гуманитарного знания система iFORA проанализирует различные массивы текстов, включая литературные источники и архивы писателей. В результате мы планируем предоставить нашим коллегам из факультета гуманитарных наук визуализации и комментарии к выявленным закономерностям для их последующей содержательной интерпретации.