Анализ текстов поможет увидеть будущее

Интеллектуальный анализ текстов позволяет спрогнозировать развитие технологий и рынков, определить уровень компетентности отраслевого эксперта и понять, какие тренды в науке наиболее перспективны. О разработках в области анализа текстов рассказал ведущий эксперт Института статистических исследований и экономики знаний (ИСИЭЗ) НИУ ВШЭ Илья Кузьминов на международной научно-практической конференции «Форсайт и научно-техническая и инновационная политика».


Илья Кузьминов

Карта будущего

Текст-майнинг или интеллектуальный анализ текстов (ИАТ) — это направление в сфере Big Data, занимающееся получением информации из коллекций неструктурированных полнотекстовых документов с помощью методов обработки естественного языка и машинного обучения.

Программные продукты ИАТ используются в самых разных областях — от маркетинга и мониторинга настроений в соцсетях до бизнес-разведки и прогнозирования развития науки, технологий и техник, отметил Илья Кузьминов в докладе «Текст-майнинг: анализ полнотекстовых источников и построение онтологий для целей форсайта».

«К примеру, вам нужно понять, как оценивают перспективу того или иного рынка высокотехнологичной продукции к 2020 году, — рассказал Кузьминов о возможном применении текст-майнинга для нужд форсайта. — Программа анализирует большой объем экспертных отчетов, где встречаются нужные синтаксические конструкции, слова-маркеры и близкие к ним по смыслу слова. Алгоритмически выявляются все контексты, где сказано, что, например, по данным исследования, к такому-то году некий показатель достигнет определенного количественного значения. Даже можно вывести на одну страницу все прогнозы разных авторитетных агентств, например, по цене на нефть, и увидеть, сложную картину противоречий в прогнозах. Это уже предмет для научного анализа».

На сегодняшний день в НИУ ВШЭ уже разработано и протестировано собственное программное обеспечение для определения прогнозных оценок, а также для поиска «майлстоунов» (ключевых технологических событий из прошлого) по 31 тематическому направлению и собрана база данных, измеряемая несколькими десятками тысяч документов. При этом делается акцент на качестве анализируемых полнотекстовых источников, а не на их количестве. «Можно было бы собрать несколько миллионов или даже десятков миллионов документов из открытых источников с помощью сканирования веба, но там будет очень много "мусора", поэтому пока мы концентрируемся на подборке качественных источников, их экспертной валидации», — пояснил Кузьминов.

Сейчас, по словам ученого, формируются словари высокоспецифичных (маркерных) слов, фраз и их синонимических рядов для создания модуля машинной тематической классификации полнотекстовых источников. Также проводится работа над автоматическим формированием принципиально нового продукта Форсайт-центра — структурных таймлайнов научно-технологического развития. «Это некая карта будущего, где прописаны события, которые нас ожидают в ближайшие тридцать лет», — пояснил спикер. Это прикладной продукт, которым заинтересовались два министерства и ряд корпоративных заказчиков.

Еще одна функция текст-майнинга в форсайте — поиск в научных текстах так называемых «слабых сигналов» — сообщений о событиях, которые сейчас воспринимаются, как незначимые и неопределенные, но в перспективе способны радикально изменить будущее.

Одним из способов поиска слабых сигналов является выявление неологизмов. Для поиска таких сообщений необходим полный перечень слов какого-либо языка. Словарь, включающий имена собственные, географические названия, названия химических веществ и биологических видов, типичные опечатки и грамматические ошибки. Сопоставляя слова и словосочетания из научного журнала или из материалов конференции с этим огромным словарем, а также создав несколько дополнительных специфических фильтров, можно вычислять кандидаты в неологизмы, то есть слова, только зарождающиеся в данном языке. Проанализировав значения новых слов, можно спрогнозировать появление отраслей, которые полностью изменят будущее. Ведь, как напомнил эксперт, слова «летчик» или «робот» появились в литературе едва ли не раньше, чем явления, которые они означали.

Технологии важно не только создать, но и внедрить. Текст-майнинг позволяет определить, какие научные понятия перетекают из науки в практику управления, а какие — нет. Для этого, в упрощенном варианте, берутся две коллекции источников: с одной стороны, научные статьи, с другой — прогнозно-аналитические и программные документы международных организаций и национальных отраслевых ведомств.

Так можно увидеть, что какой-то кластер взаимосвязанных понятий активно обсуждаться в научной литературе уже десять лет назад, но до сих пор очень редко задействован в современных документах, связанных с принятием стратегических решений в сфере глобального или госуправления. Это может свидетельствовать о недостаточно интенсивном диалоге науки и практики в данной сфере. Если система понятий, появившаяся буквально в прошлом году, уже активно засвечивается в документах, связанных с госуправлением, то область науки, в которой это понятие возникло, находится под пристальным вниманием лиц, принимающих решения.

О чем молчит эксперт

Методы текст-майнинга вполне применимы не только для прогнозирования будущего, но и для решения проблем в настоящем. Одно из перспективных направлений, над которым работают ученые НИУ ВШЭ — это определение профессиональных профилей экспертов с помощью ИАТ. Для этого, в самом примитивном варианте, берется «эталонный» набор текстов по определенному направлению, скажем, по сельскому хозяйству, и машинным образом формируется перечень из, например, ста самых употребляемых и при этом высокоспецифичных для данной тематической области слов, словосочетаний и фраз (или, по-научному, н-грамм). Экспертам также предлагается составить ранжированный перечень наиболее важных словосочетаний, которые, по их мнению, характеризуют данную отрасль.

Два списка сравниваются. Если совпадения существенны и эксперт привел наиболее употребительные слова, то перед нами эксперт широкого профиля, который в целом разбирается в отрасли, не углубляясь в детали. Если словосочетания, выбранные экспертом, относятся к какой-то специализированной области, имеет место «смещенность» выборки, значит это «узкий специалист», который видит отраслевую тематику через призму своей ниши. Наконец, если человек предлагает перечни словосочетаний и слов, которые никак не соотносятся с тем, что отобрала машина по эталонному, верифицированному перечню тематических документов, можно предположить, что он может быть в недостаточной мере компетентен в рассматриваемой области.

Специалистами НИУ ВШЭ уже разработано действующее программное обеспечение для решения подобных задач и отработаны необходимые алгоритмы, отметил автор доклада. Обработаны и «полностью разбиты на предложения и словосочетания» с созданием соответствующих баз данных несколько десятков тысяч документов. «Число может показаться не очень большим — в некоторых системах говорят о десятках миллионов документов, — комментирует эксперт НИУ ВШЭ. — Но мы очень тщательно подходим к подбору. Не запускаем робот, который соберет из интернета все, что есть в свободном доступе, а пользуемся малодоступными источниками, в том числе закрытыми источниками Высшей школы экономики». На данный момент идет разработка удобного интерфейса, который позволил бы каждому пользователю самостоятельно загружать документы в любом удобном ему файловом формате и получать кастомизированные результаты.

Схожим образом текст-майнинг позволяет отбирать резюме кандидатов на ту или иную вакансию. Ведь в каждом виде деятельности есть набор характерных слов и фраз. Значит, резюме, публикации и прочую информацию потенциальных сотрудников можно тестировать на наличие и частоту употребления специфических слов-маркеров. Можно составлять некие «словарные паспорта» должностей.

С помощью ИАТ удобно проводить базовый анализ и ранжировать резюме по наличию в них грамматических ошибок, жаргонизмов или оборотов, не приемлемых в деловой переписке. «Есть вакансии, на которые приходит до нескольких тысяч резюме, — пояснил Кузьминов. — Текст-майнинг позволяет за несколько секунд отобрать самые безупречные, над которыми люди тщательно работали, выверяя каждое слово».

Влад Гринкевич, для OPEC.ru

Публикации на других ресурсах:

Интеллектуальный анализ текстов поможет мониторить настроения в соцсетях (Центр политического анализа, 11.12.2015)

Дата

11 декабря 2015

В статье упомянуты

Институт статистических исследований и экономики знаний

Институт статистических исследований и экономики знаний

Новости

Анализ текстов поможет увидеть будущее