Система интеллектуального анализа больших данных

Запрос демо      Работа и стажировка 

 

Ссылка при использовании данных iFORA: Система интеллектуального анализа больших данных iFORA (ИСИЭЗ НИУ ВШЭ)                                   

Наука и технологии в российских и зарубежных СМИ: результаты интеллектуального анализа больших данных

Тематика научно-технологического развития вызывает большой интерес в обществе, что подтверждается степенью ее представленности в СМИ: с 2000 г. она затрагивается прямо или косвенно в 5-10% зарубежных (англоязычных) и 3-7% российских новостных сообщений. Ее освещению посвящен очередной бюллетень серии «Наука, технологии, инновации», подготовленный с использованием разработанной ИСИЭЗ НИУ ВШЭ системы интеллектуального анализа больших данных Intelligent Foresight Analytics (iFORA).

Версия для печати

В отечественных медиа наибольшее внимание уделяется таким направлениям, как транспортные и космические системы, энергетика, информационные технологии, медицина, электроника, робототехника, новые материалы и наноструктуры (рис. 1). Социально-экономические дисциплины освещаются в контексте развития науки и технологий гораздо реже.

Рис. 1. Семантическая карта российских СМИ по тематике научно-технологического развития

показывает актуальные тематики (точки с названиями), их смысловые связи (линии) и объединение в категории (близкое расположение точек)

 

Центральность — комбинированная мера, которая учитывает количество семантических связей между терминами в текстах и силу этих связей. Чем выше значение центральности термина, тем больше тематик связаны с ним.

Значимость — относительная частота, или плотность, встречаемости (упоминаемости, освещаемости) термина в документах. Рассчитывается как отношение числа предложений, в которых встретился термин, к числу всех предложений в документах, относящихся к рассматриваемой области. Соответствующая ось на картах имеет логарифмический масштаб.

В российском медиапространстве широко представлены достижения городов — центров науки — Москвы (показатель центральности — 98), Новосибирска (70), Томска (55), Екатеринбурга (28), Дубны (8), Иркутска (7). Среди организаций наиболее заметны Роскосмос (61), университеты (Томский государственный (30), НИУ ВШЭ (27), МФТИ (22), НИТУ МИСиС (15), НГУ (14), Томский политехнический (12), МГУ (8), ДВФУ (6)), институты РАН (Физический им. П.Н. Лебедева (69), ядерной физики (19) и др.), институты развития (Сколково (15), Роснано (8)) и др. Среди объектов внимания — перспективные проекты, такие как Радиоастрон (61), включающий обсерваторию «Спектр-Р» (16).

Наиболее динамично набирают популярность (рис. 2) тематики, связанные с исследованиями Антарктиды (показатель динамичности — 400%), авиационными комплексами (324%), генетикой (300%), космонавтикой (221%), лазерными системами (200%) и нанотехнологиями (102%), а также столь значимая сфера, как международное научно-техническое сотрудничество (146%).

Рис 2. Тренд-карта российских СМИ по тематике научно-технологического развития

(в правом верхнем углу карты сосредоточены популярные и растущие по популярности тематики, то есть тренды)

В зарубежных медиа (рис. 3) более всего в фокусе компьютерные науки (показатель центральности — 739), материаловедение (234), климатология (190), биология и биотехнологии (105). Крайне популярны организации, ставшие научными брендами, — Массачусетский технологический институт (493), НАСА (219) и др. Широко представлены в новостях передовые исследования, ведущиеся в США (в частности, при поддержке Национального научного фонда и др.), ЕС, Китае, Японии, Республике Корея.

Рис. 3. Семантическая карта зарубежных СМИ по тематике научно-технологического развития

 

Контекст освещения достижений науки и технологий в России и в мире несколько различается: в нашей стране преимущественное внимание уделяется космическим системам и другим техническим направлениям, базирующимся на фундаментальных заделах в математике, физике, химии, материаловедении, инженерных науках (рис. 4). Заметную роль играет институциональная тематика: развитие исследовательской инфраструктуры (показатель значимости — 286) и научно-технического сотрудничества (242). Зарубежные медиа чаще представляют успехи в области вычислительной техники (значимость — 967), экологии (271), наук о жизни (190).  

Рис. 4. Соотношение популярности научно-технологических тематик в российских и зарубежных СМИ

Динамичность — среднегодовой темп роста (average annual growth rate, AAGR) относительной частоты встречаемости термина по годам в процентах. Чем выше значение данного показателя, тем быстрее растет плотность употребления термина в последние годы. Иными словами, динамичность отражает рост популярности изучаемой тематики в научных и экспертных дискуссиях, профессиональных новостях. Соответствующая ось на картах имеет логарифмический масштаб. Результаты обработки текстов на английском и русском языках нормализовались таким образом, чтобы обеспечить сравнимость между ними. Анализ русскоязычных и англоязычных текстовых данных проведен по единой методике, с учетом специфики на уровне низкоуровневых алгоритмов статистического, синтаксического и семантического анализа текстов.

Сравнительный анализ демонстрирует определенную специфику в освещении научно-технологических тематик в российских и зарубежных медиа. Это видно из рисунка 4, где синяя линия обозначает корреляционную зависимость между показателями, отраженными на вертикальной и горизонтальной осях. При высокой корреляции она проходила бы под наклоном из левого нижнего в правый верхний угол.

Справочно: Материал подготовлен с использованием разработанной ИСИЭЗ НИУ ВШЭ системы интеллектуального анализа больших данных Intelligent Foresight Analytics (iFORA). Ее интегрированная семантическая база данных обновляется и расширяется в ежедневом режиме и охватывает в настоящий момент свыше 20 млн актуальных документов на английском и русском языках. Она включает ведущие зарубежные и российские библиотеки научных публикаций, патентов, грантов, аналитических и стратегических докладов, а также массивы ведущих мировых англоязычных и русскоязычных новостных ресурсов. В рамках iFORA выстроена углубленная методика обработки естественного языка, основанная на собственных разработках ИСИЭЗ НИУ ВШЭ и учитывающая лучшие мировые практики форсайт-исследований, статистики, наукометрии, текст-майнинга, машинного обучения и искусственного интеллекта.

Источники: Анализ выполнен на основе сообщений более чем 200 ведущих мировых англоязычных и русскоязычных новостных ресурсов в сфере научно-технологического и инновационного развития и венчурной экономики, опубликованных за период с 1990 г. по октябрь 2017 г.

Материал подготовили: Илья Кузьминов, Елена Точилина


 

  

Данный материал ИСИЭЗ НИУ ВШЭ может быть воспроизведен (скопирован) или распространен в полном объеме только при получении предварительного согласия со стороны НИУ ВШЭ (обращаться issek@hse.ru). Допускается использование частей (фрагментов) материала при указании источника и активной ссылки на интернет-сайт ИСИЭЗ НИУ ВШЭ (issek.hse.ru), а также на автора материала. Использование материала за пределами допустимых способов и с нарушением указанных условий приведет к нарушению авторских прав.

  

Предыдущий выпуск: «Спрос населения на цифровые технологии»

Все бюллетени серий «Цифровая экономика» и «Наука, технологии, инновации»