Центр стратегической аналитики и больших данных провел осеннюю серию вебинаров на тему исследований человеческого потенциала
На первом вебинаре из серии, проходившем 7 октября 2022 года, – «Как большие данные помогают определять центры принятия решений и ключевые тренды развития стран (на примере КНР)», спикеры – сотрудники Центра стратегической аналитики и больших данных ИСИЭЗ НИУ ВШЭ Мария Анташева, Юлия Исаева и Полина Лобанова – прокомментировали особенности работы с источниками данных на китайском языке, обозначили основные тренды в области развития человеческого капитала, которые можно выявить на основе анализа больших данных, а также выделили основные меры поддержки реализации человеческого капитала в КНР. Спикеры отметили, что вопросы развития человеческого капитала и поддержки талантов в последние годы в Поднебесной вынесены на передовую внутренней повестки, наряду с активизацией деятельности государственных органов, в том числе с опорой на максимально широкое внедрение цифровых технологий в этой сфере. При помощи разработанной в ИСИЭЗ НИУ ВШЭ системы интеллектуального анализа больших данных iFORA спикерами был выявлен ряд компетентных органов и организаций, относящихся к наиболее влиятельным центрам принятия решений в КНР в области человеческого капитала, к которым относится, например, Государственный комитет по развитию и реформам КНР (国家发展改革委).
На втором вебинаре из серии, проходившем 2 ноября 2022 года, – «Как большие данные помогают определять общественные настроения (на примере СМИ Китая)», спикеры – сотрудники Центра стратегической аналитики и больших данных ИСИЭЗ НИУ ВШЭ Мария Анташева и Юлия Исаева – раскрыли важность сентимент-анализа как эффективного инструмента выявления тенденций в общественных настроениях. В качестве источниковой базы для проведения исследования, результаты которого были представлены на вебинаре, была взята китайская социальная сеть Zhihu (知乎), аудитория которой в настоящее время насчитывает более 150 млн человек. Выбор типа источника – социальной сети – спикеры обусловили специфичностью и высокой степенью эмоциональной окрашенности публикуемого контента. В рамках проведения исследования сотрудниками Центра также была обучена регрессионная модель сентимент-анализа для текстов на китайском языке, позволяющая «предсказывать» семантическую оценку текстов в диапазоне (-1;1), а результат которой интерпретируется через близость полученной от неё семантической оценки к одному из значений: «-1» = «негативная окраска», «0» = «нейтральная окраска», «+1» = «позитивная окраска». Результаты сентимент-анализа социальной сети по ключевым запросам в рамках тематики «Городская инфраструктура» показали, что общественная оценка уровня развития инфраструктуры в КНР варьируется в зависимости от типа анализируемого источника – СМИ или социальных сетей.
На третьем вебинаре из серии, проходившем 18 ноября 2022 года, – «”Машинный” взгляд на вопросы развития человеческого капитала», спикер – ведущий эксперт Центра стратегической аналитики и больших данных Михаил Захаров – обозначил основные подходы, которые его коллеги применяют для анализа больших массивов текстовых данных об инфляции, безработице, инвестициях в образование и других аспектах, значимых для изучения факторов, влияющих на развитие человеческого капитала. Для выявления такого рода текстовых данных происходит обучение специальных моделей, алгоритм которого включает в себя ряд процессов, например, разметку данных (слов-маркеров), подбор гиперпараметров и т. д. Основная часть доклада была посвящена описанию того, как происходит машинное обучение на основе модели Transformer, а также как решается проблема нехватки размеченных данных. В рамках вебинара спикер также прокомментировал такие вопросы, как актуальность применения технологий машинного обучения для решения задач Центра стратегической аналитики и больших данных, способы формулировки необходимой для разрешения проблемы в виде задачи машинного обучения, описал методологические подходы, использующиеся для обучения моделей.
В завершающей части каждого из трех вебинаров слушатели задавали докладчикам интересующие их вопросы, а по итогам вебинара «Как большие данные помогают определять общественные настроения (на примере СМИ Китая)» на веб-сайте университетского бренд-медиа Высшей школы экономики HSE Daily Павел Аптекарь, обозреватель СМИ, выпустил статью, резюмирующую итоги проведенного сотрудниками Центра стратегической аналитики и больших данных исследования по сентимент-анализу китаеязычных источников.