Уместные сентименты: как чувства помогают исследовать китайские соцсети
Анализ китайских СМИ и социальных сетей требует специального подхода: ряд особенностей устройства китайского сегмента интернета усложняет извлечение больших массивов данных. Эксперты Института статистических исследований и экономики знаний ВШЭ, используя систему iFORA, провели сентимент-анализ публикаций, касавшихся вопросов развития инфраструктуры и инвестиций в образование. Результаты исследования были представлены на вебинаре, организованном в рамках деятельности НЦМУ «Центр междисциплинарных исследований человеческого потенциала». Обзор по его итогам подготовила редакция HSE Daily.
Авторы исследования назвали свой доклад «Сентимент-анализ как метод исследования человеческого капитала (на примере КНР)». На вебинаре его представили соавторы — эксперт Центра стратегической аналитики и больших данных ИСИЭЗ Юлия Исаева и стажер-исследователь института Мария Анташева, которые сделали акцент на исследовании соцсетей в китайском сегменте.
Юлия Исаева отметила, что система интеллектуального анализа iFORA позволяет ежедневно извлекать более 30 000 документов из интернета на русском, английском, других европейских и азиатских языках, основанных на разных типах алфавитов. Извлеченные таким образом материалы проходят экспертное подтверждение, отсеивающее необъективные источники.
Сентимент-анализ, то есть исследование эмоций и мнений в текстах, признано эффективным инструментом выявления тенденций общественных настроений. Он облегчает определение ключевых проблем, помогает прогнозировать их возникновение и обозначать вероятные траектории решения, рассказывает эксперт.
Сентимент-анализ текстовых материалов на китайском языке имеет свои особенности. Китайский сегмент интернета действует несколько обособленно. Социальные сети и видеохостинги, к которым привыкли мы, в Китае не используются, там работает иная экосистема, она ориентирована на внутреннее потребление. Китайский сегмент занимает baidu.com и другие гиганты, ряд национальных приложений хороши для анализа ситуации в стране, сформировать объективную картину по российским соцсетям не получится.
Например, из системы WeChat, которая объединяет элементы мессенджера, социальной сети, сервиса доставки еды, трудно брать данные, с информацией из открытых новостных источников также немало проблем. Практики, которые есть в масштабных англоязычных и русскоязычных источниках, невозможно применить при работе с китайскими. В частности, у них нет инструкций для бота, собирающего новости, о том, как правильно собирать и обрабатывать данные ресурса. Приходится искать обходные пути, чтобы находить адреса новостей.
Юлия Исаева пояснила, что графические особенности китайского языка не всегда отрицательно влияют на качество анализа, но их надо учитывать при обработке текста: стандартные библиотеки плохо работают с азиатскими языками из-за иероглифов. Слова не разделяются пробелами, но есть фиксированный порядок слов в предложении, что облегчает обработку по сравнению с русским языком. Еще одна проблема: при написании заимствованных слов иероглифы пишутся по произношению, а не по смыслу, а это затрудняет обработку, как и отсутствие склонений и спряжений, а также большое количество грамматических маркеров времени.
Среди других сложностей она назвала отсутствие пагинации (порядковой нумерации страниц) на веб-сайтах.
Авторы рассчитывали соотношение между положительными и отрицательными высказываниями по разным темам, делая выборку отрицательных, положительных и нейтральных записей.
Мария Анташева уточнила, что авторы отработали СМИ из базы iFORA, например people.com. По ее мнению, для исследования был бы хорош ресурс weibo.com (китайский микроблог, похожий на Twitter), но у него нет карты сайта, что затрудняет работу. Поэтому они остановились на Zhihu — сервисе вопросов и ответов, где в ответ на запрос одного пользователя другие пишут ответы и где заметно ярко выраженное собственное мнение по специфическим предметам. Другие пользователи могут комментировать развернутые ответы и писать свои.
Аудитория этой сети в 2018 году составила 150 млн человек, сейчас она могла расшириться, в основном ее пользователи — люди младше 35 лет, пояснила Мария Анташева. «Получилось интереснейшее исследование, мы смогли поработать со словами, интонациями и голосом жителей КНР», — отметила она.
Авторы исследовали три крупных тематических блока: образование, транспорт и инфраструктуру, используя слова и для первичного, и для расширенного запроса.
С помощью обучающей модели были выделены сентименты от -1 до +1 именно для извлечения из китайского языка. Результаты сентимент-анализа СМИ и социальных сетей существенно различались. Например, по запросам «инвестиции в транспорт» и «городской транспорт» сентимент в СМИ в течение двух лет (с февраля 2020-го по март 2022 года) был преимущественно положительным, колебался от 0,3 до 0,8 и лишь дважды был отрицательным. В социальной сети сентимент по направлению «городской транспорт» часто переходил из отрицательной в положительную зону, несколько чаще находился в первой и колебался от -0,4 до 0,6. По направлению «инвестиции в транспорт» сентимент существенно чаще находился в отрицательной зоне и колебался от -0,4 до 0,2. Отвечая на вопрос HSE Daily, есть ли связь перебоев в работе транспорта и аварий с индексом сентиментов, Юлия Исаева ответила утвердительно.
Такая же ситуация сложилась и при сентимент-анализе по направлению «инвестиции в образование». В СМИ подавляющее большинство публикаций были положительными, в большинстве случаев средний индекс превышал 0,4, а в некоторые месяцы — 0,7. Напротив, в социальных сетях преобладали негативные отзывы, но отрицательный сентимент, как правило, не превышал 0,3, а положительные показатели отмечались лишь трижды и не превысили 0,2.
Эксперт подчеркнула, что публикации в социальных сетях — это личные соображения и мнения авторов записей, поэтому следует учитывать, что люди пользуются ими как клапаном для сброса негативной энергии. Нужно принимать в расчет особенности психологии человека: в соцсетях недовольство высказывается чаще, чем удовлетворение.
Профессор департамента анализа данных, принятия решений и финансовых технологий Финансового университета при Правительстве Российской Федерации Александр Иванус поинтересовался, не мешала ли в исследовании неоднозначность понимания терминов. Оба автора считают, что детальная настройка модели позволяет избежать ошибок.
Источник: HSE Daily (публикация от 16.11.2022)