1 / 32

Изучение характеристик сообществ русскоязычной блогосферы

Изучение характеристик сообществ русскоязычной блогосферы. А.В. Сычев, И.А.Гадебский sav @ cs . vsu . ru. Цель исследования. анализ структуры и связи между атрибутами профилей сообществ в наиболее популярных в России блог-хостингах LiveJournal и LiveInternet

foster
Download Presentation

Изучение характеристик сообществ русскоязычной блогосферы

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Изучение характеристик сообществ русскоязычной блогосферы А.В. Сычев, И.А.Гадебский sav@cs.vsu.ru

  2. Цель исследования • анализ структуры и связи между атрибутами профилей сообществ в наиболее популярных в России блог-хостингах LiveJournal и LiveInternet • поиск эффективных методик обработки данных из профилей сообществ, позволяющих получить дополнительную информацию о сообществах и их интересах

  3. Исходные данные • Реестр русскоязычных сообществ «Живого журнала» • “Топ сообществ” LiveInternet • Для проведения исследования всего было скачано 2905 профилей сообществ LiveJournal и 35984 профилей сообществ LiveInternet

  4. Задачи • Построение хронологии создания сообществ • Расчет усредненных значений атрибутов профилей и их корреляции • Анализ распределения интересов в сообществах • Кластеризация сообществ по интересам, указанным в профиле • Кластеризация интересов по сообществам, в профиле которых они указаны

  5. Хронология создания сообществ LiveJournal

  6. Хронология создания сообществ LiveJournal и LiveInternet

  7. Атрибуты профилейLiveJournal

  8. Атрибуты профилейLiveJournal. Корреляция

  9. Атрибуты профилейLiveInternet

  10. Распределение интересов в сообществахLiveJournal • Хотя бы 1 интерес был указан в профиле 2260 сообществ • Общее количество интересов получилось равным 43247

  11. Распределение интересов в сообществах LiveJournal

  12. Распределение интересов в сообществах LiveJournal • Величина ICW рассчитывалась как сумма весов интересов, указанных в профиле сообщества. Вес интереса был равен частоте его встречаемости в профилях всех сообществ. • Величина CIC рассчитывалась как количество интересов из профиля сообщества, указанных также в профиле хотя бы одного другого сообщества.

  13. Распределение интересов в сообществах LiveInternet

  14. Кластеризация сообществ по интересам (интересов по сообществам) • Первичное расстояние между сообществами расcчитывалось по формуле: • Сообщество ci рассматривалось как множество интересов, указанных в его профиле. • При проведении процедуры кластеризации расстояние между кластерами рассчитывалось по формуле среднего расстояния. • При проведении кластеризации интересов расчет расстояния между интересами выполнялся по аналогичной формуле, при этом вместо размера сообщества подставлялся размер множества сообществ, в которых указан данный интерес.

  15. Кластеризация сообществ по интересам (интересов по сообществам) • В качестве исходных данных для процедуры кластеризации сообществ (интересов) была использована матрица “сообщество-интерес”, на основе который строилась матрица “сообщество-сообщество” (“интерес-интерес”). • При проведении кластеризации интересов в связи с ограничениями вычислительного характера учитывались только интересы, указывавшиеся в двух и более сообществах, т.е. фактически кластеризация выполнялась на прореженных матрицах.

  16. Исходные данные для построения матрицы “Сообщество-Интерес”

  17. Характеристики матриц “Сообщество-Интерес” и "Сообщество-Сообщество" (без прореживания)

  18. Характеристики матриц “Сообщество-Интерес” и "Сообщество-Сообщество" (без прореживания)

  19. Характеристики матриц “Сообщество-Интерес” и "Интерес - Интерес " (с прореживанием)

  20. Характеристики матриц “Сообщество-Интерес” и "Интерес - Интерес " (с прореживанием)

  21. Характеристики кластеров сообществ LiveJournal

  22. Распределение кластеров сообществ LiveInternet при различных значениях порога кластеризации Th

  23. Характеристики кластеров интересов LiveInternet

  24. Распределение кластеров интересов LiveJournal при различных значениях порога кластеризации Th

  25. Кластеризация сообществ • CF– как часто встречается интерес в профилях сообществ, образующих кластер • ICF– количество других кластеров, содержащих сообщества с этим интересом, • PF– частота встречаемости интереса в профилях всех сообществ • CF-ICF– метрика, аналогичная TF-IDF, и показывающая специфичность интереса для данного кластера

  26. Ранжирование интересов в кластере (LiveInternet)

  27. Приложения • поиск латентных “суперсообществ” и определение их тематики • автоматическое структурирование пространства интересов • автоматическая оценка тематической принадлежности и специфичности интересов

  28. Спасибо за внимание. Вопросы, пожалуйста

More Related