Abstract

Веб-форми залишаються однією з головних цілей спам-кампаній, де координовані боти поєднують масові відправлення, повторне використання полів, часові сплески та технічне маскування, а обсяг розмітки обмежений і діють вимоги приватності. Пропонується модель контрастивної графової нейромережі на основі кількох представлень для фільтрації веб-спаму. Модель об’єднує три представлення подій. Представлення відправок описує зв’язки між заявками за дублюванням полів, часовою близькістю та контактами. Поведінкове представлення є гетерографом взаємодій користувачів, форм і сторінок разом із технічними атрибутами. Семантичне представлення будується як kNN-граф за векторними поданнями тексту та URL. Для кожного представлення застосовуються окремі енкодери GNN з використанням R-GCN для типізованих відносин та GAT або GCN для семантичних і зв’язків відправок. Далі виконується адаптивне злиття представлень, що автоматично зміщує вагу між поведінковими та контентними сигналами на рівні окремої відправки. Навчання поєднує бінарну перехресну ентропію на позначених прикладах і контрастивне узгодження між представленнями з аугментаціями типу drop-edge, feature-mask і стохастичний kNN, а також легку регуляризацію для стабільності. Підхід орієнтовано на практичне розгортання з часовими сплітами без витоків, інтерпретованістю через ваги злиття та механізми уваги, анонімізацією чутливих атрибутів, масштабованим оновленням графів і контролем балансу помилкових спрацьовувань і пропусків відповідно до бізнес-метрик.

Мультирепрезентаційна GNN-модель з узгодженням і адаптивним злиттям для детекції спаму

Замрій Ірина, Іван Шахматов

Державний університет інформаційно-комунікаційних технологій

Abstract