Система виявлення ботів
Це веб-сервіс для аналізу журналів доступу веб-серверів (access log), який дозволяє виявляти автоматизовану активність та класифікувати клієнтів на категорії «людина» та «бот».
В якості вхідних даних система приймає:
- рядки журналу доступу (raw log)
- або файл логів у форматі
.txt
Після завантаження дані проходять повний цикл обробки: парсинг, формування сесій користувачів та аналіз поведінкових характеристик (інтервали між запитами, структура навігації, частота звернень тощо).
Для коректного аналізу система потребує достатньої кількості запитів — як правило, не менше 5 послідовних дій користувача в межах однієї сесії. При цьому враховуються лише запити до сторінок (без статичних ресурсів, таких як CSS, JS або зображення), що дозволяє точніше оцінити реальну поведінку клієнта.
Класифікація виконується на основі поєднання кількох підходів: поведінкових евристик та моделі машинного навчання (нейронної мережі), що дозволяє більш точно відрізняти реальних користувачів від ботів.