Прога по анализу ботоводства.

SCIF32

Никто не пробовал писать прогу, которая по
//не помню как точно это называется
по анализу частоты встречаемости различных символов(пар символов, слов)
определяет автора написанного? //специально для нашего форума
Вроде идея когда-то появлялась здесь --- не реализовал никто?
понятно, что алгоритмы давно известные и идея не нова, просто интересен результат.

yolki

имхо так можно различить 3-4 человека, но никак не 1000

Elina74

Видел в инете лингвоанализатор, вроде на сайте rusf.ru
Там по отрывку текста прога определяет, на какого из авторов это похоже.

sergey_m

AFAIK, хороший виртуал разговаривает не так, как его хозяин. Иначе какой в нём смысл?

SCIF32

Хороший - да, но есть же и плохие:
например, человек заводит бота, что бы задать какой-нибудь мнтимный вопрос,
или что бы из-под одного узера всех обсирать, а из-под другого вежливо общаться.
ктомуже, если ввести что-то вроде индекса встречаемости слов, то можно запалить тех, кто делает одни и теже типичные ошибки (описки).
Короче, говоря воспользоваться бессознательной частью написанного.
Хотя конечно, грамотный человек, который будет постоянно контролировать себя обойдет все эти камни стороной.

otvertka07

проще вывести список ников, сгруппированных по ip
что выдумывать что-то, простейший sql-запрос

IvladV71

+1

SCIF32

Это не маза, т.к. это обходится вообще просто: регишь бота втихаря с чужого компа, а потом юзаешь проксю.
При этом неспортивно и не так интересно.

otvertka07

ну я не говорю, что это 100%, но явно больше, чем выдаст эта супер прога по анализу текста

maggi14

Символами человека не определишь. Словами - тоже. Достаточно надежно можно определить человека по грамматике. Тема уже поднималась, ищите.

KISSA

А нельзя разве по так называемому авторскому стилю.

stksa

Тут про то и речь - что у ботов стиль меняют. Иначе запалят сразу - я вот например Аннонимуса по нескольким постам только поняла, что это Степан

sidsid

А вот мой анализатор говорит, например, что ты парень (причем задрот)

stksa

Странный анализатор
Такой, поди?
program botdetect;
{$R messages.pas}
begin
var botname:string;botstatus:integer;
writeln("Введите имя бота");
readln(botname);
botstatus:=check_bot_posts;
//writeln(message[botstatus]);
writeln("Парень, причём задрот");
end.

KISSA

Так вот я слышал, что прикол в том, что это крайне трудно, и имея достаточный объем текста определить всё равно можно. Специалисту.

stksa

Да, можно. Но в случае ботов человек специально пишет по другому, и тут ты уже не определишь.
Например, любишь ты писать очень длинными, закрученными фразами, с кучей причастных оборотов и т.д., так, что одно предложение растягивается на страницу. Заводишь бота, и, чтобы не попалили, пишешь короткими, отрывистыми предложениями. Это, ты считаешь, не изменит стиль?
Возможно, определить ещё как-то можно, когда человек совсем мпало (не больше пяти, например и когда они друг от друга ну уж совсем сильно отличаются

maggi14

А я слышал, нельзя. Историки (истфак МГУ, если конкретнее например, вообще не верят, что можно определять тексты таким образом. Что уж и говорить о том случае, когда бот специально целенаправленно пишет не так, как основной юзер.
И еще. Алгоритмы, может, и неплохие - значит, плохие корпуса. Насколько я знаю, на сегодня нет программ, позволяющих определить авторство текста.

stksa

Если задание - определить среди, скажем, двух известных тебе человек, если они пишут по разному, и если никто из них не скрывает свой стиль - можно. Да и среди десяти, и сотни, наверное даже. Но определить, что текст, который тебе сказали, что это Пушкин, не подделка - действительно сейчас нельзя. Потому что, если он не отличаетсяы совсем сильно, нельзя тогда ничего сказать.

spirinale

я как-то писал скрипт (он и сейчас где-то валяется с базой который определяет по частоте появления пар символов в теле письма, спам это или не спам. Я скармливал, для создания частотной базы, письма целиком - с хедером и вложениями. Может именно поэтому четкого различия не получилось. После примерно 1500 спам-писем и 500 не спам-писем, частоты, конечно, различались, но не на столько, чтобы это ставить критерием сортировки писем. И я забил на это.
Оставить комментарий
Имя или ник:
Комментарий: