Прога по анализу ботоводства.
имхо так можно различить 3-4 человека, но никак не 1000
Видел в инете лингвоанализатор, вроде на сайте rusf.ru
Там по отрывку текста прога определяет, на какого из авторов это похоже.
Там по отрывку текста прога определяет, на какого из авторов это похоже.
AFAIK, хороший виртуал разговаривает не так, как его хозяин. Иначе какой в нём смысл?
Хороший - да, но есть же и плохие:
например, человек заводит бота, что бы задать какой-нибудь мнтимный вопрос,
или что бы из-под одного узера всех обсирать, а из-под другого вежливо общаться.
ктомуже, если ввести что-то вроде индекса встречаемости слов, то можно запалить тех, кто делает одни и теже типичные ошибки (описки).
Короче, говоря воспользоваться бессознательной частью написанного.
Хотя конечно, грамотный человек, который будет постоянно контролировать себя обойдет все эти камни стороной.
например, человек заводит бота, что бы задать какой-нибудь мнтимный вопрос,
или что бы из-под одного узера всех обсирать, а из-под другого вежливо общаться.
ктомуже, если ввести что-то вроде индекса встречаемости слов, то можно запалить тех, кто делает одни и теже типичные ошибки (описки).
Короче, говоря воспользоваться бессознательной частью написанного.
Хотя конечно, грамотный человек, который будет постоянно контролировать себя обойдет все эти камни стороной.
проще вывести список ников, сгруппированных по ip
что выдумывать что-то, простейший sql-запрос
что выдумывать что-то, простейший sql-запрос

+1 

Это не маза, т.к. это обходится вообще просто: регишь бота втихаря с чужого компа, а потом юзаешь проксю.
При этом неспортивно и не так интересно.
При этом неспортивно и не так интересно.
ну я не говорю, что это 100%, но явно больше, чем выдаст эта супер прога по анализу текста 

Символами человека не определишь. Словами - тоже. Достаточно надежно можно определить человека по грамматике. Тема уже поднималась, ищите.
А нельзя разве по так называемому авторскому стилю. 

Тут про то и речь - что у ботов стиль меняют. Иначе запалят сразу - я вот например Аннонимуса по нескольким постам только поняла, что это Степан 

А вот мой анализатор говорит, например, что ты парень (причем задрот) 

Странный анализатор 
Такой, поди?


Такой, поди?
program botdetect;
{$R messages.pas}
begin
var botname:string;botstatus:integer;
writeln("Введите имя бота");
readln(botname);
botstatus:=check_bot_posts;
//writeln(message[botstatus]);
writeln("Парень, причём задрот");
end.

Так вот я слышал, что прикол в том, что это крайне трудно, и имея достаточный объем текста определить всё равно можно. Специалисту.
Да, можно. Но в случае ботов человек специально пишет по другому, и тут ты уже не определишь.
Например, любишь ты писать очень длинными, закрученными фразами, с кучей причастных оборотов и т.д., так, что одно предложение растягивается на страницу. Заводишь бота, и, чтобы не попалили, пишешь короткими, отрывистыми предложениями. Это, ты считаешь, не изменит стиль?
Возможно, определить ещё как-то можно, когда человек совсем мпало (не больше пяти, например и когда они друг от друга ну уж совсем сильно отличаются
Например, любишь ты писать очень длинными, закрученными фразами, с кучей причастных оборотов и т.д., так, что одно предложение растягивается на страницу. Заводишь бота, и, чтобы не попалили, пишешь короткими, отрывистыми предложениями. Это, ты считаешь, не изменит стиль?
Возможно, определить ещё как-то можно, когда человек совсем мпало (не больше пяти, например и когда они друг от друга ну уж совсем сильно отличаются

А я слышал, нельзя. Историки (истфак МГУ, если конкретнее например, вообще не верят, что можно определять тексты таким образом. Что уж и говорить о том случае, когда бот специально целенаправленно пишет не так, как основной юзер.
И еще. Алгоритмы, может, и неплохие - значит, плохие корпуса. Насколько я знаю, на сегодня нет программ, позволяющих определить авторство текста.
И еще. Алгоритмы, может, и неплохие - значит, плохие корпуса. Насколько я знаю, на сегодня нет программ, позволяющих определить авторство текста.
Если задание - определить среди, скажем, двух известных тебе человек, если они пишут по разному, и если никто из них не скрывает свой стиль - можно. Да и среди десяти, и сотни, наверное даже. Но определить, что текст, который тебе сказали, что это Пушкин, не подделка - действительно сейчас нельзя. Потому что, если он не отличаетсяы совсем сильно, нельзя тогда ничего сказать.
я как-то писал скрипт (он и сейчас где-то валяется с базой который определяет по частоте появления пар символов в теле письма, спам это или не спам. Я скармливал, для создания частотной базы, письма целиком - с хедером и вложениями. Может именно поэтому четкого различия не получилось. После примерно 1500 спам-писем и 500 не спам-писем, частоты, конечно, различались, но не на столько, чтобы это ставить критерием сортировки писем. И я забил на это.
Оставить комментарий
SCIF32
Никто не пробовал писать прогу, которая по//не помню как точно это называется
по анализу частоты встречаемости различных символов(пар символов, слов)
определяет автора написанного? //специально для нашего форума
Вроде идея когда-то появлялась здесь --- не реализовал никто?
понятно, что алгоритмы давно известные и идея не нова, просто интересен результат.