Прога по анализу ботоводства.
имхо так можно различить 3-4 человека, но никак не 1000
Там по отрывку текста прога определяет, на какого из авторов это похоже.
AFAIK, хороший виртуал разговаривает не так, как его хозяин. Иначе какой в нём смысл?
например, человек заводит бота, что бы задать какой-нибудь мнтимный вопрос,
или что бы из-под одного узера всех обсирать, а из-под другого вежливо общаться.
ктомуже, если ввести что-то вроде индекса встречаемости слов, то можно запалить тех, кто делает одни и теже типичные ошибки (описки).
Короче, говоря воспользоваться бессознательной частью написанного.
Хотя конечно, грамотный человек, который будет постоянно контролировать себя обойдет все эти камни стороной.
что выдумывать что-то, простейший sql-запрос
+1
При этом неспортивно и не так интересно.
ну я не говорю, что это 100%, но явно больше, чем выдаст эта супер прога по анализу текста
Символами человека не определишь. Словами - тоже. Достаточно надежно можно определить человека по грамматике. Тема уже поднималась, ищите.
А нельзя разве по так называемому авторскому стилю.
Тут про то и речь - что у ботов стиль меняют. Иначе запалят сразу - я вот например Аннонимуса по нескольким постам только поняла, что это Степан
А вот мой анализатор говорит, например, что ты парень (причем задрот)
Такой, поди?
program botdetect;
{$R messages.pas}
begin
var botname:string;botstatus:integer;
writeln("Введите имя бота");
readln(botname);
botstatus:=check_bot_posts;
//writeln(message[botstatus]);
writeln("Парень, причём задрот");
end.
Так вот я слышал, что прикол в том, что это крайне трудно, и имея достаточный объем текста определить всё равно можно. Специалисту.
Например, любишь ты писать очень длинными, закрученными фразами, с кучей причастных оборотов и т.д., так, что одно предложение растягивается на страницу. Заводишь бота, и, чтобы не попалили, пишешь короткими, отрывистыми предложениями. Это, ты считаешь, не изменит стиль?
Возможно, определить ещё как-то можно, когда человек совсем мпало (не больше пяти, например и когда они друг от друга ну уж совсем сильно отличаются
И еще. Алгоритмы, может, и неплохие - значит, плохие корпуса. Насколько я знаю, на сегодня нет программ, позволяющих определить авторство текста.
Если задание - определить среди, скажем, двух известных тебе человек, если они пишут по разному, и если никто из них не скрывает свой стиль - можно. Да и среди десяти, и сотни, наверное даже. Но определить, что текст, который тебе сказали, что это Пушкин, не подделка - действительно сейчас нельзя. Потому что, если он не отличаетсяы совсем сильно, нельзя тогда ничего сказать.
я как-то писал скрипт (он и сейчас где-то валяется с базой который определяет по частоте появления пар символов в теле письма, спам это или не спам. Я скармливал, для создания частотной базы, письма целиком - с хедером и вложениями. Может именно поэтому четкого различия не получилось. После примерно 1500 спам-писем и 500 не спам-писем, частоты, конечно, различались, но не на столько, чтобы это ставить критерием сортировки писем. И я забил на это.
Оставить комментарий
SCIF32
Никто не пробовал писать прогу, которая по//не помню как точно это называется
по анализу частоты встречаемости различных символов(пар символов, слов)
определяет автора написанного? //специально для нашего форума
Вроде идея когда-то появлялась здесь --- не реализовал никто?
понятно, что алгоритмы давно известные и идея не нова, просто интересен результат.