Парсинг отзывов.

and-guzij

Серьезный вариант этого поста:
Задача: парсить отзывы в автоматическом режиме для понимание негативный он или позитивный. Причем желательно с градацией: сильно негативный, умеренно негативный, нейтральный, умеренно позитивный, позитивный, хз что - разбираться в ручном режиме.
Нужно понять список правил по которому сообщение можно отнести к той или иной группе. Самое очевидное правило - то наличие в сообщении тех или иных ключевых слов. Вопрос - где-нибудь есть готовые наборы таких ключевиков?

lubanj

пока что могу предложить лишь отличные тесты под твою задачку: берешь флокал, запускаешь там свой анализатор. корректность его анализа проверяешь совпадением с количеством плюсов, поставленных посту
треды скажем можешь брать из веселых картинок. или веселых видео. так обычно как раз комменты в нужном тебе односложном стиле

Devid

В продолжении этой идеи - на постах флокала можно обучать нейросеть.

and-guzij

флокал на самом деле тут не очень подходит, т.к. ест личные симпатии/антипатии.
Тестить собираюсь на прайс.ру и яндекс-маркете - там народ явно друг с другом не знаком, да и к тематике заказчика ближе :)
Но вопрос в принципе в силе.

yroslavasako

флокал на самом деле тут не очень подходит, т.к. ест личные симпатии/антипатии.
флокал не подходит по многим другим причинам. Здесь не такое большое общество, законсервированное в малом объёме. Полно иронии и сарказма, а так же внутренних мемов. И я не знаю, как бот будет справляться с парсингом сообщений исмольника, если с этим не смог справиться весь форум. Точно так же лично я затрудняюсь осмыслить позитивность/негативность оценок Хулио. В его постах вообще всё перепутано: факты, ирония, болезненные комплексы, шутовство.

and-guzij

да, ирония и сарказм - это большая сложность для парсинга. нужно как-то их выделять и отправлять на ручную модерацию. Пока мысль выделять по большому количеству преувеличений, но это нужно пробовать

SCIF32

есть несколько путей решения задачи.
их можно комбинировать.
первый - это составление шаблонов отрицательных и положительных отзывов.
второй - выделение различных чисел - факторов, типа количество смайликов,
или количество мата, или еще чего-нибудь.
По каждому пути можно идти
а) вводя ручные шаблоны, словари негавных или позитивных слов, негативные-позитивные символы типа смайликов.
б) автоматически обучать программу на примерах.
Но вроде как сначала надо сделать тестовую разметку.
То есть ты берешь несколько тысяч сообщений, размечаешь их, как позитивные, негативные или нейтральные.
Потом
а) пытаешься понять - а что же общего в таких постах.
б) предлагаешь факторы для принятия решения.
в) решаешь в ручную составлять факторы или обучением.

SCIF32

прайс.ру и яндекс-маркете
без понятия, как оно на самом деле, но
где-то писали, что 70% отзывов пишут производители и их конкуренты

and-guzij

б) автоматически обучать программу на примерах.
эээ.... с этого места поподробнее плиз.

SCIF32

ну типа, допустим ты умеешь считать для любого поста какие-то факторы (типа количество матерных слов, количество еще чего-нибудь, совпадение с шаблоном) - назовем их x1,x2,x3,x4,...,
потом ты строишь обучающую выборку - делаешь разметку- ставишь постам + или минусы - назовем их переменной у
потом берешь какую-нибудь нейронную сеть и обучаешь на этой разметке.
она учится строить функцию f такую, что
y = f(x1,x2,x3,x4,...)
потом для любого поста ты можешь вычислить факторы x1,...
и напустить на эти факторы нейронную сеть, которая скажет - плюсовой пост, или минусовой.

6248874

В этом году на ВМК один человек диплом защитил по этой теме, насколько мне известно :)

and-guzij

Какой именно? И что за человек?

rosali

> берешь какую-нибудь нейронную сеть и обучаешь
нанотехнологии еще предложи! :) не нужны никакие нейронные сети, обыкновенного SVM хватит выше крыши. а то и вообще МНК ;)
важно насколько хорошие подобрать факторы и какое качество размеченной базы. а каким методом машинно-обучаться это уже намного меньшее значение имеет.

kokoc88

не нужны никакие нейронные сети, обыкновенного SVM хватит выше крыши
SVM-ы на порядок сложнее, чем нейронные сети. Но зачастую дают более хорошие результаты.

Vincet86

Человек, который защитил диплом - я)
Вот статейка на эту тему - если интересно: http://www.russian.slavica.org/article11954.html

slonishka

вот этого чувака попроси:
http://pavel-kudinov.moikrug.ru/
альфа-профайл!
Оставить комментарий
Имя или ник:
Комментарий: