Парсинг отзывов.
треды скажем можешь брать из веселых картинок. или веселых видео. так обычно как раз комменты в нужном тебе односложном стиле
В продолжении этой идеи - на постах флокала можно обучать нейросеть.
Тестить собираюсь на прайс.ру и яндекс-маркете - там народ явно друг с другом не знаком, да и к тематике заказчика ближе
Но вопрос в принципе в силе.
флокал на самом деле тут не очень подходит, т.к. ест личные симпатии/антипатии.флокал не подходит по многим другим причинам. Здесь не такое большое общество, законсервированное в малом объёме. Полно иронии и сарказма, а так же внутренних мемов. И я не знаю, как бот будет справляться с парсингом сообщений исмольника, если с этим не смог справиться весь форум. Точно так же лично я затрудняюсь осмыслить позитивность/негативность оценок Хулио. В его постах вообще всё перепутано: факты, ирония, болезненные комплексы, шутовство.
да, ирония и сарказм - это большая сложность для парсинга. нужно как-то их выделять и отправлять на ручную модерацию. Пока мысль выделять по большому количеству преувеличений, но это нужно пробовать
их можно комбинировать.
первый - это составление шаблонов отрицательных и положительных отзывов.
второй - выделение различных чисел - факторов, типа количество смайликов,
или количество мата, или еще чего-нибудь.
По каждому пути можно идти
а) вводя ручные шаблоны, словари негавных или позитивных слов, негативные-позитивные символы типа смайликов.
б) автоматически обучать программу на примерах.
Но вроде как сначала надо сделать тестовую разметку.
То есть ты берешь несколько тысяч сообщений, размечаешь их, как позитивные, негативные или нейтральные.
Потом
а) пытаешься понять - а что же общего в таких постах.
б) предлагаешь факторы для принятия решения.
в) решаешь в ручную составлять факторы или обучением.
прайс.ру и яндекс-маркетебез понятия, как оно на самом деле, но
где-то писали, что 70% отзывов пишут производители и их конкуренты
б) автоматически обучать программу на примерах.эээ.... с этого места поподробнее плиз.
потом ты строишь обучающую выборку - делаешь разметку- ставишь постам + или минусы - назовем их переменной у
потом берешь какую-нибудь нейронную сеть и обучаешь на этой разметке.
она учится строить функцию f такую, что
y = f(x1,x2,x3,x4,...)
потом для любого поста ты можешь вычислить факторы x1,...
и напустить на эти факторы нейронную сеть, которая скажет - плюсовой пост, или минусовой.
В этом году на ВМК один человек диплом защитил по этой теме, насколько мне известно
Какой именно? И что за человек?
нанотехнологии еще предложи! не нужны никакие нейронные сети, обыкновенного SVM хватит выше крыши. а то и вообще МНК
важно насколько хорошие подобрать факторы и какое качество размеченной базы. а каким методом машинно-обучаться это уже намного меньшее значение имеет.
не нужны никакие нейронные сети, обыкновенного SVM хватит выше крышиSVM-ы на порядок сложнее, чем нейронные сети. Но зачастую дают более хорошие результаты.
Вот статейка на эту тему - если интересно: http://www.russian.slavica.org/article11954.html
Оставить комментарий
and-guzij
Серьезный вариант этого поста:Задача: парсить отзывы в автоматическом режиме для понимание негативный он или позитивный. Причем желательно с градацией: сильно негативный, умеренно негативный, нейтральный, умеренно позитивный, позитивный, хз что - разбираться в ручном режиме.
Нужно понять список правил по которому сообщение можно отнести к той или иной группе. Самое очевидное правило - то наличие в сообщении тех или иных ключевых слов. Вопрос - где-нибудь есть готовые наборы таких ключевиков?