ПО для классификации текстов

irinalex

Задача такая: есть набор юридических текстов, которые нужно раскидать по заданному перечню категорий. Каждая категория формируется на основе нескольких ключевых слов (лучше, если словосочетаний - но пока не знаю, как реализовать).
Решать предполагается следующим образом - из текстов выбрасываются слова общей лексики - для остальных слов подсчитывается частота употребления. Частое употребление ключевого слова в тексте должно явиться основанием для отнесения его в ту или иную категорию.
Вопросы в следующем:
1. Есть ли ПО, которое умеет решать задачи подобной категоризации текстов, как оно называется, если есть?
2. Каковы сферы науки, в которых решают подобные задачи - может быть кто-то в такой работает?
3. Если нет стандартного ПО, то насколько сложным является решение подобной задачки, сколько это может стоить?

dangerr

Решать предполагается следующим образом - из текстов выбрасываются слова общей лексики - для остальных слов подсчитывается частота употребления. Частое употребление ключевого слова в тексте должно явиться основанием для отнесения его в ту или иную категорию.
1. Есть ли ПО, которое умеет решать задачи подобной категоризации текстов, как оно называется, если есть?

grep справится.

Ivan8209

> Задача такая: есть набор юридических текстов, которые нужно
> раскидать по заданному перечню категорий. Каждая категория
> формируется на основе нескольких ключевых слов (лучше, если
> словосочетаний - но пока не знаю, как реализовать).
Зато мы знаем.
> Решать предполагается следующим образом - из текстов
> выбрасываются слова общей лексики - для остальных слов
> подсчитывается частота употребления. Частое употребление
> ключевого слова в тексте должно явиться основанием для
> отнесения его в ту или иную категорию.
Не изобретай велосипед, его уже изобрели до тебя.
> Вопросы в следующем:
> 1. Есть ли ПО, которое умеет решать задачи подобной
> категоризации текстов, как оно называется, если есть?
От Bogofilter и Dspam до более серьёзных вещей, наподобие WEKA и YALE.
> 2. Каковы сферы науки, в которых решают подобные задачи -
> может быть кто-то в такой работает?
"Machine learning," "native language processing."
> 3. Если нет стандартного ПО, то насколько сложным является
> решение подобной задачки, сколько это может стоить?
Зависит от понимания "стандартного ПО," ПО уже есть и его навалом.
Стоить может по-разному. Если надо писать своё, считай, что
нужен хороший программист, высококвалифицированный, поскольку
большинство не знает этой области.
---
"Прогресс науки обратно пропорционален числу выходящих журналов."

Dasar

правильное название задачи: Классификация документов, Document classification

irinalex

Да, большое спасибо за наводки. Покурю для начала тему, перед тем, как спрашивать что-то еще )

Оставить комментарий