Как стать автором
Обновить
12
0
Сергей Пономарёв @ServPonomarev

Пользователь

Отправить сообщение

Повышаем качество классификации текстов подключив Википедию

Время на прочтение7 мин
Количество просмотров1.8K
Используем большой структурированный источник мультиязычных текстов – Википедию для улучшения качества классификации текстов. Подход хорош высокой степенью автоматизма и независимостью от того, какая именно задача классификации решается. Наибольший эффект, однако, ожидается на задачах определения тематики.
Читать дальше →

Технологический стек классификации текстов на естественных языках

Время на прочтение15 мин
Количество просмотров18K
В данном посте мы рассмотрим современные подходы, применяемые для классификации текстов на естественном языке по их тематикам. Выбранные методы работы с документами определены общей сложной спецификой задачи – зашумлёнными обучающими выборками, выборками недостаточного размера или вообще отсутствующими выборками, сильным перекосом размеров классов и так далее. В общем – реальные практические задачи. Прошу под кат.
Читать дальше →

Word2Vec: классификация текстовых документов

Время на прочтение5 мин
Количество просмотров28K
Известная утилита дистрибутивной семантики Word2Vec демонстрирует удивительные результаты и стабильно обеспечивает использующих её специалистов призовыми местами на конкурсах машинной лингвистики. Преимущество утилиты, как впрочем, и её аналогов – Glove и AdaGram, состоит в дешевизне процесса обучения и подготовки обучающих текстов. Но есть и недостатки – представление слов в виде векторов хорошо работает на словах, удовлетворительно на словосочетаниях, так-себе на фразах и вообще никак – на длинных текстах.

В данной статье предлагается к обсуждению подход, позволяющий представить текст любой длины в виде вектора, позволяющий проводить с текстами операции сравнения (вычисления дистанции), сложения и вычитания.
Читать дальше →

Word2Vec в примерах

Время на прочтение5 мин
Количество просмотров94K
Волею судеб в мои руки попал обученный на поисковых запросах Word2Vec. Под катом даны примеры использования с пояснениями.
Читать дальше →

Любительский подход к компьютерной лингвистике

Время на прочтение5 мин
Количество просмотров19K
Этим постом я хочу привлечь внимание к интересной области прикладного программирования, бурно развивающейся в последние годы — компьютерной лингвистике. А именно — системам, способным к разбору и пониманию текста на русском языке. Но основной фокус внимания я хочу сместить с академических и промышленных систем, в которые вложены десятки и тысячи человеко-часов, к описанию тех способов, какими успехов на этом поприще могут добиться любители.
Читать дальше →

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность