Статьи / Профиль ServPonomarev / Хабр

Сергей Пономарёв @ServPonomarev

Пользователь

ПрофильСтатьи5ПостыНовостиКомментарии484

ServPonomarev 1 апр 2019 в 10:38

Повышаем качество классификации текстов подключив Википедию

7 мин

1.8K

Машинное обучение*

Используем большой структурированный источник мультиязычных текстов – Википедию для улучшения качества классификации текстов. Подход хорош высокой степенью автоматизма и независимостью от того, какая именно задача классификации решается. Наибольший эффект, однако, ожидается на задачах определения тематики.

Читать дальше →

ServPonomarev 23 мар 2017 в 14:35

Технологический стек классификации текстов на естественных языках

15 мин

18K

Машинное обучение*Семантика*

В данном посте мы рассмотрим современные подходы, применяемые для классификации текстов на естественном языке по их тематикам. Выбранные методы работы с документами определены общей сложной спецификой задачи – зашумлёнными обучающими выборками, выборками недостаточного размера или вообще отсутствующими выборками, сильным перекосом размеров классов и так далее. В общем – реальные практические задачи. Прошу под кат.

Читать дальше →

+17

ServPonomarev 19 фев 2016 в 15:20

Word2Vec: классификация текстовых документов

5 мин

28K

Data Mining*Поисковые технологии*Семантика*

Известная утилита дистрибутивной семантики Word2Vec демонстрирует удивительные результаты и стабильно обеспечивает использующих её специалистов призовыми местами на конкурсах машинной лингвистики. Преимущество утилиты, как впрочем, и её аналогов – Glove и AdaGram, состоит в дешевизне процесса обучения и подготовки обучающих текстов. Но есть и недостатки – представление слов в виде векторов хорошо работает на словах, удовлетворительно на словосочетаниях, так-себе на фразах и вообще никак – на длинных текстах.

В данной статье предлагается к обсуждению подход, позволяющий представить текст любой длины в виде вектора, позволяющий проводить с текстами операции сравнения (вычисления дистанции), сложения и вычитания.

Читать дальше →

ServPonomarev 29 янв 2015 в 16:38

Word2Vec в примерах

5 мин

94K

Поисковые технологии*Семантика*Data Mining*

Recovery Mode

Волею судеб в мои руки попал обученный на поисковых запросах Word2Vec. Под катом даны примеры использования с пояснениями.

Читать дальше →

+11

ServPonomarev 10 июл 2014 в 15:35

Любительский подход к компьютерной лингвистике

5 мин

19K

Семантика*Программирование*

Туториал

Из песочницы

Этим постом я хочу привлечь внимание к интересной области прикладного программирования, бурно развивающейся в последние годы — компьютерной лингвистике. А именно — системам, способным к разбору и пониманию текста на русском языке. Но основной фокус внимания я хочу сместить с академических и промышленных систем, в которые вложены десятки и тысячи человеко-часов, к описанию тех способов, какими успехов на этом поприще могут добиться любители.

Читать дальше →

+42

Повышаем качество классификации текстов подключив Википедию

Технологический стек классификации текстов на естественных языках

Word2Vec: классификация текстовых документов

Word2Vec в примерах

Любительский подход к компьютерной лингвистике

Информация

zproxy.org