Комментарии 6
инструмент так себе
Жаль, что этот аддон работает только для английского - не получилось натравить его на эту новость :-(
По идее, вопрос лишь в том, чтобы натренировать модели для нужного языка.
Русскому языку в Firefox вообще не везёт, например, встроенный переводчик в релизных версиях так и не поддерживает русский (впрочем, если пощупать качество перевода в "ночных" билдах, то становится понятно, почему это не попадает в релиз - качество там такое, что я лучше по-старинке гуглопереводчиком...).
Делали свой чекер (checkgpt.app, сейчас недоступен) на ИИ сгенерированный контент на русском языке (и не только) в начале 23 года еще, тогда еще не появилась волна аналогов и zerogpt был еще в виде steamlit приложения. Собрали датасет доступных на тот момент сгенерированных текстов (chargpt 3, bloom). По нему обучили классификатор (Catboost). Фичи выделяли скриптом на питоне, который извлекал их из текста. Вот фрагмент моей статьи с описанием работы чекера:
Для определения сгенерированного или написанного человеком текста, мы используем комбинацию статистических и эвристических методов.
- Статистические признаки учитывают такие метрики как индекс читаемости и связанности текста, комплексная сложность текста, перплексия, количество уникальных и сложных слов, длина слов и предложений, количество символов и др, юниграмы и токены.
- Эвристические признаки в том числе учитывают извлеченные определенные речевые обороты и слова, нестандартные формулировки и конструкции предложений, отклоенения от текстов, написанных человеком.
В результате работы появился ML алгоритм для классификации текстов, который использует в том числе следующие метрики:
Перплексия (perplexity) или же «коэффициент неопределённости» — метрика оценки языковых моделей. Она определяет сложность текста.
Автоматический индекс удобочитаемости (automated readability index (ARI) — мера определения сложности восприятия текста читателем, аппроксимирующая сложность текста.
Корреляция встречаемости речевых оборотов в текстах.
Индекс сложности текста (text complexity).
Индекс удобочитаемости Флеша (Flesch reading ease formula) — метрика, использующая формулу, оценивающую сложность текста.
Индекс Колман-Лиау (Coleman–Liau index)) — индекс удобочитаемости, который наряду с индексом ARI может использоваться для определения сложности восприятия текста читателем путём аппроксимирования сложности текста.
Уникальность текста - метрика определения вероятностных и уникальных слов и их комбинаций в предложениях.
Связанность предложений (cohesion) - и лексическая связность текста или предложения, которая соединяет их в единое целое и придает им смысл; одна из определяющих характеристик текста/дискурса и одно из необходимых условий текстуальности..
Когерентность (Coherence) - метрика оценки целостности текста, заключающаяся в логико-семантической, грамматической и стилистической соотнесённости и взаимозависимости составляющих его элементов (слов, предложений и т. д.).
Индекс смешанности (Code Mixing Index) - метрика обозначает спонтанное переключение предложения или речевой составляющей.
другие know-how решения.
Русскому языку в Firefox вообще не везёт, например, встроенный переводчик в релизных версиях так и не поддерживает русский (впрочем, если пощупать качество перевода в "ночных" билдах, то становится понятно, почему это не попадает в релиз - качество там такое, что я лучше по-старинке гуглопереводчиком...)
Уже поддерживает. И когда был дополнением, а не частью браузера - тоже поддерживал. Русского языка не было те полгода или год, пока переводчик из отдельного дополнения встраивали в браузер. Насчёт качества - полностью с вами согласен, уступает Гуглу. Ну так его задача в переводе на устройстве, а не в облаке, а такой перевод в любом случае будет уступать Гуглу. Ну и ещё плюс небольшой - в том, что может переводить сразу страницу, в отличие от многих переводчиков-дополнений. В общем идея - сделать как в хром, но безопасно-приватно, и она вполне выполнена.
Mozilla адаптировала Fakespot в дополнение к Firefox для обнаружения ИИ-контента