NeyroEntuziast 5 янв в 22:49

Как защитить свои тексты от ChatGPT и других ИИ-ботов

Простой

7 мин

Искусственный интеллектБудущее здесьКонтент и копирайтинг*

Туториал

Перевод

Комментарии 42

sentimentaltrooper 5 янв в 23:13

Если что то мы только до НГ сдали локальную multi-agent систему (с RAGs, OCR и ламой) которая по сути парсит неструктурированные сканнированные документы (т.е. изображения) и на основе информации в них строит всякие вектора анализа. Конкретно это было для финтеха. Но я скорее к том, что если ваш бумажный блокнот оцифрован, то страшный ИИ до него рано или поздно доберется.

Как видите, мой Substack сообщает ChatGPT и ИИ Google, как Bard, так и Vertex AI, что им запрещено обучаться на моих текстах в Substack.

Он им говорит: мой автор типа самый умный, поэтому в выдаче особо не палитесь - выдайте не цитату, а пересказ в другом стиле.

pavelsha 6 янв в 07:55

Не клюйте автора(публикатора статьи) слишком сильно...

"Мопед не его, он только перевел объяву"

dyadyaSerezha 5 янв в 23:34

Просто брать чужие тексты, не спрашивая разрешения и не выплачивая компенсацию, выгоднее, чем платить писателям.

Неверно. Брать чужие тексты просто уже негде - всё уже взяли. Что и сказано ранее в статье.

Но уверен, что скоро найдут другой способ обучения. Например, подключить видеокамеры и прочее. Ну и сам процесс общения ИИ с его пользователями является обучением.

kareon 6 янв в 00:08

Эти способы слишком тривиальны. Если кто-то действительно захочет обучать ИИ на текстах с вашего сайта, он забьет на все эти robots и прочие проверки. Все, что может прочитать в интернете человек, сможет прочесть и робот. Да и личные сайты сейчас давно прошли пик популярности, все люди, которые действительно зарабатывают на контенте, делают это через соцсети и видеоплатформы. Вот как там ввести запрет на использование своего контента для обучения? Это хороший вопрос.

NeyroEntuziast 6 янв в 00:27

Там запретить могут только владельцы соцсетей и видеоплатформ

pavelsha 6 янв в 08:11

Владельцы соцсети уже забрали у авторов контент и используют в своих «капиталистических» целях. Монетизируют, монетизировали и будут монетизировать дальше.

Давайте отвлеченный пример возьмем:

В городке на Диком Западе открылось новое казино с девочками, блэкджеком и прочим. Но тут владельцы старых салунов начинают жаловаться, что из-за этого новомодного заведения у них упала выручка. Кого будем жалеть? Обяжем жителей выпивать в салунах не менее 3 пинт пива ежедневно? Запретим девочкам-танцовщицам увольняться из труппы при барах и переходить в кабаре при казино?

aeder 6 янв в 00:55

Не беспокойтесь, проблема уже решена автоматически.

Большую часть контента в сети уже генерируют боты.

Соответственно, как бы не исхитрялись владельцы ИИ - обучаться им будет нечем, так как обучение на сгенерированном контенте приводит к маразму ИИ.

gfiopl8 6 янв в 04:56

Есть гигантские залежи данных, на которых ИИ могут обучаться - 14 млрд роликов на YouTube. С текущими скоростями их будут пережёвывать до второго пришествия. Каждый кадр надо извлечь и описать, каждую группу кадров, а ещё научиться их рисовать и предсказывать. То же самое с аудио и их комбинациями. Все крупные модели уже давно мультимодальные, так что им всем есть чем заняться на уроках.

С точки зрения предсказания кадров есть интересная особенность: видео обычно не врёт, то есть то, что происходит на видеозаписи, работает строго по законам физики, так что предсказания могут работать намного лучше, чем с текстом, который писали люди, у которых не всё так однозначно.

saege5b 6 янв в 09:05

Это смотря какие каналы смотреть на ютубе.

Так то там лютой дичи более чем хватает.

NeyroEntuziast 10 янв в 14:55

видео обычно не врёт

Особенно видео в блогах треш-стримеров

kenomimi 6 янв в 00:58

На мой взгляд, тот, кто не дает свое творчество на обучение нейросетей, должен публично отречься от их использования, желательно под залог всего своего состояния. Они же ему не нужны, верно, раз он так себя ведет? Пусть выбросит айфон, удалит все учетки, где потенциально используются нейросети, и сидит с мормонами в коровнике, пишет свои шыдевры в тетрадке. По идее, тоже самое касается любых пользовательствких данных, не содержащих идентифицирующих/секретных данных (пароли, телефоны, ФИО, ...) - не хочешь обучения нейросеток - откажись от сервиса.

Иначе получим отказ от прогресса ради сиюминутной прибыли отдельных личностей. Причем стоит появиться прецеденту - и всё, дальше в суд побегут всей толпой, и обучать будет не на чем.

kareon 6 янв в 02:28

А почему этот прогресс должен быть за счет данного человека? Может, он и вообще не пользуется вообще нейросетями, или пользуется, скажем, айфоном, но без функции нейросетей. Мне кажется, справедливо будет выплачивать некое роялти владельцам контента. Если раньше можно было написать, условно, сотню статей на какую-то популярную тему и получать доход за счет рекламы, то теперь информацию этих статей читатели получают в пересказе нейросети, а автор контента получает ноль... И смысл ему дальше трудится над контентом?

avost 6 янв в 03:19

Если раньше можно было написать, условно, сотню статей на какую-то популярную тему и получать доход за счет рекламы, то теперь информацию этих статей читатели получают в пересказе нейросети, а автор контента получает ноль...

А у вас не возникало вопроса почему читатели предпочитают читать нейросетевой пересказ, а не сотню водяных малосодержательных статей, написанных исключительно ради продажи рекламы?

И смысл ему дальше трудится над контентом?

Действительно! Может ему пора завязывать трудиться над мусорным контентом?
Смысл существования копирайтеров - "генераторов контента" околонулевой, фактически, они просто паразитируют на средствах распространения информации. Ну, да, как и нейросети. Только нейросеть можно скомандовать сгенерить саммари, а мусорных статей копирайтеров придётся перелопатить всю сотню, чтобы получить тот же объём значимой информации.

N-Cube 6 янв в 08:11

Это вы книги Дональда Кнута, к примеру, назвали «мусорным контентом»? Будьте любезны, покажите свое творчество, иначе возникают обоснованные сомнения в вашем психическом здоровье и общей адекватности, если не сказать прямо.

pavelsha 6 янв в 08:28

Откуда Вы Кнута в данной дискуссии взяли? Похоже , что не могу уловить мысль...

И не надо за него беспокоится. Дональд Эрвин Кнут (профессор Стэнфордского университета) уже получил за свои книги гонорар.

Кстати, дедушке уже под 90 лет, а он получается ещё пишет... относительно недавно выпустили "Искусство программирования"

Volume 4B: Combinatorial Algorithms, Part 2 (Upper Saddle River, New Jersey: Addison-Wesley, 2023), xviii+714pp. ISBN 0-201-03806-4

N-Cube 6 янв в 16:35

Тред начинается с комментария:

На мой взгляд, тот, кто не дает свое творчество на обучение нейросетей, должен…

Аноним с комментарием уверен, что ему все должны. Хотя польза для общества от него лично крайне сомнительна.

А дальше набежали оцениватели чужой работы с комментариями, что множественные публикации это «мусор»:

Может ему пора завязывать трудиться над мусорным контентом?

Вот я и спрашиваю, с какой стати они это утверждают про всех? Поскольку к логическому мышлению граждане явно не способны, хотя и любят обобщать, привожу известный пример автора со многими и качественными публикациями.

avost 7 янв в 22:47

Это вы книги Дональда Кнута, к примеру, назвали «мусорным контентом»?

Это вы Дональда Кнута поичислили к копирайторам, пишущим сотни мусорных статей на "популярную тему" за условную чашку рекламного риса? Смелое заявление. Хорошо, что Кнуту подобные лживые измышления даааавно безразличны сколько бы вы ни пытались натянуть сову на глобус.

Будьте любезны, покажите свое творчество,

Ух, ты! Первую Заповедь профессионального демагога, - "сперва добейся" завезли! Мощно вы меня покрыли. Боюс-боюс!

иначе возникают обоснованные сомнения в вашем психическом здоровье и общей адекватности

А, вот и Вторая Заповедь подоспела, - ad homini - как по заказу с личным оскорблением. Браво!

если не сказать прямо

А вы и говорите прямо, мол, - рожа у меня крива... - а то что-то мелко, Хоботов!

Кстати, Кисо, опущусь уж напоследок на ваш уровень, скажите мне, как художник художнику, - а вы Кнута-то вообще читали? Ну, хоть одну книжку? Вот, то-то и оно.

Да, отвечать не трудитесь - хамство вы уже продемонстрировали, а ваша очередная ложь не представит для меня никакого интереса.

kareon 7 янв в 01:20

Так контент контенту рознь! Я имел ввиду тех, кто пишет действительно качественные, уникальные статьи - например, по программированию, фотоделу, путешествиям. Далеко ходить не надо - все мы тут, на Хабре, ради интересного и уникального IT-контента. Когда-то, я еще застал эти времена, интернет наполняли контентом и жизнью именно такие люди. А потом да, наступил вал "мусорных публикаций". Появилась копипаста, дорвеи, горе-копирайтеры, за ними нейросетевые копии... все это одна и та же проблема на разных уровнях, результат легкости копирования и модификации информации.

PereslavlFoto 6 янв в 05:08

раньше можно было написать, условно, сотню статей на какую-то популярную тему и получать доход за счет рекламы

Раньше... Раньше можно было написать сотню статей на какую-то популярную тему и получать каждый месяц аванс и заработную плату. Или ещё была мода: человек работал, выполнял свои обязанности, получал зарплату, а в дополнение к ней по вечерам писал сотню статей на какую-то популярную тему, за что ему платили гонорар от журнала или газеты.

И смысл ему дальше трудитЬся над контентом?

Вы поставили довольно общий вопрос: зачем вообще работать? Какой смысл выполнять свои обязанности? Обычно отвечают: работать надо, чтобы выполнить заказ.

N-Cube 6 янв в 08:16

Обычно отвечают: работать надо, чтобы выполнить заказ.

Если вы не знаете, скажем, про существование опен сорс проектов и разработчиков, и работаете только за деньги, зачем лезете в обсуждение? И если у вас вообще нет никакого ценного контента, и создать его вы не в состоянии, это не повод игнорировать существующие достижения. Отсутствие новых книг, фильмов, песен, устройств (схемы которых так же легко копируются) и так далее - это начало конца цивилизации.

pavelsha 6 янв в 07:17

Если при помощи find&replace заменить в статье слова ChatGPT, AI-модель, ИИ-бот на парсер, индексирующий паук, поисковая система, а также выкинуть пару абзацев, то получим банальные рассуждения 15/20-летней давности о защите «контента сайта от кражи».

Мысль о том, что защитить от копирования = защитить от прочтения, донесена в статье доходчиво, но говорить о её новизне трудно.

Проблема всасывания контента в модель с последующим использованием без обращения к источнику, проблема рерайта статей при помощи AI-роботов мало чем отличаются от проблем копирования статей в агрегаторы и рерайта при помощи студентов-фрилансеров.

На бытовом уровне: хотите защитить «сайт и свои уникальные идеи» от копирования — пишите на его в блокноте (бумажном) и храните в закрытом ящике стола. Можете доставать иногда и читать избранное любимой собаке, только не ставьте в её будку колонку «Маруся» и не берите с собой телефон с Google-ассистентом. Если услышит сосед и сделает запись, а потом разместит в местном паблике с хештегом #городские_сумашедшие, то вините себя, что слишком громко читали. Как в этом случае Вы собираетесь доносить свои гениальные творения до народных масс... Я не знаю. Но можно посмотреть в сторону телепатии (пересмотрите X-Men. Может, придет в голову какая-то мысль).

На уровне компаний, которые зарабатывают, создавая и распространяя контент... Похоже, решений со 100% гарантией нет. Придется как-то менять бизнес-модель.

pavelsha 6 янв в 07:52

Статья вроде переводная и новая, а у автора-переводчика аргументы и реакция та же, что 20 лет назад у хомячков.

В чем «политика и пропаганда» в комментариях, которые подчеркивают отсутствие новизны проблемы статьи?

Защита от законопослушных краулеров, которые читают robot.txt, не работает против серых парсеров.

Можно закрыть статьи пейволом, переместиться в платные закрытые каналы. Но это поменяет аудиторию.

pavelsha 6 янв в 09:09

Как защитить свои тексты от ChatGPT и других ИИ-ботов. Вот почему вы должны это сделать, и я обещаю, что это не сложно и не страшно

Перепишите ж, пожалуйста, подпись под КДПВ. Или перевод убил смысл в ней, или автор исходного текста просто пукнул, а мы зачем-то прислушиваемся

pavelsha 6 янв в 09:25

Ой, а ведь автор оригинала опять Линда Кэрол...

Это её регулярная колонка в каком-то "мэгазин"? Темы заявлены вроде бы актуальные, но содержание... Robot.Txt Опять пытаются под видом продвинутой техномагии продать давно существующие вещи.

Мне тут недавно как пример прогресса в нейросетях и вообще как инновацию поражающую воображение, говорили "а ТЕПЕРЬ МОЖНО при помощи ИИ распознавать рукописный текст"...

Тут-то я и начал подозревать, что Palm Zire и программы Paragon на нём, это на самом деле оборудование, которое мне случайно попало от "эмиссара хронопатруля" из 2504 года. А продал я его 10 лет назад вовсе не любителям ретро-техники, а космическим пиратам. Вот только не могу понять, кто ко мне приходил: Крыс или Весельчак У.

lolyamyaumyauka 6 янв в 10:27

Сам поди пользуется нейросетями, а своего ничего дать взамен для других не готов...

pavelsha 6 янв в 20:11

Вы о ком? Об авторе оригинального текста? Это Линда Кэролл. Женщина. Человек женского пола и лицо, о котором корретнее говорить в женском роде.

Впрочем у меня забавный вопрос... А какая именно это Линда Кэролл? Писательница и психотерапевт. Мать Кортни Лав. Тогда ей почти 80 лет...

Ммм...старомодные мысли это объясняет. А вот знание плагинов WordPress и формата robots.txt заставляет уважать.

Возможно это тёзка писательница. Или очередной "сорокалетний мужик" из Чикаго, которому надоело виртуалить за 15 летнюю школьницу из Флориды.

Ukaru 6 янв в 20:22

Робот txt - это отличный хакерский бэкдор. там часто нерадивые и глупые владельцы сайтов перечисляют самые потаённые свои уголки и пишут no no сюда нельзя здесь у нас самая секретная сюда не ходите...

Myself12 7 янв в 16:25

Помогли себе сами. Блин. Это который из так перевёл? Helped themselves. Это что-то вроде угостились. Взяли и воспользовались.

AnatolyEmelin 8 янв в 07:04

Уважаемый автор! А как быть с тем , что вы тож учились, на произведениях других авторов? Вы так же потребляли тексты рассказов, повестей, романов, эссе... Возможно вы покупали эти книги, но там где-то в контракте на покупку было написано: "разрешено использовать данное произведение в качестве данных для обучения писателя." Вы, если вы писатель, научились писать книги читая книги других людей. Вы им платите за это часть гонорара? Вы платите авторам фильмов, мультфильмов, на которых развивалось ваше воображении? Простите, но ваш талант писателя развился не как "сферический конь в вакууме". Если вы пишете и пишете хорошо, то никакой ИИ вам не угроза. ИИ угроза только графоманам.

AnatolyEmelin 8 янв в 07:11

Если на ваших произведениях кого-то учат - это честь. Новых авторов, филологов и т д. учат на именно на текстах и в том числе на литературных.

AnatolyEmelin 8 янв в 07:14

AnatolyEmelin 8 янв в 07:17

На фото здание научной библиотеки Томского государственного университета, где бесплатно на десятках тысяч книг учатся студенты. А в голове каждого из них есть нейронная сеть. И авторы почтут за честь , что их книга есть в такой библиотеке и ее часто берут почитать. По вашему каждый вышедший из библиотеки читатель должен авторам всех этих книг заплатить?

TimsTims 8 янв в 11:06

Я не знаю, как у вас обстоят дела с финансовой точки зрения, но у ChatGPT дела идут очень хорошо

Да нихера. Просто процитирую грокса:

...Но, по-моему, куда важнее не визионерское огромное эссе Альтмана, а его короткая заметка в X/Twitter о насущном, опубликованная в тот же день, где он признаётся, что Open AI теряет деньги на PRO подписчиках. То есть даже $200/мес не окупают variable costs. Компания сжигает миллиарды долларов и до сих пор не научилась зарабатывать.
Поэтому возникает вопрос: что случится раньше — OpenAI изобретёт подлинный AGI или у OpenAI закончаться деньги? Лично мне жаль, что нет возможности открыть короткую позицию. #мысливслух

Так что всё очень плохо у openai. А щас ещё и будет лопанье пузыря Nvidia, так мы в следующий раз будем читать историю "а вот была такая компания которая оставила свой след, но не смогла".

gfiopl8 8 янв в 11:19

С одной стороны теряет деньги на про подписчиках, с другой а так ли их много что бы сделать погоду.

У меня есть небольшой сервис(чат с гопотой) с 1000 униками в день, они жрут в среднем всего по 10 запросов в день при том что вообще не ограничены ничем и некоторые индивиды умудряются сделать больше 1000 запросов за день, но на погоду они сильно не влияют. В конце концов запросы жрут время, а время у людей не резиновое, 1000 запросов по моим подсчетам это 5 часов чистого времени минимум.

Себестоимость среднего юзера получается 10запросов х 30 дней х 10копеек(лайт моделька) = 30 рублей в месяц...

TimsTims 8 янв в 21:17

С одной стороны теряет деньги на про подписчиках, с другой а так ли их много что бы сделать погоду.

А на чем деньги зарабатывать? Жить только на щедрые инвестиции? А когда они закончатся, то что дальше? Вон Uber долго работал в минусе, лет 10 протянул, повезло. А Wework работать в минус долго не смог. Куча стартапов-агрегаторов где они с каждого заказа пиццы теряли деньги тоже в итоге не смогли. Как только в экономике кризис, и денег у инвесторов становится гораздо меньше - поток бесконечных денег заканчивается, музыка останавливается и кто успел вывести бабки - тот и успел.

gfiopl8 9 янв в 01:39

Подписка стоит 20-200 баксов, средний юзер тратит 1 доллар. Какая такая работа в минус?

За пределами подписки каждое слово учитывается и оплачивается, цены не ниже чем у других.

TimsTims 9 янв в 06:47

Подписка стоит 20-200 баксов, средний юзер тратит 1 доллар. Какая такая работа в минус?

Вы сейчас точно про openai, а не про свой проект? Я же привел в первом письме ссылки от самого Альтмана. Мне то понятно - можно не верить, но вы и ему не верите что openai работает в минус?)

https://x.com/sama/status/1876104315296968813

средний юзер тратит 1 доллар

Судя по всему, у СЕО openai и у вас разная информация, сколько тратит средний юзер.

gfiopl8 9 янв в 10:31

У сэма какие то особенные юзеры, они без робота и шагу ступить не могут? Или он включил в расходы разработку новых суперперспективных моделей на которые тратит дохрилион денег (намного больше чем все остальные)?

200 долларов это много, вряд ли таких юзеров есть много, они не должны создавать глобальных проблем. А середнячки с 20 баксовыми подписками вполне могут делать по 10 запросов в среднем за день.

TimsTims 9 янв в 21:05

Я понял. Я разговариваю с роботом от openai, который говорит всякую чушь и пытается отойти от темы, иначе openai закроется и его выключат :D

NeyroEntuziast 10 янв в 14:56

Он вас не поймет. Может, и не робот, но троллит офигенно

DenSigma 9 янв в 14:05

Если вы не хотите, чтобы вас читали, запоминали и цитировали, не публикуйте свои тексты. Нигде.

Если вы даете читать свои тексты, то вы даете их читать, запоминать и цитировать.

Вопрос возмущения ровно в одном - огромные деньги идут мимо автора.

PereslavlFoto 9 янв в 14:48

Здесь речь идёт не о цитировании. Почему? Потому что цитирование строго ограничено, эти ограничительные требования записаны в законе.

Для примера назову лишь одно требование. При цитировании необходимо всегда указывать источник цитаты. Нейросети никогда не указывают своих источников.

А есть и другие требования...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Как защитить свои тексты от ChatGPT и других ИИ-ботов

Комментарии 42

Публикации

Истории

zproxy.org