Мы смогли бы хранить всё вечно

Зеттабайт — это триллион гигабайт. Это очень много, но, по одной из оценок, в этом году человечество произведёт сто восемьдесят зеттабайт цифровых данных. Данные копятся: PowerPoints и селфи; видео, снятое камерами; электронные медицинские карты; данные, извлечённые из смарт-устройств или собранные телескопами и ускорителями частиц; резервные копии и резервные копии резервных копий. Куда всё это девать, сколько и как долго хранить? Эти вопросы не дают покоя учёным-компьютерщикам, управляющим мировыми хранилищами данных. Для них облако — это не клочок тумана, а физическая система, которую нужно создавать, оплачивать и обслуживать.
Эксперты по хранению данных говорят о температурной шкале данных. На одном конце находятся «горячие» данные — Википедия или ваш банковский баланс, — которые должны появляться на экране практически мгновенно. На другом — «холодные» данные, которые могут находиться в нескольких минутах или даже днях от кончиков ваших пальцев. «Тёплые» данные, расположенные посередине, например ваши старые фотографии, могут быть получены за несколько секунд. Большинство данных — «холодные», и многие из них, вероятно, можно стереть без последствий. Однако некоторые из них могут однажды оказаться критически важными, например в уголовном деле, и их потенциальная ценность означает, что большая часть должна быть сохранена в целости и сохранности в течение неопределённого времени.
Одним из самых популярных носителей для хранения «холодных» данных является магнитная лента. Изобретённая в 1920-х годах, она постоянно совершенствовалась, удваивая ёмкость каждые пару лет. Компания Quantum, лидер в области архивных технологий, продаёт ленточные библиотеки, которые напоминают музыкальные автоматы размером с транспортный контейнер. Внутри них маленький робот извлекает данные, находя кассеты, похожие на кассеты VHS, и подключая их к дисководам, чтобы прочитать. «Сейчас в облаке работают тысячи роботов Quantum, перемещающих ваши данные», — сказал мне Эрик Бассиер, проработавший в Quantum более шестнадцати лет.

Использование лент растёт с каждым годом, отчасти благодаря голоду таких сборщиков данных, как Google. Но годовой объём данных человечества на современной магнитной ленте заполнил бы тридцать тысяч морских контейнеров. Между тем, ленты и диски со временем разрушаются. Австралийская компания Tape Ark помогает восстанавливать данные с повреждённых лент; её исполнительный директор Гай Холмс рассказал о спасении измерений лунной пыли, которые были переданы с Луны после полётов «Аполлона». Он также показал мне видео, на котором видно, как старая лента распадается при движении в устройстве чтения. «Эти маленькие чёрные вкрапления, которые вы видите слева на экране, — это документы Word и таблицы Excel, которые выпали из ленты, потому что она стала такой хрупкой», — сказал он.
Магнитная лента может показаться устаревшей технологией. Однако некоторые исследователи, ищущие ей замену, стали склоняться к ещё более древней альтернативе. Миллиарды лет назад эволюция наткнулась на ДНК в качестве носителя информации. Перевод единиц и нулей компьютера в основания генетического материала (A, C, T и G) имеет ряд преимуществ. Во-первых, на теоретическом пределе молекулы ДНК могут хранить до миллиарда гигабайт на кубический миллиметр — плотность, при которой в объём нескольких кунжутных семечек можно уместить целый контейнер кассет. Во-вторых, правильно подготовленные нити ДНК могут надёжно храниться тысячи лет: самому старому сохранившемуся образцу ДНК два миллиона лет, и он всё ещё читаем. И, наконец, ДНК не устаревает. Благодаря её важности для наук о жизни и для функционирования нашего собственного тела у нас, скорее всего, всегда будут инструменты для чтения написанного.
Советский физик Михаил Самойлович Нейман предложил идею использования ДНК для хранения данных в 1964 году, примерно через десять лет после того, как Джеймс Уотсон, Фрэнсис Крик и Розалинд Франклин впервые разметили двойную спираль. Однако создать настоящую систему хранения данных на основе ДНК оказалось непросто. Сначала учёные должны решить, как математически закодировать нули и единицы в основаниях ДНК. (Вариантов тут масса). Затем они должны изготовить цепочки этих оснований на заказ. Затем они должны безопасно хранить, извлекать и считывать эти цепочки, и, наконец, преобразовывать их обратно в биты. Первая демонстрация технологии состоялась в 1988 году, когда художник Джо Дэвис создал фигурку из палочек, которую назвал Microvenus. Дэвис использовал схему кодирования, чтобы перевести изображение размером пять пикселей на семь в последовательность из восемнадцати оснований. С помощью лаборатории Гарварда он ввёл ДНК в бактерию E. coli, которая смогла сохранить и воспроизвести сообщение. Исследователям удалось прочитать его через два года. В 2007 году другая группа совершила аналогичный подвиг, закодировав «E=mc^2 1905!» в бактериальном геноме.
В 2010 году биолог Крейг Вентер, сыгравший ключевую роль в секвенировании генома человека, вместе с коллегами создал синтетический бактериальный геном, на который они нанесли «водяной знак», закодировав текст, включающий их собственные имена и цитаты Джеймса Джойса и Ричарда Фейнмана. Прежде чем они опубликовали свою работу в журнале Science, один из рецензентов, новаторский гарвардский генетик Джордж Чёрч, в шутливой форме отправил свои комментарии редактору статьи, закодированные в ДНК. Этот опыт заинтересовал Чёрча, и в 2012 году он и двое его коллег успешно сохранили в ДНК около шестисот пятидесяти килобайт данных — примерно в семьсот раз больше предыдущего рекорда. Данные содержали компьютерную программу и черновик книги Чёрча «Регенезис: как синтетическая биология изменит природу и нас самих». В телепрограмме «Отчёт Кольбера» Чёрч вручил Стивену Кольберу точку с ДНК, содержащим двадцать миллионов копий его книги; Кольбер сделал вид, что пытается её съесть.
В 2018 году компания Microsoft в своей статье заявила, что сохранила в ДНК двести мегабайт данных, включая музыкальный клип, базу данных семян в Шпицбергенском глобальном хранилище семян и «Всеобщую декларацию прав человека» на более чем ста языках. «Каждая IT-компания сталкивается с проблемами хранения данных», — сказала мне Карин Штраус, один из старших авторов статьи; исследователи задались вопросом, может ли хранение данных в ДНК предложить практическое решение. Их работа включает в себя форму коррекции ошибок и тип памяти с произвольным доступом (RAM). Если вы хотите найти в энциклопедии слово «зебра», вам не придётся перелистывать весь алфавит; вы хотите сразу перейти к букве «З». Для этого команда включила в ДНК последовательности оснований, которые выполняли функцию идентификационных меток.
Технология вдруг стала казаться практически осуществимой. Вскоре организация Intelligence Advanced Research Projects Activity (IARPA) запустила программу Molecular Information Storage (MIST) и выделила пятьдесят миллионов долларов в виде грантов на дальнейшее развитие технологии. В 2020 году Microsoft и другие компании основали Альянс по хранению данных ДНК. «Мы считаем, что, вероятно, в течение следующего десятилетия править балом будет магнитная лента, — сказал мне Бассиер, бывший сотрудник компании Quantum. — Но мы думаем, что хранение данных на основе ДНК имеет большие долгосрочные перспективы».
Одна из самых больших проблем при хранении ДНК — это собственно изготовление ДНК, известное как синтез. Самый распространённый метод медленный: он добавляет основания по одному за раз. Представьте себе одну машинистку, которая вводит данные буква за буквой; чтобы увеличить скорость, вам потребуется много машинисток, которые могут работать параллельно. Готовясь к работе в 2018 году, исследователи Microsoft заказали ДНК у компании Twist, которая разработала кремниевый чип площадью примерно с карманную книгу. Он способен одновременно создавать миллион различных последовательностей ДНК. По словам Эмили Лепруст, генерального директора и соучредителя компании, сейчас Twist работает над созданием чипа, который сможет кодировать на три порядка больше данных. Цель состоит в том, чтобы записывать ДНК с потрясающей скоростью и в огромных масштабах.
В 2022 году я посетил Catalog, стартап из Бостона, который использует другой подход к написанию ДНК. В большом помещении бывшей кондитерской фабрики Schrafft's компания Catalog построила машину, которую назвала Shannon, в честь Клода Шеннона, одного из первых новаторов теории информации. Версия Shannon, которую я видел, выглядела как высокотехнологичный печатный станок из нержавеющей стали; сейчас компания завершает работу над коммерческой версией, которая будет размером с большую фотобудку. Пока я наблюдал, сотни струйных сопел наносили крошечные капельки основы на длинный лист прозрачного пластика, который двигался от одного конца к другому. Основания были соединены вместе в блоки, называемые олиго, которые больше похожи на слова или предложения, чем на буквы. Shannon напечатала их коллекцию, а затем добавила фермент, который соединил их в эквивалент абзацев. Лист прошёл зигзагом через инкубационную камеру, затем через инструмент, который выдавливал капли ДНК в пробирку — архив данных. Это было похоже на жёсткий диск в жидком виде.
Я держал в руках пластиковый лист, на котором капли высыхали. Он имел лёгкий оранжевый оттенок из-за добавленного красителя. Присмотревшись, я увидел тысячи крошечных точек. В другой соседней лаборатории Хенджун Парк, исполнительный директор Catalog, передал мне маленький пузырёк с капелькой жидкости, в которой хранилось множество копий восьми пьес Шекспира. Возможно, будущее данных — это не дата-центр с его гудящими серверами и мигающими лампочками, а влажная лаборатория с мензурками и аварийным душем.
Система Catalog — это не только механический, но и математический вызов: схема кодирования, которую использует компания, не совсем интуитивна. Свапнил Бхатиа, инженер Catalog, провёл час за доской, помогая мне разобраться в основах. Я узнал, что система может использовать сотни оснований для представления одного бита информации, но то, что она теряет в плотности данных, выигрывает в скорости и дешевизне записи. Пока всё хорошо. Но затем Бхатия перешёл к более сложной теме. Компьютер на основе ДНК мог бы выполнять вычисления, но с данными, хранящимися в пробирках.
Бхатия объяснил простую форму обработки: поиск слова в тексте. Это можно сделать химическим путём, не переводя основания обратно в биты. Возможно, что и другие виды вычислений — например сравнение баз данных или поиск закономерностей в радиосигналах — могут выполняться с использованием данных в форме ДНК, требуя гораздо меньше энергии, чем аналогичная операция на суперкомпьютере на основе кремния. «Я просто думаю о ДНК как о структуре данных, созданной природой, — говорит Бхатия. — Мы просто заимствуем её». Я представлял себе клетки своего тела не как компоненты органов, а как форму обработки информации, которая стирает грань между химией и вычислениями. Мозг можно назвать «мыслящим мясом» — впрочем, как и всех нас.
В правильных условиях ДНК может сохраняться тысячелетиями, а в неправильных — разрушаться. Простой способ защиты — поместить ДНК в соединение, изолирующее её от воды, кислорода, радиации, ферментов, микробов и т. п.; впоследствии это соединение можно растворить. Или вы можете обезвожить ДНК, превратив в порошок и спрятать его в стальные капсулы с вакуумной герметизацией. (В январе Catalog и Asimov Press выпустили антологию эссе и научной фантастики в виде бумажного тома и капсулы с высушенной ДНК — первое коммерческое издание такого рода). Высушенная ДНК, похоже, имеет долгий срок хранения. В сентябре прошлого года исследователи из Microsoft и других компаний сообщили, что они поместили два закодированных в ДНК файла — карту мира и изображение космического шаттла — в ускоритель частиц. ДНК подверглась такой нейтронной бомбардировке, с какой она столкнулась бы, пролежав в Нью-Йорке 4,4 миллиона лет. Файлы остались нетронутыми.
Стартап под названием Cache DNA использует другой подход: хранит ДНК в крошечных прозрачных сферах. Компания Cache выросла из лаборатории Марка Батэ, инженера-биолога из Массачусетского технологического института. Сначала Батэ и его команда помещали «файлы» ДНК в кварцевые шарики диаметром в десятую часть человеческого волоса (с тех пор они научились использовать полимеры, которые безопаснее и удобнее). В лаборатории Батэ также решили прикрепить одноцепочечные ДНК-«штрих-коды» к внешней стороне каждого шара. Бусины с изображением пятнистой кошки имели метки «кошка», «оранжевый» и «домашний»; бусины с тиграми имели метки «кошка», «оранжевый» и «дикий». Команда смогла отличить одно изображение от другого, используя химические вещества, которые заставляли светиться только определённые метки.
В МТИ Батэ и один из его сотрудников, Джозеф Берлеант, показали мне несколько хранящихся в лаборатории ДНК. Берлеант протянул мне две маленькие пробирки. В одной были капсулы с изображениями львов, тигров и домашних кошек. В другой были иные изображения: самолёт, фрукты и так далее. Он добавил в каждую пробирку флуоресцентные кошачьи «зонды», оставил их на ночь, а затем центрифугировал «несвязанные» зонды, которые не прикрепились к бусинам.
Мы надели тонированные очки, и он поднёс две пробирки к специальной лампе. Только флакон с кошкой светился розовым. Джеймс Банал, соучредитель Cache, предположил, что во время пандемии сотрудники аэропорта могли бы помечать вирусную РНК из носовых мазков возрастом пассажиров и рейсами, которыми они летели. Позже учёные смогут найти РНК нового варианта и отследить его до источника. В прошлом году команда продемонстрировала модель этой системы.
Есть два способа представить себе будущее хранения данных ДНК. Один из них — представить его как сегодняшние системы хранения данных, только более плотные, влажные и выносливые. Дэвид А. Марковиц (David A. Markowitz), запустивший программу IARPA MIST, представляет себе систему, которая в ближайшем будущем сможет за день и за тысячу долларов записать терабайт данных, произвольно получить доступ и прочитать десять терабайт данных и при этом поместиться на столе. Это «амбициозный проект», — сказал он. Тем временем «Альянс по хранению данных ДНК» стремится проводить исследования рынка, просвещать общественность и разрабатывать технические спецификации, чтобы архивы ДНК были совместимы. (Они хотят избежать противостояния, подобного тому, в котором участвовали Blu-ray и DVD высокой чёткости). Штраус из Microsoft сказала мне, что она может представить себе, как компания использует ДНК для своих облачных сервисов.
Ещё один способ представить себе хранение данных в ДНК — переосмыслить данные на базовом уровне — так, чтобы открыть новые возможности, позволив информации существовать в новых местах. Батэ представляет, как компании наносят водяные знаки на лекарства, чтобы отслеживать таблетки; Чёрч, генетик, разработал методы, которые позволят клеткам записывать данные в их так называемой «мусорной ДНК» — материале, который находится между генами и составляет большую часть генома. (Клетки понимают, что не нужно пытаться превращать мусорную ДНК в белки). Такая система может действовать как «бортовой самописец», сказал мне Чёрч, то есть данные о работе организма могут быть восстановлены в случае сердечного приступа или рака. Возможно, сказал он, визуальные данные можно будет записывать в клетки сетчатки глаза мухи, «превращая насекомое в видеокамеру». Возможно, молекулярные компьютеры, которые разрабатывают другие исследователи, будут записывать данные в клетки.
Сможем ли мы записывать данные в свои геномы, передавая их по наследству, когда у нас появятся дети? Некоторые учёные, в том числе Фрэнсис Крик, предполагают, что инопланетяне или древние цивилизации могли вставлять сообщения в мусорную ДНК людей или других животных. В 1999 году компьютерный учёный Джарон Ланье представил капсулу времени, в которой можно сохранить человеческие знания, вставив их в геномы тараканов. Если выпустить такую капсулу на свободу на Манхэттене, её можно было бы «легко обнаружить и невозможно уничтожить», — писал он. Батэ сказал мне, что мы могли бы сохранить запись наших достижений в ДНК, а затем разбросать её по всей Солнечной системе.
В каком-то смысле ДНК в наших телах ничего и никогда не забывает. Даже если она мутирует и рекомбинирует, мы всё равно можем проследить её родословную на миллиарды лет назад. Если бы мы использовали ДНК для вечного хранения информации, что это могло бы означать для нашего общества? Сегодня мы находим археологические остатки ранних цивилизаций — инструменты, таблички, памятники — и по ним догадываемся, каково было их существование. Но ещё через пару десятилетий мы сможем использовать биологию для хранения каждого пикселя с каждой камеры, каждой цифры из каждого научного наблюдения, каждой мысли, статистики или транзакции.
Звучит ли это утопично или антиутопично, но большую часть человеческой жизни можно увековечить в облаке ДНК — или озере. Данные не будут накапливаться, как копии журналов; напротив, благодаря химическим вычислениям можно будет вести тонкий поиск и анализ этой информации. Двойная спираль, которая эволюционировала, чтобы сохранить лучшее из того, что предлагает природа, будет призвана сохранить лучшее, что можем предложить мы — и худшее, и всё, что в промежутке.