Как стать автором
Обновить
197.66

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

В Европе снова заговорили об отказе от американских платформ и суверенном облаке — анализ ситуации

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров831

Разбираемся, в чем заключается проблема с точки зрения европейских регуляторов, какие попытки уже были предприняты и что в ЕС планируют делать дальше.

Читать далее

Новости

NVRAM из EEPROM

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.3K

Дана функция чтения и записи EEPROM dword.

Запись и стирание возможно только по выровненному адресу и пословно.

Надо поверх EEPROM API сделать функцию чтения, записи и стирания для произвольных массивов байт, по произвольному адресу (NVRAM).

Простыми словами надо состыковать Dword API с Byte API.

В этом тексте я представил простой наивный алгоритм решения данной задачи.

Читать далее

Погружение в ClickHouse: делаем первые и успешные шаги

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.1K

Привет! Меня зовут Андрей Дорожкин, и я руковожу командой администрации баз данных в Hybrid. В этом материале я поделюсь опытом работы с ClickHouse — колоночной БД, разработанной специально для аналитических запросов, которая позволяет получать результаты в разы быстрее традиционных решений. Также я подсвечу, как устроен этот продукт, чем он отличается от реляционных баз данных, и в каких сценариях его использование может дать бизнесу реальное преимущество.

Пара слов о компании Hybrid. Мы — независимая AdTech-экосистема с собственным стеком технологий и решений для любых рекламных целей. Развиваем собственные технологии благодаря in-house отделу разработки, который каждый день работает над их улучшением. ClickHouse — инструмент, который мы выбираем для хранения данных за высокую скорость обработки запросов, эффективное сжатие данных и масштабируемость.

Читать далее

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 2

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров796

Выбор облачного хранилища данных — задача не из простых: десятки решений, каждая со своими плюсами и подводными камнями. В этой статье — результаты масштабного практического исследования, в ходе которого команда Agritask сравнила производительность, масштабируемость, стоимость и совместимость SQL ведущих платформ: от ClickHouse и BigQuery до Druid и Firebolt. Без маркетинговых обещаний — только реальные тесты, живые выводы и нюансы, которые неочевидны до момента внедрения.

Читать далее

Истории

Low-code без границ: 32 млрд квартетов и терабайты данных в конструкторе приложений

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров7.9K

Бум No-code начался в 2022 году, и сейчас многие компании стараются так или иначе внедрить функционал «low-code» в свои продукты. У участников IT-индустрии пока нет согласия о границах применимости технологий «без кода», хотя адепты этих технологий обещают, что они позволят создавать практически любые приложения.

В этой заметке мы рассмотрим один из основных аспектов создания приложений – его масштабируемость в средней и дальней перспективе. Для этого сам продукт под капотом должен быть построен на чем-то более мощном, чем MS Excel, Airtable, Notion и Make, и такие продукты уже есть на рынке.

Фатальные проблемы масштабируемости проявляются с ростом объемов данных и количества пользователей, которые с ними работают – с этого мы и начнём.

Читать про 32 млрд квартетов

Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров17K

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на «закрытый» профиль ВКонтакте где он был опубликован. А также где‑то хранит всю эту информацию без моего разрешения, но при допросе — уходит в несознанку...

Нырнуть в мусорку от Яндекса...

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.2K

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

Читать далее

ОС против Kafka: битва за map-области: история одного неочевидного лимита

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.4K

Добрый день! Меня зовут Богдан, я тимлид в одном из отечественных финтехов. Сегодня я хочу поделиться нашей историей: как нам удалось, ненарочно, зашедулить падение всех нод одного из наших кластеров Kafka.

В один из холодных февральских дней пришло сообщение от мониторинга с виртуальных машин кластера Kafka: «Свободное дисковое пространство достигло значения < 15%». Было решено исследовать, нужно ли добавлять дискового пространства или же можно потюнить настройки ретеншена данных.

Тут стоит немного вспомнить теорию. Как известно, в Kafka сообщения распределяются по партициям, а каждая партиция на брокере представлена набором сегментов. Число сегментов у партиций может быть разным — оно варьируется в зависимости от интенсивности записи и настроек размера сегмента.

Сегмент (если упростить) — это лог-файл, в который просто пишутся данные в конец. По достижении временного предела либо его размера он ротируется: создается новый сегмент, и запись идет уже в него.

Держа вышесказанное в голове, мы отправились смотреть настройки хранения сегментов в нашем кластере Kafka..

Читать далее

Что вендоры выпустили в марте? Новинки от NVIDIA, Supermicro и не только

Время на прочтение8 мин
Количество просмотров3.1K

Вопреки весеннему обострению, вендоры в марте оказались более спокойными и не выпускали прорывных новинок. Хотя среди них все же есть «железки», за развитием которых стоит наблюдать. Среди интересных новинок — и новый серверный ускоритель от NVIDIA, и решения, отличные от классических GPU.

Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этом дайджесте собрал самые стоящие «железки», которые выпустили вендоры в марте. Подробности под катом!
Читать дальше →

Это путь воина: как я выучил Python и Go с помощью Цеттелькастена и кому точно не рекомендую метод

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров37K

Привет, Хабр! Меня зовут Дмитрий, я работаю в YADRO. Я прошел большой путь в самостоятельном изучении языков программирования: от SQL до Go. Сначала я вообще не документировал процесс обучения, затем стал вести заметки по «академическому» принципу — писал конспекты, как в университете. Пока не открыл древовидную систему хранения данных, которая лежит в основе метода Цеттелькастен. 

В этой статье расскажу, как порядок в заметках помогает лучше усваивать материал, кому подойдет Цеттелькастен или подобные методы и что лучше — простые конспекты или структурированные заметки.

Читать далее

NVMe для HDD: как новая технология решает проблемы хранения данных ИИ

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.7K

Системы искусственного интеллекта сталкиваются с серьезной проблемой: как хранить и обрабатывать огромные объемы данных, необходимые для обучения и работы моделей. Традиционные решения уже не справляются с требованиями скорости, масштабируемости и экономичности. 

Решением могут стать жесткие диски с интерфейсом NVMe. Они сочетают в себе экономичность HDD с производительностью NVMe, устраняя узкие места в системах хранения данных для ИИ. 

Seagate впервые представила прототип таких накопителей в 2021 году на саммите Open Compute Project, а в марте 2025 года на конференции GTC компания продемонстрировала уже полноценное решение, интегрирующее NVMe HDD с современной платформой Mozaic 3+ и процессорами обработки данных NVIDIA BlueField-3.

Разбираемся, как NVMe HDD могут изменить подход к хранению данных для ИИ и стать ключевым элементом будущих инфраструктур.

Читать далее

Рассказываем об апдейтах за март: месяц бесплатного S3, настройка IOPS и не только

Время на прочтение5 мин
Количество просмотров3.1K

Привет! Я — Дима, технический писатель в Selectel. Под катом рассказываю, как подключать сетевые диски к нескольким серверам, о новых конфигурациях в DBaaS, а также улучшениях в Kubernetes. В конце — приглашения на апрельские мероприятия.
Читать дальше →

Как защитить интернет-магазин от перегрузок: RPS, масштабирование и отказоустойчивость

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров773

Перегрузка интернет-магазина – головная боль владельца бизнеса. Сайт тормозит, корзина зависает, клиенты не могут оформить заказ. Почему это происходит? Как предотвратить коллапс системы в разгар распродаж?

В этой статье расскажем, как повысить RPS и обеспечить отказоустойчивость. Поделимся планом действий и разберем кейс из нашей практики.

Читать далее

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
22 апреля
VK Видео Meetup 2025
МоскваОнлайн
23 апреля
Meetup DevOps 43Tech
Санкт-ПетербургОнлайн
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
14 мая
LinkMeetup
Москва
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область

Более 4 000 ГБ за 11 минут: тестируем три сценария резервного копирования с Кибер Бэкап и TATLIN.BACKUP

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.8K

В формуле идеального решения для резервного копирования данных enterprise-класса много переменных. Одна из ключевых — производительность решения, включая скорость копирования, нагрузку на сеть и потребление вычислительных ресурсов хранилища и источника данных. 

Инженеры компаний YADRO и Киберпротект протестировали совместную работу системы резервного копирования Кибер Бэкап и системы хранения данных TATLIN.BACKUP в трех сценариях сохранения резервных копий виртуальных машин: с inline-дедупликацией, по протоколу NFS и агентом Tboost на узле хранения. Поделимся результатами тестирования совместимого решения, а заодно предметно поговорим об организации правильной архитектуры с учетом особенностей конкретной инфраструктуры. 

Читать далее

Data Governance и Бизнес: как найти общий язык

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров225

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!»

«Нам нужны качественные данные, а вы все про свои процессы!»

«Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!»

Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы.

Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе:

1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу.

2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу.

3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как  бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня.

Как же выстроить эффективный диалог между DG и бизнесом?

Читать далее

Neo4j. Графовая СУБД для RAG и не только

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров2.4K

Графовые СУБД, пожалуй, одни из самых специализированных хранилищ, существующих на корпоративном рынке. Neo4j при этом яркий представитель этой категории.

C Neo4j я познакомился ещё в далеком 2018-м году, в рамках задачи создания более приятной системы корпоративных знаний чем классические Wiki (некий такой корпоративный Obsidian), ну или основные его части. Это сейчас вы можете радоваться всем благам цивилизации, а в то далёкое время нам надо было очень внимательно относиться к структуре корпоративной базы знаний, т.к. даже поисковые алгоритмы часто оставляли желатель лучшего. Никакого вам ранжирования статей в выдаче по просмотрам и времени создания.

Но в целом с точки зрения базы знаний даже текущие варианты Wiki с ранжированием статей, отображением связанных, последних просмотренных, которые смотрят вместе и т.п. всё равно не решает вопрос оперативного поиска информации. А вот граф - уже другая история. Использовали Obsidian? Понравилось представление информации связанных заметок? Особенно если качественно проставлять связи. Собственно именно таким образом мы обычно и оперируем информацией. Табличная модель конечно удобна, но несколько более синтетическая история, которую придумали чтобы упростить себе жизнь, потому как оперировать графами технически всё-таки более сложная история.

Читать далее

Как взламывают базы данных: разбор кейсов и типичных ошибок компаний

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров11K

Базы данных (БД) – это настоящие клады, где хранятся персональные данные, финансовые отчеты, коммерческие тайны и иная чувствительная информация. Поэтому неудивительно, что компании любых размеров – от стартапов до гигантов вроде Sony и Tesla – регулярно становятся жертвами атак, направленных именно на взлом БД.

Последствия таких атак могут быть катастрофическими: от миллионных штрафов и судебных разбирательств до серьёзного урона репутации. Но ирония в том, что в большинстве случаев взломы происходят не из-за гениальности хакеров, а из-за банальных ошибок самих компаний. Разберём самые распространённые уязвимости.

Читать далее

Шардированный кластер ClickHouse

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров4K

Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.

Читать далее

Отказоустойчивость в MinIO

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров5K

Simple Storage Service или S3 — сервис (и одновременно протокол) для хранения данных большого объёма. Для работы использует API поверх HTTP, который позволяет загружать или получать объекты из хранилища.

В проектах с приватной инфраструктурой часто возникает потребность в организации on-premise S3-хранилища. Популярное решение в таком случае это MinIO — удобная и довольно простая в использовании реализация сервиса S3.  Когда нам в RUTUBE потребовалось S3, мы не стали долго думать и взяли MinIO, потому что он стильный, модный, молодежный хорошо себя зарекомендовал на рынке, хорошо документирован и прост в первоначальной настройке и эксплуатации. 

В этой статье поделюсь своим опытом использования MinIO, сделав акцент на отказоустойчивости и сохранности данных в случае инцидентов разной степени — от выпадения диска до пожара в цоде.

Читать далее

Менеджер закладок на своём сервере

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров7.3K


Хранить тысячи закладок в браузере — совершенно неблагодарная задача. Там отсутствуют даже офлайн-предпросмотр и автоматические теги, не говоря о полнотекстовом поиске и автоматическом скачивании/архивировании по RSS.

Для нормального управления закладками нужно специализированное решение. Тут много вариантов, а одно из лучших — это опенсорсное приложение Hoarder («Копилка информации»). Оно устанавливается на сервер и выступает единой БД для доступа из любых клиентов: Android, iOS, Chrome, Firefox и т. д.

Рассмотрим базовые функции этого приложения и как установить его на машине, где хранится личный информационный архив. Это может быть или домашний сервер, или VPS.
Читать дальше →
1
23 ...