Хранение данных *

Что имеем, то храним

СтатьиПостыНовостиАвторыКомпании

VASExperts 6 часов назад

В Европе снова заговорили об отказе от американских платформ и суверенном облаке — анализ ситуации

Простой

5 мин

831

Блог компании VAS ExpertsЗаконодательство в ITХостингОблачные сервисы*Хранение данных*

Аналитика

Разбираемся, в чем заключается проблема с точки зрения европейских регуляторов, какие попытки уже были предприняты и что в ЕС планируют делать дальше.

aabzel 8 часов назад

NVRAM из EEPROM

Простой

3 мин

1.3K

Программирование микроконтроллеров*Производство и разработка электроники*Хранение данных*Хранилища данных*C*

Туториал

Дана функция чтения и записи EEPROM dword.

Запись и стирание возможно только по выровненному адресу и пословно.

Надо поверх EEPROM API сделать функцию чтения, записи и стирания для произвольных массивов байт, по произвольному адресу (NVRAM).

Простыми словами надо состыковать Dword API с Byte API.

В этом тексте я представил простой наивный алгоритм решения данной задачи.

Virron 10 часов назад

Погружение в ClickHouse: делаем первые и успешные шаги

Простой

6 мин

2.1K

Big Data*Хранение данных*Data Engineering*SQL*Хранилища данных*

Из песочницы

Привет! Меня зовут Андрей Дорожкин, и я руковожу командой администрации баз данных в Hybrid. В этом материале я поделюсь опытом работы с ClickHouse — колоночной БД, разработанной специально для аналитических запросов, которая позволяет получать результаты в разы быстрее традиционных решений. Также я подсвечу, как устроен этот продукт, чем он отличается от реляционных баз данных, и в каких сценариях его использование может дать бизнесу реальное преимущество.

Пара слов о компании Hybrid. Мы — независимая AdTech-экосистема с собственным стеком технологий и решений для любых рекламных целей. Развиваем собственные технологии благодаря in-house отделу разработки, который каждый день работает над их улучшением. ClickHouse — инструмент, который мы выбираем для хранения данных за высокую скорость обработки запросов, эффективное сжатие данных и масштабируемость.

MaxRokatansky 13 часов назад

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 2

Средний

10 мин

796

Блог компании OTUSХранение данных*Хранилища данных*SQL*

Перевод

Выбор облачного хранилища данных — задача не из простых: десятки решений, каждая со своими плюсами и подводными камнями. В этой статье — результаты масштабного практического исследования, в ходе которого команда Agritask сравнила производительность, масштабируемость, стоимость и совместимость SQL ведущих платформ: от ClickHouse и BigQuery до Druid и Firebolt. Без маркетинговых обещаний — только реальные тесты, живые выводы и нюансы, которые неочевидны до момента внедрения.

ideavi 13 апр в 08:49

Low-code без границ: 32 млрд квартетов и терабайты данных в конструкторе приложений

Простой

19 мин

7.9K

Хранение данных*Программирование*SQL*Анализ и проектирование систем*IT-стандарты*

Мнение

Бум No-code начался в 2022 году, и сейчас многие компании стараются так или иначе внедрить функционал «low-code» в свои продукты. У участников IT-индустрии пока нет согласия о границах применимости технологий «без кода», хотя адепты этих технологий обещают, что они позволят создавать практически любые приложения.

В этой заметке мы рассмотрим один из основных аспектов создания приложений – его масштабируемость в средней и дальней перспективе. Для этого сам продукт под капотом должен быть построен на чем-то более мощном, чем MS Excel, Airtable, Notion и Make, и такие продукты уже есть на рынке.

Фатальные проблемы масштабируемости проявляются с ростом объемов данных и количества пользователей, которые с ними работают – с этого мы и начнём.

Читать про 32 млрд квартетов

+23

PaaLadin 11 апр в 20:53

Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

Простой

5 мин

17K

Big Data*Информационная безопасность*Хранение данных*Машинное обучение*Социальные сети и сообщества

Кейс

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на «закрытый» профиль ВКонтакте где он был опубликован. А также где‑то хранит всю эту информацию без моего разрешения, но при допросе — уходит в несознанку...

Нырнуть в мусорку от Яндекса...

+103

185

MaxRokatansky 11 апр в 19:39

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Средний

13 мин

3.2K

Блог компании OTUSХранилища данных*Хранение данных*SQL*Big Data*

Перевод

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

blacksan 11 апр в 17:41

ОС против Kafka: битва за map-области: история одного неочевидного лимита

Средний

5 мин

2.4K

Java*Высокая производительность*Apache*IT-инфраструктура*Хранение данных*

Туториал

Добрый день! Меня зовут Богдан, я тимлид в одном из отечественных финтехов. Сегодня я хочу поделиться нашей историей: как нам удалось, ненарочно, зашедулить падение всех нод одного из наших кластеров Kafka.

В один из холодных февральских дней пришло сообщение от мониторинга с виртуальных машин кластера Kafka: «Свободное дисковое пространство достигло значения < 15%». Было решено исследовать, нужно ли добавлять дискового пространства или же можно потюнить настройки ретеншена данных.

Тут стоит немного вспомнить теорию. Как известно, в Kafka сообщения распределяются по партициям, а каждая партиция на брокере представлена набором сегментов. Число сегментов у партиций может быть разным — оно варьируется в зависимости от интенсивности записи и настроек размера сегмента.

Сегмент (если упростить) — это лог-файл, в который просто пишутся данные в конец. По достижении временного предела либо его размера он ротируется: создается новый сегмент, и запись идет уже в него.

Держа вышесказанное в голове, мы отправились смотреть настройки хранения сегментов в нашем кластере Kafka..

skovalev 11 апр в 13:31

Что вендоры выпустили в марте? Новинки от NVIDIA, Supermicro и не только

8 мин

3.1K

Блог компании SelectelВидеокартыКомпьютерное железоПроцессорыХранение данных*

Вопреки весеннему обострению, вендоры в марте оказались более спокойными и не выпускали прорывных новинок. Хотя среди них все же есть «железки», за развитием которых стоит наблюдать. Среди интересных новинок — и новый серверный ускоритель от NVIDIA, и решения, отличные от классических GPU.

Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В этом дайджесте собрал самые стоящие «железки», которые выпустили вендоры в марте. Подробности под катом!

Читать дальше →

+33

Zveridze 11 апр в 13:25

Это путь воина: как я выучил Python и Go с помощью Цеттелькастена и кому точно не рекомендую метод

Простой

9 мин

37K

Блог компании YADROGo*Python*Управление проектами*Хранение данных*

Мнение

Привет, Хабр! Меня зовут Дмитрий, я работаю в YADRO. Я прошел большой путь в самостоятельном изучении языков программирования: от SQL до Go. Сначала я вообще не документировал процесс обучения, затем стал вести заметки по «академическому» принципу — писал конспекты, как в университете. Пока не открыл древовидную систему хранения данных, которая лежит в основе метода Цеттелькастен.

В этой статье расскажу, как порядок в заметках помогает лучше усваивать материал, кому подойдет Цеттелькастен или подобные методы и что лучше — простые конспекты или структурированные заметки.

+41

mClouds_editor 10 апр в 11:57

NVMe для HDD: как новая технология решает проблемы хранения данных ИИ

Простой

8 мин

3.7K

Блог компании mClouds.ruIT-инфраструктура*Хранение данных*Читальный залКомпьютерное железо

Обзор

Системы искусственного интеллекта сталкиваются с серьезной проблемой: как хранить и обрабатывать огромные объемы данных, необходимые для обучения и работы моделей. Традиционные решения уже не справляются с требованиями скорости, масштабируемости и экономичности.

Решением могут стать жесткие диски с интерфейсом NVMe. Они сочетают в себе экономичность HDD с производительностью NVMe, устраняя узкие места в системах хранения данных для ИИ.

Seagate впервые представила прототип таких накопителей в 2021 году на саммите Open Compute Project, а в марте 2025 года на конференции GTC компания продемонстрировала уже полноценное решение, интегрирующее NVMe HDD с современной платформой Mozaic 3+ и процессорами обработки данных NVIDIA BlueField-3.

Разбираемся, как NVMe HDD могут изменить подход к хранению данных для ИИ и стать ключевым элементом будущих инфраструктур.

DimDimDimDimDim 10 апр в 11:07

Рассказываем об апдейтах за март: месяц бесплатного S3, настройка IOPS и не только

5 мин

3.1K

Блог компании SelectelIT-инфраструктура*Kubernetes*Облачные вычисления*Хранение данных*

Привет! Я — Дима, технический писатель в Selectel. Под катом рассказываю, как подключать сетевые диски к нескольким серверам, о новых конфигурациях в DBaaS, а также улучшениях в Kubernetes. В конце — приглашения на апрельские мероприятия.

Читать дальше →

+32

Webest 10 апр в 10:16

Как защитить интернет-магазин от перегрузок: RPS, масштабирование и отказоустойчивость

Простой

9 мин

773

Nginx*Серверная оптимизация*Серверное администрирование*Хранение данных*IT-инфраструктура*

Обзор

Перегрузка интернет-магазина – головная боль владельца бизнеса. Сайт тормозит, корзина зависает, клиенты не могут оформить заказ. Почему это происходит? Как предотвратить коллапс системы в разгар распродаж?

В этой статье расскажем, как повысить RPS и обеспечить отказоустойчивость. Поделимся планом действий и разберем кейс из нашей практики.

-1

yadro_team 9 апр в 17:20

Более 4 000 ГБ за 11 минут: тестируем три сценария резервного копирования с Кибер Бэкап и TATLIN.BACKUP

Средний

14 мин

2.8K

Блог компании YADROБлог компании КиберпротектРезервное копирование*Хранение данных*Хранилища данных*

В формуле идеального решения для резервного копирования данных enterprise-класса много переменных. Одна из ключевых — производительность решения, включая скорость копирования, нагрузку на сеть и потребление вычислительных ресурсов хранилища и источника данных.

Инженеры компаний YADRO и Киберпротект протестировали совместную работу системы резервного копирования Кибер Бэкап и системы хранения данных TATLIN.BACKUP в трех сценариях сохранения резервных копий виртуальных машин: с inline-дедупликацией, по протоколу NFS и агентом Tboost на узле хранения. Поделимся результатами тестирования совместимого решения, а заодно предметно поговорим об организации правильной архитектуры с учетом особенностей конкретной инфраструктуры.

+13

Doroveyev_Alexander 9 апр в 11:59

Data Governance и Бизнес: как найти общий язык

Простой

2 мин

225

Big Data*HabrХранение данных*Хранилища данных*

Мнение

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!»

«Нам нужны качественные данные, а вы все про свои процессы!»

«Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!»

Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы.

Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе:

1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу.

2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу.

3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня.

Как же выстроить эффективный диалог между DG и бизнесом?

comol85 4 апр в 04:23

Neo4j. Графовая СУБД для RAG и не только

Простой

10 мин

2.4K

Администрирование баз данных*NoSQL*Искусственный интеллектХранение данных*

Графовые СУБД, пожалуй, одни из самых специализированных хранилищ, существующих на корпоративном рынке. Neo4j при этом яркий представитель этой категории.

C Neo4j я познакомился ещё в далеком 2018-м году, в рамках задачи создания более приятной системы корпоративных знаний чем классические Wiki (некий такой корпоративный Obsidian), ну или основные его части. Это сейчас вы можете радоваться всем благам цивилизации, а в то далёкое время нам надо было очень внимательно относиться к структуре корпоративной базы знаний, т.к. даже поисковые алгоритмы часто оставляли желатель лучшего. Никакого вам ранжирования статей в выдаче по просмотрам и времени создания.

Но в целом с точки зрения базы знаний даже текущие варианты Wiki с ранжированием статей, отображением связанных, последних просмотренных, которые смотрят вместе и т.п. всё равно не решает вопрос оперативного поиска информации. А вот граф - уже другая история. Использовали Obsidian? Понравилось представление информации связанных заметок? Особенно если качественно проставлять связи. Собственно именно таким образом мы обычно и оперируем информацией. Табличная модель конечно удобна, но несколько более синтетическая история, которую придумали чтобы упростить себе жизнь, потому как оперировать графами технически всё-таки более сложная история.

alexandr_korznikov 2 апр в 18:16

Как взламывают базы данных: разбор кейсов и типичных ошибок компаний

Средний

6 мин

11K

Информационная безопасность*Системное администрирование*СофтХранение данных*

Из песочницы

Базы данных (БД) – это настоящие клады, где хранятся персональные данные, финансовые отчеты, коммерческие тайны и иная чувствительная информация. Поэтому неудивительно, что компании любых размеров – от стартапов до гигантов вроде Sony и Tesla – регулярно становятся жертвами атак, направленных именно на взлом БД.

Последствия таких атак могут быть катастрофическими: от миллионных штрафов и судебных разбирательств до серьёзного урона репутации. Но ирония в том, что в большинстве случаев взломы происходят не из-за гениальности хакеров, а из-за банальных ошибок самих компаний. Разберём самые распространённые уязвимости.

artemy_kravtsov 2 апр в 14:25

Шардированный кластер ClickHouse

Простой

21 мин

Блог компании WBTECHBig Data*Data Engineering*SQL*Хранение данных*

Обзор

Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.

+14

stratnevpy 2 апр в 13:32

Отказоустойчивость в MinIO

Простой

14 мин

Блог компании RUTUBEХранение данных*Хранилища данных*Анализ и проектирование систем*IT-инфраструктура*

Обзор

Simple Storage Service или S3 — сервис (и одновременно протокол) для хранения данных большого объёма. Для работы использует API поверх HTTP, который позволяет загружать или получать объекты из хранилища.

В проектах с приватной инфраструктурой часто возникает потребность в организации on-premise S3-хранилища. Популярное решение в таком случае это MinIO — удобная и довольно простая в использовании реализация сервиса S3. Когда нам в RUTUBE потребовалось S3, мы не стали долго думать и взяли MinIO, потому что он стильный, модный, молодежный хорошо себя зарекомендовал на рынке, хорошо документирован и прост в первоначальной настройке и эксплуатации.

В этой статье поделюсь своим опытом использования MinIO, сделав акцент на отказоустойчивости и сохранности данных в случае инцидентов разной степени — от выпадения диска до пожара в цоде.

+17

ru_vds 2 апр в 12:01

Менеджер закладок на своём сервере

Средний

5 мин

7.3K

Блог компании RUVDS.comOpen source*Серверное администрирование*СофтХранение данных*

Туториал

Хранить тысячи закладок в браузере — совершенно неблагодарная задача. Там отсутствуют даже офлайн-предпросмотр и автоматические теги, не говоря о полнотекстовом поиске и автоматическом скачивании/архивировании по RSS.

Для нормального управления закладками нужно специализированное решение. Тут много вариантов, а одно из лучших — это опенсорсное приложение Hoarder («Копилка информации»). Оно устанавливается на сервер и выступает единой БД для доступа из любых клиентов: Android, iOS, Chrome, Firefox и т. д.

Рассмотрим базовые функции этого приложения и как установить его на машине, где хранится личный информационный архив. Это может быть или домашний сервер, или VPS.

Читать дальше →

+38

2 3 ...

120 121

Хранение данных *

В Европе снова заговорили об отказе от американских платформ и суверенном облаке — анализ ситуации

Новости

NVRAM из EEPROM

Погружение в ClickHouse: делаем первые и успешные шаги

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 2

Истории

Low-code без границ: 32 млрд квартетов и терабайты данных в конструкторе приложений

Конфиденциальность мертва: Яндекс и ВК обучают ИИ на ваших личных данных?

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

ОС против Kafka: битва за map-области: история одного неочевидного лимита

Что вендоры выпустили в марте? Новинки от NVIDIA, Supermicro и не только

Это путь воина: как я выучил Python и Go с помощью Цеттелькастена и кому точно не рекомендую метод

NVMe для HDD: как новая технология решает проблемы хранения данных ИИ

Рассказываем об апдейтах за март: месяц бесплатного S3, настройка IOPS и не только

Как защитить интернет-магазин от перегрузок: RPS, масштабирование и отказоустойчивость

Ближайшие события

Более 4 000 ГБ за 11 минут: тестируем три сценария резервного копирования с Кибер Бэкап и TATLIN.BACKUP

Data Governance и Бизнес: как найти общий язык

Neo4j. Графовая СУБД для RAG и не только

Как взламывают базы данных: разбор кейсов и типичных ошибок компаний

Шардированный кластер ClickHouse

Отказоустойчивость в MinIO

Менеджер закладок на своём сервере

zproxy.org