Как стать автором
Обновить
84.11

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга

🏖 Рассказываем про миграционные каникулы для данных в Selectel

Сейчас многие компании заняты реорганизацией своей инфраструктуры. Миграция данных устроена так, что бизнес вынужден платить несколько раз:

  • за исходное хранилище данных,

  • за трафик при переносе данных,

  • за запросы в целевое хранилище,

  • за объем целевого хранилища.

Чтобы помочь компаниям сократить затраты, мы проводим миграционные каникулы для переноса данных в объектное хранилище.

Миграционные каникулы позволяют не оплачивать запросы и хранение 30 дней с момента одобрения заявки. Этот период полностью покрывает время на подготовительные работы и снижает нагрузку на бизнес.

Наше хранилище поддерживает точки присутствия в Москве и Санкт-Петербурге. Вы можете распределять данные между разными географическими зонами, повышая катастрофоустойчивость инфраструктуры.

Участвовать просто: достаточно подать заявку на сайте.

Условия каникул подходят клиентам, которые не использовали объектное хранилище Selectel ранее. 

Теги:
+5
Комментарии0

Как сохранить данные в S3 при работе с Evolution Container Apps — расскажем на конференции GoCloud 2025 ☁️

Покажу, как запустить ваши приложения в два клика, при этом сэкономив ресурсы, и как управлять важными данными с помощью S3. Все это на примере сервиса, работающего со статическим контентом.

Никита Корольков — менеджер продукта в Cloud.ru 

Трек:  Инфраструктура и сервисы — про новые и популярные инструменты платформы Cloud.ru Evolution и то, как они помогают в решении задач.

📅 Когда: 10 апреля в 15:35 мск

👉 Зарегистрироваться

А еще, пока ждете выступление, можно почитать в нашем блоге по теме: Запускаем приложения в облаке с помощью Evolution Container Apps и Evolution Artifact Registry.

Теги:
0
Комментарии0

Как оптимизировать расходы на резервное копирование

10 апреля в 13:00 подключайтесь к вебинару, где специалисты YADRO и Киберпротект расскажут об эффективном использовании системы резервного копирования (СРК) в связке с системой хранения данных (СХД). СРК занимается резервным копированием и восстановлением данных, а СХД — их надежным хранением, компрессией и дедупликацией. 

В прямом эфире вы сможете:

  • узнать о возможностях СРК Кибер Бэкап и СХД TATLIN.BACKUP,

  • выбрать подходящий сценарий их совместного использования,

  • посмотреть в реальном времени, как происходит резервное копирование средствами Кибер Бэкапа на TATLIN.BACKUP с помощью T-BOOST,

  • задать вопросы экспертам.

Одной из тем вебинара станет технология T-BOOST. Она позволяет выполнять дедупликацию данных на источнике: защищенном хосте или узле хранения Кибер Бэкапа. После дедупликации в хранилище передаются только уникальные данные. Это позволяет минимизировать объем передаваемых данных (снизить нагрузку на сеть) и ускорить резервное копирование.

Принять участие в вебинаре →

Теги:
+3
Комментарии0

Какие проблемы решает алгоритм FastCDC при дедупликации данных

FastCDC — это алгоритм разбиения данных на блоки переменной длины (Content Defined Chunking, CDC). В отличие от нарезки с фиксированной длиной блока, FastCDC решает проблему смещения границ (boundary-shift problem), которая возникает при вставке новых данных в файл. Например, если в начало файла добавить байт, то при использовании разбиения с фиксированной длиной все последующие блоки изменятся.

Алгоритмы с переменной длиной блока, такие как FastCDC, устраняют эту проблему, поскольку устанавливают границы блоков на основе содержимого данных, используя хеш-функцию для определения неких избранных последовательностей байтов. Впрочем, если байт будет добавлен в середину какого-то блока, то этот блок будет потерян, а граница будет корректно определена уже для следующего от него блока.

FastCDC выделяется среди других алгоритмов высокой скоростью обработки потока байтов. Основная вычислительная нагрузка на систему создается операциями разбиения данных на блоки и их сжатия, поэтому оптимизация алгоритма разбиения напрямую влияет на общую производительность.

Основная идея FastCDC заключается в следующем: среди всех возможных последовательностей байтов (множество A) выделяется подмножество B. Когда в файле обнаруживается последовательность из множества B, алгоритм устанавливает границу блока (anchor) сразу после этой последовательности.

Так как хранение подмножества B напрямую невозможно из-за огромного количества возможных последовательностей, используется хеш-функция. Она преобразует каждую последовательность байтов в числовое значение, которое определяет класс этой последовательности. 

После нахождения опорного байта (anchor) алгоритм проверяет, удовлетворяет ли он дополнительным условиям. Например, FastCDC не создаст новый блок, если точка находится слишком близко к границе предыдущего блока и минимальный размер блока еще не достигнут. Если опорные байты не найдены, система отрежет блок по его максимально допустимому размеру. 

Добавление всего одного нового байта 0 сдвигает все предыдущие байты вправо, что приводит к изменению содержимого каждого блока:

Эксперт по разработке ПО отдела систем обработки данных в YADRO Ростислав Ефремов в статье подробно объяснил, что такое дедупликация данных, какую роль она играет в системах резервного копирования и как работает в СХД TATLIN.BACKUP

Теги:
+5
Комментарии0

Радио-серфинг: как исследовать короткие волны без спецоборудования

http://websdr.ewi.utwente.nl:8901/

В университете Твенте [1] есть коротковолновый приемник, к которому можно подключиться через обычный браузер [ссылка] и исследовать ответы тысяч радиостанций по всему миру (в режиме реального времени).

С помощью ресурса можно:
1️⃣ Слушать радиолюбительские передачи, авиационные каналы, морскую связь и многое другое
2️⃣ Исследовать разные частоты и находить интересные сигналы
3️⃣ Делать записи эфиров, чтобы потом прогонять их через декодеры
4️⃣ Погрузиться в мир радио, даже если у вас нет собственного оборудования

Этот ресурс — настоящий портал в мир радио. Даже если вы, как и я, не станете радиолюбителем, это отличный способ узнать что-то новое.

Вот несколько интересных частот с которых можно начать:
🇳🇱 1008.00 кГц — Radio Twenty Gold (Нидерланды)
🇷🇺 4625.00 кГц — легендарная "Жужжалка" (УВБ-76). Загадочный сигнал, о котором ходят легенды. Подробнее можно почитать здесь (https://www.rbc.ru/base/18/12/2024/6762bb5c9a7947e14d132352)
🇫🇷 9790.00 кГц — Radio France
🇷🇴11930 кГц — Radio Romania International

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал!

P.S. ещё на ресурсе есть онлайн чат, в котором вы можете общаться с другими радиолюбителями

Теги:
+7
Комментарии1

13 марта 16:00 CET (18:00 Мск) Андрей Квапил, более известный в инженерном сообществе как @kvaps будет травить байки о том, как правильно готовить LINSTOR и Talos Linux — на этот раз на комьюнити-мите LINBIT (создатели LINSTOR и DRBD). Основано на реальных событиях, приключившихся в Cozystack:)

Программа комьюнити-мита:

  • Andrei Kvapil: LINSTOR on Talos Linux: A robust base for Cozystack

  • Joel Colledge: DRBD resync without replication

  • Johannes Khoshnazar-Thoma: WinDRBD 1.2 news

Присоединяйтесь к трансляции:

Кроме того, будем транслировать встречу в телеграм-чате @drbd_ru.

Теги:
0
Комментарии0

Как работает современный RAID-массив: разбираем реализацию YADRO

Чтобы обеспечить доступность данных, T-RAID решает определенный набор задач.

Построение пула хранения на несколько петабайт. Эту возможность обеспечивает архитектура T-RAID: схемы расположения данных, реализация страйпов и allocation-групп дисков.

Оптимизация ребилда дисков и нагрузки на них. T-RAID проводит ребилд только реальных данных, а также распределяет нагрузку ребилда на несколько дисков. Здесь задействована обработка ошибок через блоки, а также фоновые процессы recovery и balancer. В распределении нагрузки помогает фоновый воркер rate limiter и адаптивный троттлер фоновых процессов.

Защита от выхода из строя аппаратных компонентов СХД (процессора, материнской платы, блока питания, контроллера, системного диска). Достигается посредством двухконтроллерной работы в режиме active-active. Тома блоков доступны на запись и чтение одновременно с двух контроллеров при балансировке нагрузки к лунам. Реализацию active-active мы раскроем в отдельной части материала.

Обеспечение отказоустойчивой работы с самими данными от получения запроса до записи в диск. Это реализуется с помощью integrity-механизмов.

Отработка отказов оборудования. Здесь возможно несколько сценариев разного масштаба — от потери отдельного диска до потери целого контроллера или интерконнекта.

О том, как в T-RAID реализованы все перечисленные технические средства, в своей статье подробно рассказал Вячеслав Пачков, ведущий инженер по разработке ПО в департаменте СХД YADRO.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Горячая новость про холодное хранилище 🧊

Добавили «холодный» класс хранения данных в S3. Теперь их два — стандартный и, собственно, холодный. Разбираемся что к чему👇

Стандартное хранение подходит для данных, которые нужны здесь и сейчас. Например, операции биллинга, логи для аналитики в реалтайме, медиафайлы для стриминговых сервисов и др. Поэтому база этого хранения — быстрый диск.

Для данных, к которым вы обращаетесь редко, подойдет холодное хранение. Например, чтобы складывать туда резервные копии, архивные документы и многое другое, про которое можно сказать «залил и забыл». Они хранятся на диске помедленнее, за счет чего стоимость хранения в разы дешевле.

А именно 1 ГБ — 1 руб/мес

Плюс полностью бесплатный входящий трафик и 100 ГБ бесплатного исходящего в месяц. С платой за превышение последнего 1.5 руб/ГБ.

Также для холодного хранилища мы сделали гибкий конфигуратор бакетов. От 1 ГБ до 50 ТБ с шагом в 1 ГБ. Можно и больше, через менеджера.

«Охладить» свои данные в S3 →

Теги:
Всего голосов 7: ↑7 и ↓0+9
Комментарии0

Как работать с Apache Spark? Практический гайд (видео + материалы на GitHub)

В Сравни мы используем Apache Spark для загрузки сырых данных из источников.

У нас есть два вида загрузки:

  1. Batch-загрузка — когда данные грузятся один раз в какой-то период (час, день и так далее). Актуальна она, например, для данных по курсам валют: аналитикам достаточно знать курс валют на конкретный день, поэтому читаем раз в день данные по API с сайта ЦБ и грузим их в S3 (объектное хранилище) при помощи Python. Таких API достаточно много, они могут сильно различаться по количеству данных, поступающих с каждой. 

    Уже из S3 в Greenplum мы грузим все эти данные при помощи Spark. Фреймворк позволяет быстро трансформировать данные одновременно на нескольких машинах, так как все вычисления происходят в оперативной памяти.

  2. Потоковая загрузка, которая работает 24/7 (на то она и стриминг). Здесь мы имеем дело с данными, изменения в которых нам нужно видеть несколько раз в день. Данные в этом случае читаются из Kafka посредством Spark и сразу пишутся в Greenplum (параллельно скидываем файлы в S3, чтобы был бэкап).  

Порог входа в Spark выше, чем в SQL или Python, поскольку он требует знания и того, и другого. Плюс, когда начинаешь заниматься написанием трансформаций на Spark, возникают вопросы по оптимизации кода и правильной настройке ресурсов. Так как Spark — приложение, которое запускается на наших серверах, его надо уметь настраивать: примерно понимать, сколько потребуется выделить ядер процессора, оперативной памяти и количества executors (процессов для параллельной обработки).

Наш дата-инженер Евгений Виндюков полагает, что изучать Spark сразу с выделения ресурсов не стоит: лучше сперва научиться крутить таблички локально на одном компьютере. И только потом переходить на параллельную обработку на нескольких машинах.

Специально для тех, кто планирует ознакомиться с Apache Spark на практике, Евгений подготовил видео-гайд, который можно посмотреть здесь:

Плюс материалы на GitHub, чтобы вы могли не просто разобраться в Spark, но и запустить его на своём локальном ПК в режиме библиотеки или режиме кластера через docker compose.

Смотрите, изучайте, осваивайте Spark на практике. Надеемся, будет полезно!

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

🗓 07.02.1920 - Родился Ван Ань [вехи_истории]

🗓 07.02.1920 - Родился Ван Ань
🗓 07.02.1920 - Родился Ван Ань

Выдающийся американский инженер-электронщик и предприниматель китайского происхождения. Он стал известен своими достижениями в области компьютерных технологий. В 1951 году Ван запатентовал инновационную систему магнитной памяти, которая впоследствии стала ключевой технологией для первых компьютеров.

В 1957 году он основал Wang Laboratories, компанию, сыгравшую важную роль в развитии вычислительной техники. Под его руководством были созданы одни из первых компактных программируемых калькуляторов и текстовых процессоров, что сделало компьютеры доступнее для бизнеса и образования.

💙 Ставь лайк, если знаешь что такое "дискета" и даже применял их по назначению)
А еще они хорошо летают😄

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Проекты на базе продуктов Arenadata стали победителями конкурса «Проект года»

Участники профессионального сообщества лидеров цифровой трансформации Global CIO подвели итоги ежегодного конкурса для ИТ-директоров и топ-менеджеров «Проект года». В этом году его провели уже в тринадцатый раз, а в числе победителей вошли проекты, реализованные на базе продуктов Arenadata. 

На конкурс номинировали 12 проектов с продуктами Arenadata. В номинации «Управление и хранение данных» победил проект «Корпоративная дата-платформа» ПАО «Газпром нефть», а в спецноминации «Банки/Финансы» — проект импортозамещения ИТ-инфраструктуры АО «Газпромбанк».

В конкурсе участвовали шесть проектов ПАО ВТБ, пять из которых стали победителями. Среди них: система прогнозирования процентного риска (ALM-платформа), RWA-калькулятор 2.0, импортозамещение витрин данных для ФОИВ, управление финансами на основе трансфертного ценообразования и система мотивации сети продаж и СМБ.

Подробнее о победивших проектах

Проект ПАО «Газпром нефть». Цель — создать единую платформу для работы с данными на базе отечественных решений, оптимизировать процесс обработки и анализа данных, повысить эффективность и снизить стоимость проектов за счёт использования общей инфраструктуры. Уникальность заключалась в построении единого конвейера, где всё базируется на общих бизнес- и технических метаданных. Использовались Arenadata DB (ADB) и Arenadata QuickMarts (ADQM).

Проект АО «Газпромбанк». Проект по импортозамещению ИТ-инфраструктуры и переводу значимых объектов критической информационной инфраструктуры на суверенные решения. Важными задачами стали сохранение высокого уровня удобства, доступности и безопасности цифровых услуг, а также формирование технологических стандартов для рынка. Обработка больших данных ведётся на базе продуктов Arenadata.

Главной целью проекта ПАО ВТБ «Реализация прогноза метрик процентного риска банковской книги в ALM-платформе» стала реализация системы сценарного анализа риск метрик в части процентного риска банковской книги, чистого процентного дохода, маржинальности банка. В качестве одного из элементов ALM-системы использован дистрибутив распределённой платформы хранения больших данных Arenadata Hadoop (ADH).

Другой проект ПАО ВТБ был посвящён импортозамещению продукта SAS RRM для корпоративного контура банка, SAS ECL для розничного бизнеса, Oracle Exadata в части автоматизации расчета RWA по кредитному риску и расчета резервов по МСФО ФЛ и разработке собственного решения. В качестве одного из продуктов для хранения данных была выбрана Arenadata DB.

В проекте «Импортозамещение витрин данных для ответов на запросы Федеральных Органов Исполнительной Власти (ФОИВ)» от ПАО ВТБ важной целью стало развитие ФОИВ и развитие слоя источника данных для предоставления ответов на запросы ведомства. В рамках проекта было перенесено 22 витрины с данными, начиная с 2017 года, по более чем 1300 атрибутам. Проектирование и построение витрин, а также ETL-процессы по их обновлению выполнены на Arenadata Hadoop и Arenadata DB.

Проект ПАО ВТБ «Управление финансами на основе трансфертного ценообразования» был направлен на формирование на импортозамещенном стеке технологий витрины данных по расчету внутреннего аналитического финансового результата. Это улучшило «time to market» по доступности данных на 2 рабочих дня и позволило глубже анализировать доходность банковских продуктов. Использованы Arenadata DB и Arenadata Hadoop.

Ещё один проект ВТБ — «Система мотивации Сети продаж и Стримов блока СМБ» (номинация «Управление маркетингом и продажами») — был направлен на внедрение автоматизированной системы работы с большими данными для новой модели продаж и обслуживания клиентов сегмента СМБ. В числе используемых технологий — Arenadata DB.

Подробнее о конкурсе «Проект года»

«Проект года» — ежегодный конкурс ИТ-проектов от Global CIO, ключевая площадка для обмена опытом в цифровизации. Среди победителей разных лет — проекты на базе Arenadata от «Газпром нефть», ВТБ, X5 Retail Group и других.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Приглашаем на бесплатный вебинар «Как построить домик у озера данных: табличные форматы Iceberg, Delta, Hudi».

В современном мире данных Data Lakehouse становится все более популярной архитектурой, объединяющей масштабируемость и экономичность озера данных с надежностью и производительностью хранилища данных. Ключевой элемент построения Data Lakehouse — выбор подходящего табличного формата. 

Вебинар посвящен трем ведущим форматам: Apache Iceberg, Delta Lake и Apache Hudi. Мы рассмотрим их архитектуру, особенности, плюсы и минусы, а также дадим рекомендации по выбору оптимального решения для конкретных задач. 

📅 Дата: 23.01.2025

Время: 15:00-16:00 (Мск)

Эфир будет полезен начинающим и опытным специалистам в области обработки данных, желающих построить современную и эффективную платформу для работы с большими объемами данных.

👨‍🎓 Спикер: Брейман Александр — эксперт Учебного центра IBS, кандидат технических наук, доцент департамента программной инженерии ФКН ВШЭ.

👉Записаться👈

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Новых нервных клеток мы вам подарить не можем, но интересную подборку подкастов — всегда пожалуйста!

Слушайте, лайкайте, сохраняйте :)

Путь от отклика до оффера: советы рекрутера
В подкасте рекрутер КОРУСа Ксюша Державина рассказала, какие специалисты сейчас востребованы, где искать вакансии, как проходить собеседования, а еще поделились несколькими рекрутерскими секретами :)

Из инженера судостроения в дата-инженера за полгода
Паша Хлопотин, дата-инженером Департамента аналитических решений (ДАР), рассказал о том, как решиться сменить профессию в 32 года и что для этого нужно.

Про DWH, карьерное развитие и работу в разных форматах
В подкасте с Сашей Зеньковичем, руководителем направления DWH&ML ДАРа, говорим про работу с Data Warehouse в разных форматах — in-house и в консалтинге и подробно рассказываем про плюсы и минусы каждого.

Как эффективно взаимодействовать с заказчиком
Как эффективно взаимодействовать с заказчиком и командами проекта обсудили с Димой Смирновым, директором по консалтингу департамента CRM и BPM, и Таней Веселовой, руководителем направления ELMA. Как работает индивидуальный подход, как его найти, и есть ли какие-то универсальные инструменты для выстраивания отношений на проекте. Дима рассказал про то, как это работает в командах продаж, а Таня — в командах производства.

Про личные и профессиональные кризисы и их преодоление
Очень честный и даже личный подкаст с Мариной Кузнецовой, руководителем направления в Департаменте EPM, про то, как справляться с кризисными ситуациями на работе и в жизни.

Продажи в ИТ: ожидание vs реальность
В этом выпуске подкаста Talk it Easy поговорили с Алексеем Кучиным, директором по развитию бизнеса департамента бизнес-планирования. Обсудили, как прийти в продажи, почему ожидания часто не совпадают с реальностью и как преодолеть кризисы на разных этапах развития.

Вопросы, которые вы хотели, но стеснялись задать
Задаем глупые вопросы Альфии Селезеневой, инженеру третьей линии поддержки и узнаем, как устроена работа техподдержки, как происходит процесс работы над заявками и кому подойдет работа в этой сфере.

Ну и отдельно про наш видкаст!
Развитие: взгляд эксперта и руководителя
Сразу два эксперта из Департамента 1С КОРУСа на личном опыте расскажут о том, как угнаться за постоянно меняющейся ИТ-сферой и как всегда оставаться востребованным специалистом. Евгений Бородин руководитель проектов, и Анна Аджемян, консультант, рассказывают о факапах, страхах, о том, как можно много стараться и не достичь цели и как не опускать при этом руки.
К вопросу развития коллеги подходят с разных сторон. Женя – РП, ему важно не только развивать себя, но и помогать в этом своим коллегам. Аня – консультант, в самом начале карьеры ей пришлось переучиваться на работу с новой системой из-за ухода вендора.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
22 апреля
VK Видео Meetup 2025
МоскваОнлайн
23 апреля
Meetup DevOps 43Tech
Санкт-ПетербургОнлайн
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область

Представляем YDB DWH компонент для аналитической обработки данных в СУБД Яндекса

В YDB появилась новая функциональность: теперь СУБД Яндекса поддерживает работу со сложными аналитическими запросами (OLAP). Благодаря этому компании смогут не только хранить и обрабатывать в YDB сотни терабайт транзакционных данных, но и выполнять над этими данными запросы и создавать системы для поддержки принятия решений — корпоративные хранилища данных.

Система горизонтально масштабируется за счёт шардирования — автоматического партиционирования по объёму и нагрузке, — а также обеспечивает быстрое выполнение запросов благодаря массивно‑параллельной архитектуре (МРР).

Аналитическая функциональность компонента YDB DWH включает колоночные таблицы с консистентным хранением данных и управление смешанной нагрузкой. В платформу СУБД Яндекса также входит движок выполнения запросов со спиллингом данных на диск, стоимостный оптимизатор, федеративные SQL‑запросы к внешним источникам данных (S3, PostgreSQL, Greenplum, Oracle, Microsoft SQL), что позволяет создавать корпоративные хранилища данных. В планах реализация поддержки SQL-диалекта PostgreSQL для интеграции как в OLAP‑, так и в OLTP‑сценарии.

Платформа распространяется по коммерческой лицензии. Её можно и установить в собственной инфраструктуре (on‑premise), и использовать как управляемый сервис в Yandex Cloud.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

Проверьте точность ваших вычислений 🧮

Привет, Хабр! Мы продолжаем рубрику для тех, кто хочет поразмять мозги. На этот раз предлагаем вам решить задачу посложнее: 

Как нам поведал Дуглас Адамс в «Путеводитель для путешествующих автостопом по галактике», «сверхразумная раса существ создала компьютер Думатель (Deep Thought) — второй по производительности за всё существование времени и вселенной, — чтобы найти окончательный ответ на величайший вопрос жизни, вселенной и всего такого. После семи с половиной миллионов лет вычислений Думатель выдал ответ: «Сорок два».

Оцените накопленное количество ошибок вычислений ответа «Сорок два» под воздействием космической радиации при следующих условиях:

  • Сверхразумная раса – Земляне;

  • Думатель находится на орбите Плутона;

  • размер Думателя 1 * 1 * 1 км;

  • Думатель сделан из водяного льда;

Каждая молекула является вычислительной ячейкой, которая может поменять свое состояние.

Каждая частица галактического излучения, попавшая в Думатель, приводит к изменению состояния вычислительной ячейки (одной ошибке) с вероятностью 100%.

Варианты ответов оставляйте в комментариях 👇 В пятницу Павел Бузин (@pbuzin) — эксперт Cloud.ru по AI и машинному обучению, раскроет правильный ответ под этим постом.

И оставляйте реакции — как вам в целом такой формат, хотите еще задач в будущем?

Вам может быть интересно:

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии10

Тестирование систем и движков массивно-параллельных вычиcлений

Все о подходах к тестированию, которые использует команда Data Sapience, и результатах сравнения движков и систем — в партнерском материале технического идеолога Lakehouse-платформы данных Data Ocean Nova. В центре внимания — гонка зайца Trino и антилопы Impala.

Гонка зайца Trino и антилопы Impala
Гонка зайца Trino и антилопы Impala

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Практический курс по работе с объектным хранилищем

В новом бесплатном курсе рассказываем, что такое S3 и как применить его в своих проектах. Вас ждет 10 материалов, изучение которых займет чуть менее трех часов.

В рамках курса вы научитесь:

  • использовать хранилище в Kubernetes,

  • подключаться к нему из платформы для дата-аналитики,

  • интегрировать хранилище с Tilda,

  • сохранять бэкапы, в том числе игровых серверов,

  • монтировать контейнеры S3 в Windows и Linux.

Переходите в Академию Selectel и изучайте курс.

Теги:
Всего голосов 5: ↑5 и ↓0+8
Комментарии0

Как мы сделали высокоскоростной RPC с помощью RDMA для собственного SDS — доклад на IT-конференции GoCloud Tech 🦾

На конференции GoCloud Tech расскажем, почему выбрали RDMA RoCE v2 — программный блок для потоковой передачи данных. Посмотрим на внутреннее устройство транспорта с позиции разработчика. Покажем, как изменилась производительность RPC между сервисами SDS. Обсудим недостатки и перспективы решения.

Приходите послушать доклад и обсудить тему в неформальной обстановке.

🕚 Когда: 24 октября с 17:40 до 18:05

📍 Где: онлайн и офлайн в Москве в лофт-пространстве Goelro

👉 Зарегистрироваться на GoCloud Tech

Полезное в блоге:

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Data Ocean Nova. Next-gen платформа данных класса Lakehouse.

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке

Data Lakehouse (Gemeni AI Generated)
Data Lakehouse (Gemeni AI Generated)

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Всем привет!

Вопрос - где применяется подход DDD?
Аналитика, разработка, тестирование. Конечно архитектура АС, с нее все начинается.
Но это еще не все.
Есть такой класс систем как Data Warehouse (DWH) или аналитическое хранилище данных. В это хранилище попадают данные из всех бизнес-сервисов компании для дальнейшего анализа. Т.об. мы разделяем оперативную БД и аналитическую, снимая лишнюю нагрузку с оперативной БД. Особенность Data Warehouse - технологии обработки и хранения данных отличаются от используемых в системах оперативной обработки данных. Hadoop, Greenplum, ClickHouse... А значит нужны специалисты, которые подготовят хранилище под ваши данные и настроят синхронизацию с оперативной БД. Но эти специалисты не знают ваш домен, в отличие от команды. Плюс они часто становятся "бутылочным горлышком". Плюс структура данных постоянно меняется...
Что делать?
Data Warehouse специалисты готовят инфраструктуру, а за подготовку и синхронизацию данных, актуальность их структуры и способ предоставления этих данных потребителям отвечает бизнес команда. Это же ее bounded context. Подход называется Data Mesh. Вот неплохая статья на эту тему.
P.S. На самом деле DevOps в своем идеальном виде о том же - DevOps инженеры готовят инфраструктуру, а за сборку и деплой отвечает команда.

Теги:
Всего голосов 2: ↑2 и ↓0+6
Комментарии0
1