Посты / Профиль ITSumma / Хабр

Аккаунт компании

Профиль Статьи 107Посты 7Новости 210Комментарии 59

3 июн 2024 в 14:267.1K

Блог компании ITSummaBig Data*Data Engineering*

Наш вебинар, посвященный взаимодействию между Spark и Greenplum, прошел уже 2 недели назад. Но его запись останется с вами навечно! По крайней мере, пока не отключат всё электричество на планете.

? Посмотреть запись можно по ссылке: https://youtu.be/zIYUKB5960w

Теги:

ITSumma

7 мая 2024 в 11:314.9K

Блог компании ITSummaBig Data*Data Engineering*

16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».

На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.

??‍?Спикер вебинара:

Алексей Пономаревский, ведущий администратор баз данных в ITSumma

В программе:

? Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
? С какими вызовами мы столкнулись при написании коннектора и как их решили.
? Цифры и результаты: что у нас получилось в итоге.
? Дальнейшие планы и перспективы разработки.

Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.

??Регистрация на вебинар доступна по ссылке зашитой в это предложение??

Теги:

ITSumma

21 мар 2024 в 14:175.5K

Блог компании ITSummaBig Data*

Наш коннектор для связи Apache Spark с БД Greenplum стал быстрее в 20 раз

Решение теперь поддерживает Apache Spark версии 3.0 и выше. По сравнению с предыдущей версией производительность выросла в 10-20 раз — с 1 до 10-20 Мб/с на один сегмент Greenplum. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк.

Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность, — Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

Свежие релизы наших продуктов и полезный контент в нашем ТГ-канале!

Теги:

ITSumma

16 фев 2024 в 11:274.7K

Блог компании ITSummaСистемное администрирование*

Памятка, как и для чего нужно мониторить синхронизацию времени на сервере с эталонным.

?Сохраняйте себе, чтобы не потерять!

Рассинхронизация времени иногда приводит к сложно диагностируемым ошибкам как в серверном ПО, так и в клиентских приложениях. Например, нам встречались ошибки в репликации данных между двумя базами (как в схеме мастер-слейв так и мастер-мастер) или получение логов «из будущего».

Отставание времени на сервере может повлиять на работу интернет-магазинов: например крон-задание, которое должно запускаться ровно в полночь, из-за рассинхрона запустится раньше или позже обычного и нарушит формирование отчетов — как внутренних, так и внешних, скажем, для налоговой.

Мы мониторим синхронизацию времени, запрашивая статус работающих на сервере утилит. Например, ntpd, chronyd или systemd-timesyncd, и используем алерты следующего вида:

> 500 миллисекунд в течение 5 минут;
< 500 миллисекунд в течение 5 минут.

Если этот пост нанес вам пользу, ставьте ➕!

Теги:

ITSumma

8 фев 2024 в 05:277.6K

Блог компании ITSummaАдминистрирование баз данных*Big Data*Data Engineering*

Хабр, привет!

Хотим напомнить, что сегодня в 11:00 МСК у нас пройдет вебинар «Управление базами данных в Greenplum: мониторинг и удаление мусора». Расскажем, как правильно собирать и удалять мусор в реляционных СУБД вообще и в Greenplum в частности.

?‍? Спикеры:

Алексей Пономаревский, ведущий администратор БД ITSumma
Иван Хозяинов, руководитель направления больших данных ITSumma

? О чём:

Вакуумирование данных и для чего оно нужно
Инструменты и специфика вакуумирования в Greenplum
Мониторинг раздутых таблиц и стратегии вакуумирования
Решения и практики, которые минимизируют возможные проблемы

Регистрация: https://clck.ru/38NWH7

Теги:

ITSumma

14 июл 2023 в 09:592.4K

Блог компании ITSumma

Друзья, всем привет!

Хотим в двух словах рассказать про большой апдейт нашего фреймворка для Terraform — KulebiaC. Он помогает быстрее описывать и развертывать инфраструктуры в облаке.

Теперь с его помощью вы сможете быстро наладить хранение данных в Yandex Cloud, ведь мы добавили модули описания для самых часто используемых БД:

✅ MySQL;

✅ MongoDB;

✅ ClickHouse;

✅ Redis.

⏰ В августе-сентябре мы планируем добавить ещё больше модулей для БД, ролевые модели, группы безопасности и стек решений для мониторинга.

Протестировать апдейт можно тут

Чат поддержки фреймворка

За разработку огромное спасибо @sergei_sporyshev. Будем рады обратной связи!

+23

ITSumma

10 июл 2023 в 11:341.3K

Блог компании ITSumma

Запись вебинара «Terraform: как обойти ограничения в работе с облачными инфраструктурами».

Спешим поделиться ссылкой на запись нашего вебинара, который прошел 29 июня. Что внутри:

Кейсы, в которых использование Terraform при описании инфраструктуры становится слишком сложным и заводит инженеров в тупик.
Области и нюансы применения дополнительных инструментов для IaC, которые помогают в описании сложных облачных инфраструктур.
Полезный фреймворк для IaC в Yandex Cloud — KulebIaC, его возможности.
Типовые сценарии использования KulebIaC.
Быстрое развертывание рабочей инфраструктуры Saas-сервиса в Yandex Cloud с помощью KulebIaC.
В конце — отвечаем на вопросы аудитории.

Ссылка на запись.

Будем рады вашим лайкам и комментариям!

#devops #sre #yandexcloud #terraform

Информация

zproxy.org