Наш вебинар, посвященный взаимодействию между Spark и Greenplum, прошел уже 2 недели назад. Но его запись останется с вами навечно! По крайней мере, пока не отключат всё электричество на планете.
? Посмотреть запись можно по ссылке: https://youtu.be/zIYUKB5960w
Аккаунт компании
16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».
На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.
???Спикер вебинара:
Алексей Пономаревский, ведущий администратор баз данных в ITSumma
В программе:
? Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
? С какими вызовами мы столкнулись при написании коннектора и как их решили.
? Цифры и результаты: что у нас получилось в итоге.
? Дальнейшие планы и перспективы разработки.
Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.
??Регистрация на вебинар доступна по ссылке зашитой в это предложение??
Наш коннектор для связи Apache Spark с БД Greenplum стал быстрее в 20 раз
Решение теперь поддерживает Apache Spark версии 3.0 и выше. По сравнению с предыдущей версией производительность выросла в 10-20 раз — с 1 до 10-20 Мб/с на один сегмент Greenplum. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк.
Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность, — Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.
Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.
Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.
Свежие релизы наших продуктов и полезный контент в нашем ТГ-канале!
Памятка, как и для чего нужно мониторить синхронизацию времени на сервере с эталонным.
?Сохраняйте себе, чтобы не потерять!
Рассинхронизация времени иногда приводит к сложно диагностируемым ошибкам как в серверном ПО, так и в клиентских приложениях. Например, нам встречались ошибки в репликации данных между двумя базами (как в схеме мастер-слейв так и мастер-мастер) или получение логов «из будущего».
Отставание времени на сервере может повлиять на работу интернет-магазинов: например крон-задание, которое должно запускаться ровно в полночь, из-за рассинхрона запустится раньше или позже обычного и нарушит формирование отчетов — как внутренних, так и внешних, скажем, для налоговой.
Мы мониторим синхронизацию времени, запрашивая статус работающих на сервере утилит. Например, ntpd, chronyd или systemd-timesyncd, и используем алерты следующего вида:
> 500 миллисекунд в течение 5 минут;
< 500 миллисекунд в течение 5 минут.
Если этот пост нанес вам пользу, ставьте ➕!
Хабр, привет!
Хотим напомнить, что сегодня в 11:00 МСК у нас пройдет вебинар «Управление базами данных в Greenplum: мониторинг и удаление мусора». Расскажем, как правильно собирать и удалять мусор в реляционных СУБД вообще и в Greenplum в частности.
?? Спикеры:
Алексей Пономаревский, ведущий администратор БД ITSumma
Иван Хозяинов, руководитель направления больших данных ITSumma
? О чём:
Вакуумирование данных и для чего оно нужно
Инструменты и специфика вакуумирования в Greenplum
Мониторинг раздутых таблиц и стратегии вакуумирования
Решения и практики, которые минимизируют возможные проблемы
Регистрация: https://clck.ru/38NWH7
Друзья, всем привет!
Хотим в двух словах рассказать про большой апдейт нашего фреймворка для Terraform — KulebiaC. Он помогает быстрее описывать и развертывать инфраструктуры в облаке.
Теперь с его помощью вы сможете быстро наладить хранение данных в Yandex Cloud, ведь мы добавили модули описания для самых часто используемых БД:
✅ MySQL;
✅ MongoDB;
✅ ClickHouse;
✅ Redis.
⏰ В августе-сентябре мы планируем добавить ещё больше модулей для БД, ролевые модели, группы безопасности и стек решений для мониторинга.
Протестировать апдейт можно тут
За разработку огромное спасибо @sergei_sporyshev. Будем рады обратной связи!

Запись вебинара «Terraform: как обойти ограничения в работе с облачными инфраструктурами».

Спешим поделиться ссылкой на запись нашего вебинара, который прошел 29 июня. Что внутри:
Кейсы, в которых использование Terraform при описании инфраструктуры становится слишком сложным и заводит инженеров в тупик.
Области и нюансы применения дополнительных инструментов для IaC, которые помогают в описании сложных облачных инфраструктур.
Полезный фреймворк для IaC в Yandex Cloud — KulebIaC, его возможности.
Типовые сценарии использования KulebIaC.
Быстрое развертывание рабочей инфраструктуры Saas-сервиса в Yandex Cloud с помощью KulebIaC.
В конце — отвечаем на вопросы аудитории.
Будем рады вашим лайкам и комментариям!
#devops #sre #yandexcloud #terraform