Как стать автором
Обновить
280
0.3
ITSumma @ITSumma

Аккаунт компании

Отправить сообщение

Наш вебинар, посвященный взаимодействию между Spark и Greenplum, прошел уже 2 недели назад. Но его запись останется с вами навечно! По крайней мере, пока не отключат всё электричество на планете.

? Посмотреть запись можно по ссылке: https://youtu.be/zIYUKB5960w

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

16 мая в 11:00 МСК приглашаем на вебинар «Spark-Greenplum Connector: философия взаимодействия».

На вебинаре мы разберем best practices по работе с распределенно-параллельными системами обмена данных. На примере нашей разработки Spark-Greenplum Connector расскажем, как создать собственное расширение для обмена данными между Apache Spark и внешними системами. И как правильно использовать специальный набор интерфейсов, которые коннектор должен реализовать для взаимодействия с ядром Spark.

??‍?Спикер вебинара:

Алексей Пономаревский, ведущий администратор баз данных в ITSumma

В программе:

? Что подтолкнуло нас к созданию своего собственного коннектора Spark к СУБД Greenplum.
? С какими вызовами мы столкнулись при написании коннектора и как их решили.
? Цифры и результаты: что у нас получилось в итоге.
? Дальнейшие планы и перспективы разработки.

Вебинар будет интересен администраторам баз данных, DataOps-инженерам и всем специалистам, работающим с построением ETL-процессов, хранением и обработкой больших объемов данных.

??Регистрация на вебинар доступна по ссылке зашитой в это предложение??

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Наш коннектор для связи Apache Spark с БД Greenplum стал быстрее в 20 раз

Решение теперь поддерживает Apache Spark версии 3.0 и выше. По сравнению с предыдущей версией производительность выросла в 10-20 раз — с 1 до 10-20 Мб/с на один сегмент Greenplum. Это произошло благодаря применению метода zero-copy — коннектор перестал использовать копирование внутренних кешей двоичного представления строк. 

Для коннектора была проведена общая оптимизация, которая сокращает задержку между батчами и микробатчами в Spark. В основном скорость была увеличена в 10-20 раз за счет изменения механизма копирования буфера — теперь вместо копирования делается передача указателя на него. Такого рода технические решения позволили значительно увеличить производительность, — Алексей Понаморевский, ведущий разработчик проекта Spark-Greenplum-Connector.

Spark-greenplum-connector предназначен для замены встроенного в Apache Spark коннектора. Благодаря ему, дата-инженеры смогут увеличить скорость чтения и записи в базу данных и быстро масштабировать количество подключаемых и обрабатываемых источников.

Коннектор применим везде, где требуется потоковое получение больших объемов данных. В тех отраслях, где есть телеметрия или постоянный поток событий: финансы, электронная коммерция, телеком, медиа, производство и промышленность, реклама, транспорт и логистика и т.д.

Свежие релизы наших продуктов и полезный контент в нашем ТГ-канале!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии4

Памятка, как и для чего нужно мониторить синхронизацию времени на сервере с эталонным.

?Сохраняйте себе, чтобы не потерять!

Рассинхронизация времени иногда приводит к сложно диагностируемым ошибкам как в серверном ПО, так и в клиентских приложениях. Например, нам встречались ошибки в репликации данных между двумя базами (как в схеме мастер-слейв так и мастер-мастер) или получение логов «из будущего».

Отставание времени на сервере может повлиять на работу интернет-магазинов: например крон-задание, которое должно запускаться ровно в полночь, из-за рассинхрона запустится раньше или позже обычного и нарушит формирование отчетов — как внутренних, так и внешних, скажем, для налоговой.

Мы мониторим синхронизацию времени, запрашивая статус работающих на сервере утилит. Например, ntpd, chronyd или systemd-timesyncd, и используем алерты следующего вида:

> 500 миллисекунд в течение 5 минут;

< 500 миллисекунд в течение 5 минут.

Если этот пост нанес вам пользу, ставьте ➕!

Теги:
Всего голосов 7: ↑6 и ↓1+5
Комментарии2

Хабр, привет!

Хотим напомнить, что сегодня в 11:00 МСК у нас пройдет вебинар «Управление базами данных в Greenplum: мониторинг и удаление мусора». Расскажем, как правильно собирать и удалять мусор в реляционных СУБД вообще и в Greenplum в частности.

?‍? Спикеры:

Алексей Пономаревский, ведущий администратор БД ITSumma
Иван Хозяинов, руководитель направления больших данных ITSumma

? О чём:

Вакуумирование данных и для чего оно нужно
Инструменты и специфика вакуумирования в Greenplum
Мониторинг раздутых таблиц и стратегии вакуумирования
Решения и практики, которые минимизируют возможные проблемы

Регистрация: https://clck.ru/38NWH7

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Друзья, всем привет! 

Хотим в двух словах рассказать про большой апдейт нашего фреймворка для Terraform — KulebiaC. Он помогает быстрее описывать и развертывать инфраструктуры в облаке.

Теперь с его помощью вы сможете быстро наладить хранение данных в Yandex Cloud, ведь мы добавили модули описания для самых часто используемых БД:

✅ MySQL;

✅ MongoDB;

✅ ClickHouse;

✅ Redis.

⏰ В августе-сентябре мы планируем добавить ещё больше модулей для БД, ролевые модели, группы безопасности и стек решений для мониторинга.

Протестировать апдейт можно тут

Чат поддержки фреймворка

За разработку огромное спасибо @sergei_sporyshev. Будем рады обратной связи!

Всего голосов 25: ↑24 и ↓1+23
Комментарии0

Запись вебинара  «Terraform: как обойти ограничения в работе с облачными инфраструктурами».

Спешим поделиться ссылкой на запись нашего вебинара, который прошел 29 июня. Что внутри:

  • Кейсы, в которых использование Terraform при описании инфраструктуры становится слишком сложным и заводит инженеров в тупик.

  • Области и нюансы применения дополнительных инструментов для IaC, которые помогают в описании сложных облачных инфраструктур.

  • Полезный фреймворк для IaC в Yandex Cloud — KulebIaC, его возможности.

  • Типовые сценарии использования KulebIaC.

  • Быстрое развертывание рабочей инфраструктуры Saas-сервиса в Yandex Cloud с помощью KulebIaC.

  • В конце — отвечаем на вопросы аудитории.

Ссылка на запись.

Будем рады вашим лайкам и комментариям!

#devops #sre #yandexcloud #terraform

Рейтинг0
Комментарии0

Информация

В рейтинге
Не участвует
Откуда
Россия
Работает в
Зарегистрирован
Активность