Результаты поиска по запросу «[Vertica]» / Хабр

ПубликацииХабыКомпанииПользователиКомментарии

barloc 21 фев 2024 в 11:00

Vertica Eon в K8S — 3 года развития

Средний

5 мин

900

Big Data*Хранение данных*Хранилища данных*Kubernetes*

Ретроспектива

Vertica - одна из первых широко используемых MPP баз на просторах айти ландшафта СНГ. Колоночное хранение, быстрые запросы на миллиардах строк, легендарные sort-merge джойны, которых нет больше ни у кого, позволяющие запускать свои грибницы. Но нынче на дворе 2024 год: как компания Vertica сменила уже 2 (или трех) владельцев, доступ к веб ресурсам с территории РФ ограничен, поддержка брошена, а вокруг нас процветают облака или как минимум кубернетисы во всех ипостасях.

И все же начиная с версии 10.1 компания представила интересную возможность для тех, кто уже крепко подсел на эту иглу - движок Eon. Описывая в двух словах, это та же самая по скорости база данных, но использующая общее хранилище - S3 (во всех своих ипостасях от вендорских AWS, GCS до онпрем вариантов) или HDFS. К тому же есть отличная завлекалочка - бесплатное использование кластера размером до 1 ТБ и до 3 нод вычисления. Статья является итогом тестирования технологии, и результаты тестирования какие-то не очень веселые.

eanikolaev 25 ноя 2021 в 10:40

DWH как продукт: платформа, инструменты, масштабирование команды

10 мин

23K

Блог компании AvitoTechУправление продуктом*Хранилища данных*

Меня зовут Женя, в Авито я руковожу юнитом DWH. Мы отвечаем за работу с аналитическим хранилищем, которое помогает нашим сотрудникам принимать решения, основанные на данных.

В статье расскажу, как продуктовый взгляд помогает нам развивать DWH и быть полезнее для пользователей. Речь пойдёт про появление платформенных инструментов и рост проникновения аналитики в компании, а также про реорганизацию команды и перераспределение задач. Будет больше о процессах и практиках, чем о хардкорных технологиях. Но и технологии немного затрону.

+12

juliaskogoreva 10 янв 2022 в 12:36

Хранители данных: как устроена работа с DWH в Lamoda

7 мин

35K

Блог компании Lamoda TechOracle*IT-инфраструктура*Хранение данных*Хранилища данных*

Технотекст 2021

Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence в Lamoda, которая входит в дирекцию данных и аналитики.

Если бизнесу нужны какие-то данные для принятия важных решений, то на помощь приходит наша команда. Мы тщательно изучаем множество микросервисов, чтобы определить, какие же данные нужны для решения бизнес-целей, формируем архитектуру хранилища, пишем скрипты запросов и витрин данных, строим юниверсы, делаем отчеты и дашборды. Большая часть работы не обходится без участия команды DWH-разработки.

В статье я расскажу, как устроено хранилище данных в Lamoda, что находится на каждом его слое, с помощью каких инструментов мы визуализируем данные, сколько у нас отчетов и зачем используем APEX.

+13

azathot 23 июн 2014 в 18:44

HP Vertica, проектирование хранилища данных, больших данных

8 мин

33K

Big Data*SQL*

UPD: Продолжение статьи по ссылке — habrahabr.ru/company/avito/blog/322510

О чем статья

Незаметно пролетел год, как начались работы по разработке и внедрению хранилища данных на платформе Вертика.
На хабре уже есть статьи про саму СУБД Вертика, особенно рекомендую эту: HP Vertica, первый запущенный проект в РФ, ведь ее автор очень помог нам на начальном этапе. Алексей, спасибо еще раз.
Хотелось бы рассказать о том, какая методология применялась для проектирования физической структуры хранилища, чтобы наиболее полно использовать возможности HP Vertica.
Эту статью хотел бы посветить обоснованию оптимальности выбранной методологии, а в следующей — рассказать о том, какие техники позволяют анализировать данные, содержащие десятки млрд.

Постановка задачи

Рассмотрим высоконагруженный сайт крупной российской интернет-компании (теперь можно — это Авито ;)).
Деятельность компании описывается следующими цифрами: ~ 10 млн. активных пользователей, ~100 млн. просмотров страниц в день, около 1 тыс. новых объектов, размещенных пользователями на сайте в течение 1 минуты, ~10 тыс. поисковых запросов пользователей в минуту.
Грубая оценка количества действий, подлежащих сохранению в хранилище, составляет 100 млн. новых записей в сутки (~100 GB новых данных в сутки).
Т.е. при построении классического хранилища данных с отказом от стирания поступивших ранее данных, объем хранилища через 3 месяца эксплуатации составит 10TB сырых данных. Big Data как она есть.
Нужно построить хранилище, которое хранило бы не меньше 6 месяцев данных, позволяло их анализировать, визуализировать, и отставало бы от реальной жизни настолько мало, насколько это возможно (в худшем случае — отставало бы на день, в лучшем — на минуты).
Вынося сразу за скобки вопрос выбора платформы — хранилище должно работать на HP Vertica, MPP базе колоночного хранения, см. вводную статью в заголовке.

Читать дальше →

+15

alexzaitsev 6 июл 2012 в 14:28

Эволюция аналитической инфраструктуры (продолжение)

10 мин

8.2K

Блог компании «LifeStreet Media»SQL*

В предыдущей статье я рассказал, как и почему мы выбрали Вертику. В этой части я постараюсь рассказать об особенностях этой необычной базы данных, которой мы пользуемся уже более двух лет. Написание этой статьи заняло несколько больше времени, чем я планировал, в частности из-за того, что надо было рассказать с одной стороны достаточно технически подробно, с другой — доступно, и при этом не нарушить NDA. В результате я пошел по компромиссному пути: я попытаюсь описать, как Вертика устроена и работает в принципе, не касаясь деталей.

Часть 3. Vertica. Simply Fast

Simply Fast — этот вертиковский слоган возник не на пустом месте. Она, действительно, очень быстрая. Быстрая даже с “коробочными” настройками, что показали наши тесты во время выбора решения. В процессе миграции инфраструктуры мы хорошо изучили, как сделать Вертику еще быстрее и получать от нее максимальную производительность. Но обо всем по порядку.

Читать дальше →

EvgeniyRasyuk 15 июл 2020 в 23:40

in2sql: Работаем с разнообразием ODBC источников

1 мин

2.5K

Visual Basic for Applications*SQL*

Продолжаю серию рассказов о OpenSource разработке In2sql, которая визуализирует объекты SQL для выгрузки данных в Excel (по сути это серия статей — документация к разработке).

В предыдущих частях:

В данной части поговорим о том, как создается список объектов, которые выводятся в навигационное дерево.

Читать дальше →

chemtech 24 июл 2020 в 10:23

Теория и практика использования ClickHouse в реальных приложениях. Александр Зайцев (2018г)

21 мин

17K

Big Data*SQL*Высокая производительность*Системное администрирование*Хранилища данных*

Несмотря на то, что данных сейчас много почти везде, аналитические БД все еще довольно экзотичны. Их плохо знают и еще хуже умеют эффективно использовать. Многие продолжают "есть кактус" с MySQL или PostgreSQL, которые спроектированы под другие сценарии, мучиться с NoSQL или переплачивать за коммерческие решения. ClickHouse меняет правила игры и значительно снижает порог вхождения в мир аналитических DBMS.

Доклад с BackEnd Conf 2018г и он опубликован с разрешения докладчика.

McKinseyBA 16 фев 2021 в 15:13

Business Intelligence на очень больших данных: опыт Yota

11 мин

7.1K

Блог компании YotaХранилища данных*Визуализация данных*SQL*Big Data*

Всем привет! Меня зовут Михаил Волошин, и я, как руководитель отдела инструментов бизнес-анализа, хочу верхнеуровнево рассказать о плюсах и особенностях BI-решения Yota.

200 Tb Vertica, 400 Tb Hadoop, кластер Tableau, специфичная организация процесса разработки и многое другое ждут вас под катом.

Внимательный читатель спросит: «А при чем тут Vertica и слоник Hadoop, технологии же разные?» Да ни при чем — это лишь КДПВ.

Читать дальше →

nekoval 14 сен 2010 в 16:37

СУБД — поворот на 90 градусов

3 мин

6.2K

Чулан

Объемы данных и требования к скорости их обработки за последние десятилетия многократно выросли. Системы управления базами данных (СУБД) пытаются соответствовать новым реалиям и претерпевают значительные эволюционные и революционные изменения. Одним из таких эволюционных факторов является движение в сторону т.н. вертикальных (column-based) систем хранения.

Примеры на пальцах

+12

yusman 22 июн 2016 в 09:07

Big Data головного мозга

14 мин

94K

Big Data*Hadoop*

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.

Демонстрация Hadoop пользователям

Читать дальше →

+35

Rovena 22 сен 2016 в 14:56

СУБД эпохи Интернета вещей

6 мин

6.8K

Блог компании Hewlett Packard EnterpriseСистемное администрирование*IT-инфраструктура*Администрирование баз данных*

Уникальная по своим возможностям СУБД HPE Vertica легко справляется с обработкой данных не только бизнес-транзакций, но также межмашинного взаимодействия и Интернета вещей, позволяя управлять миром умных устройств в реальном времени.

Глобальная экономика входит в эпоху Интернета вещей и массового межмашинного взаимодействия. Это значит, отмечает Дэвид Джонс, старший вице-президент и генеральный директор бизнес-подразделения HPE по управлению информацией и ее организации, что уже скоро, примерно к 2020 году, по всему миру придется обрабатывать данные от 50 миллиардов смарт-устройств и одного триллиона приложений ― всего около 44 Збайт. Нет сомнений, что прежние СУБД, ориентированные на обработку транзакционных данных, циркулирующих в традиционных бизнес-приложениях, не справятся с такой нагрузкой. На смену им приходят СУБД нового поколения, изначально рассчитанные на работу с большими объемами и потоками данных. Одна из них ― HPE Vertica, способная анализировать в реальном времени огромные объемы информации, получаемой от всевозможных «генераторов» данных — не только традиционных транзакционных систем, но также датчиков и устройств Интернета вещей, систем межмашинного взаимодействия, АСУТП, веб-сайтов и прочих источников.

Читать дальше →

+13

ascrus 16 дек 2016 в 17:50

Боремся с нагрузками в HPE Vertica

5 мин

6.3K

Хранилища данных*Администрирование баз данных*

Туториал

Типовой сценарий работы «just in time» хранилища данных выглядит так: десятки (ETL) сессий почти непрерывно захватывают с источников данные и вставляют их в хранилище. Параллельно множество других (ELT) сессий отслеживают поступление данных, заполняют консолидированный слой и ведут расчет агрегатов и витрин. Одновременно с этим, на поступающих первичных и рассчитанных данных, выполняют запросы пользователи, BI и другие системы. Вся эта каша должна ладно вариться в рамках сервера хранилищ данных, без тормозов и затыков, какими бы не были пиковые нагрузки.

В HPE Vertica для планирования работы сервера под нагрузками разработан специальный механизм, под названием «ресурсные пулы». Идея его в том, что каждый пользователь сервера работает в рамках выделенного ресурсного пула, который регулирует приоритетность доступа к ресурсам кластера, ограничивает конкурентность выполнения запросов и описывает правила резервирования и работы с памятью сервера.

По умолчанию после установки сервера Vertica на созданной базе данных это выглядит примерно так:

Читать дальше →

+16

mkrupenin 19 янв 2017 в 01:12

Сравнение производительности аналитических СУБД HPE Vertica и Exasol с использованием TPC-H Benchmark

7 мин

9.7K

Высокая производительность*SQL*Oracle*Big Data*

В данной статье я хочу продолжить тему сравнения баз данных, которые можно использовать для построения хранилища данных (DWH) и аналитики. Ранее я описал результаты тестов для Oracle In-Memory Option и In-Memory RDBMS Exasol. В данной же статье основное внимание будет уделено СУБД Vertica. Для всех описанных тестов использовались tpc-h benchmark на небольшом объёме исходных данных (2 Гб) и конфигурация БД на одном узле. Эти ограничения позволили мне многократно повторить бенчмарк в разных вариациях и с различными настройками. Для выбора аналитической СУБД под конкретный проект призываю читателей проводить испытания на своих кейсах (данные, запросы, оборудование и другие особенности).

Читать дальше →

Victor435 17 мар 2011 в 09:39

Интервью с Майклом Стоунбрейкером

6 мин

2.3K

Я пиарюсь

Перевод

Рассел Гарленд (Russell Garland), WSJ

Майкл Стоунбрейкер (Michael Stonebraker) при создании новой компании не стремится к большой прибыли, вместо этого он думает о развитии идеи, которая может революционизировать целую отрасль.

Из Википедии: Стоунбрейкер является экспертом по базам данных и профессором Массачусетского технологического института. Он также предприниматель, соучредитель восьми компаний.

Некоторые из этих стартапов уже были приобретены, в том числе самый первый, Ingres Corp., и, например, компания Vertica в настоящее время приобретена Hewlett-Packard, сумма сделки не разглашается. Одна из нескольких должностей в настоящее время − директор по технологиям (CTO) в Paradigm4 Inc., секретном стартапе, развивающем аналитику для массивных наборов данных.

Стоунбрейкер работал с рядом известных венчурных компаний, в их числе Accel Partners, Bessemer Venture Partners, Highland Capital Partners, Kleiner Perkins Caufield & Byers, New Enterprise Associates и Sigma Partners.

Майкл является одним из ведущих мыслителей следующей волны инноваций в хранилищах данных (как в управлении, так и в аналитике), которая получила название «большие данные» (“big data”). Недавно он модерировал обсуждение по этому вопросу на мероприятии, организованном Массачусетским Советом технологических лидеров (the Massachusetts Technology Leadership Council).

Мы говорили с Майком Стоунбрейкером о предпринимательстве и его проектах. Вот отредактированное

интервью:

azathot 3 мар 2017 в 14:02

Vertica+Anchor Modeling = запусти рост своей грибницы

5 мин

34K

Блог компании AvitoTechBig Data*

Какое-то время назад я написал статью на Хабре. В ней же пообещал продолжение через пару недель. Но, как известно, обещанного три года ждут — и с тех пор действительно прошло три года. Если вы не запомнили со времён той статьи, то напомню — я работаю в Avito, строю хранилище на основе Vertica.
Из того, что поменялось — теперь я могу не просто написать статью, а сделать это в блоге компании. И, надеюсь, не один раз. Самопиар окончен, теперь к делу.

Читать дальше →

+41

phil88 1 фев 2022 в 11:26

Эволюция хранилища данных в Авито

15 мин

16K

Блог компании AvitoTechBig Data*Хранилища данных*

Сейчас Data Warehouse в Авито — это инсталляция на 32 серверах. Мы используем девятую версию Vertica и ClickHouse. В команде, которая отвечает за хранилище, работает 21 человек. Поток событий, который мы загружаем, достигает 20 миллионов событий в минуту. Я расскажу, как менялось наше хранилище аналитических данных с 2013 года.

+15

moscas 3 апр 2019 в 16:58

DataGrip 2019.1: поддержка новых баз, инициализационные скрипты, новые инспекции и другое

4 мин

11K

Блог компании JetBrainsMicrosoft SQL Server*PostgreSQL*SQL*Администрирование баз данных*

Привет! Посмотрим на новые штуки в DataGrip 2019.1. Напомним, что функциональность DataGrip включена и в другие наши платные IDE, кроме WebStorm.

Читать дальше →

+22

MedBrat777 25 июн 2018 в 09:48

А нам все «вертикально» — СУБД Vertica

8 мин

55K

Блог компании СберBig Data*Администрирование баз данных*Хранение данных*Хранилища данных*

Привет! Меня зовут Сергей, я работаю главным инженером в Сбертехе. В ИТ-сфере я примерно 10 лет, из которых 6 занимаюсь базами данных, ETL-процессами, DWH и всем, что связано с данными. В этом материале я расскажу о Vertica — аналитической и по-настоящему колоночной СУБД, которая эффективно сжимает, хранит, быстро отдает данные и отлично подходит в качестве big data решения.

Читать дальше →

+16

alexzaitsev 13 июн 2012 в 15:35

Репликация из OLTP в OLAP базу данных

3 мин

6.2K

Блог компании «LifeStreet Media»MySQL*

Из песочницы

Мой друг Роберт Ходжес на днях опубликовал статью про репликацию из OLTP в OLAP базу данных (а именно, из MySQL в Vertica), которую его компания построила на своем продукте Tungsten. Самое интересное, это преобразование данных, которое происходит в процессе репликации. Подход достаточно общий, и может быть использован и для других систем.

Обычный подход к репликации — это синхронный или асинхронный перенос бинарного лога с одной базы данных (мастер) на другие (слейвы). В бинарном логе строго последовательно записываются все операции, которые модифицируют данные. Если его «проиграть» на другой системе с той же начальной точки, то должно получиться точно такое же состояние данных, как и на исходной. «Проигрывание» происходит по одной операции или по одной транзакции, то есть очень маленькими кусочками.

Этот подход плохо работает с OLAP-специфичными, и особенно, колонко-ориентированными базами данных, которые хранят данные физически не по строкам, а по колонкам. Такие базы данных оптимизированы на запись, чтение и сортировку больших массивов данных, что типично для аналитических задач, но не на маленькие операции на единичных записях, потому что любая операция затрагивает много колонок, которые физически хранятся в разных файлах (а иногда и разных дисках). Хуже всего обстоит дело с изменением данных. Конечно, все базы данных поддерживают стандарт SQL и оператор UPDATE, но на физическом уровне он, как правило, транслируется в то, что обновляемая запись помечается как удаленная, а вместо нее вставляется измененная копия. Потом, когда-нибудь, «сборщик мусора» перетрясет таблицу и удаленные записи удалятся навсегда. Помимо плохой эффективности, отсюда следует, что частые удаления и обновления приводят к «засорению» базы данных, что снижает ее производительность в том числе и на чтение.

Роберт предложил, как мне кажется, новый, хотя и естественный подход к решению проблемы репликации данных для таких случаев. Бинарный лог преобразуется в последовательность частично упорядоченных множеств операций типа DELETE/INSERT для каждой таблицы, причем, так слово «множество» подразумевает, что «одинаковые» в некотором смысле операции достаточно сделать один раз. Поясню чуть подробнее.

Читать дальше →

+10

alexzaitsev 21 июн 2012 в 02:48

Эволюция аналитической инфраструктуры

8 мин

11K

Блог компании «LifeStreet Media»MySQL*

Этой статьей я открываю серию материалов про инфраструктуру для аналитики вообще и экзотическую для России базу данных Vertica в частности. Статьи описывают опыт серии проектов в моей компании LifeStreet и не претендуют на полноту. Однако, где это представляется возможным, я буду пытаться давать общие обзоры. Прежде чем начать разговор собственно о Вертике, я хочу рассказать немного о том, как мы к ней пришли. Начнем с истории развития аналитической инфраструктуры в нашей компании.

Часть 1. Немного истории, теории и практики

Традиционно мы исповедуем итеративный процесс разработки всего нового. То есть сначала делается быстрый прототип, чтобы “пощупать” некоторую предметную или технологическую область. Затем, отталкиваясь от прототипа, разрабатывается архитектура и дизайн “как надо”, причем предпочтение отдается быстрым в реализации достаточно хорошим решениям, нежели академически правильным, но долгим и сложным. Затем, понятие о том, “как надо”, меняется, и архитектура модифицируется, “как на самом деле надо”. И так далее. Все изменения происходят на работающем и динамично развивающемся бизнесе, что требует осторожного эволюционного подхода. Так было и с аналитической платформой.

Первая версия “инфраструктуры” была сделана “на коленке” за два дня в далеком 2006 году, когда в компании было 4 человека разработчиков, и примерно столько же людей из бизнеса.

Читать дальше →

+11

О чем статья

Постановка задачи

Часть 3. Vertica. Simply Fast

Часть 1. Немного истории, теории и практики

zproxy.org