Наша команда(200+) занимается поддержкой для одного из самых продвинутых DWH в России.
У нас довольно большая и сложная распределенная инфраструктура (Greenplum, Clickhouse, Hadoop, Tableau, Zeppelin, Jupyter, Airflow, Kafka, s3, etc), которая ежедневно обрабатывает десятки терабайт данных и один миллион запросов в сутки.
Мы в продуктовой команде мы начали развивать Self Service ETL(Self-Service Data Preparation) - ключевой компонент платформы данных DWH для 1000+ аналитиков, Data и ML инженеров, продактов со знанием SQL, Python, Spark, ML.
Self Service ETL платформа должна удобно для пользователей связывать любой источник в экосистеме Тинькофф и DWH платформы в один pipeline(поток), деплоить его и следить за его выполнением.
Платформа предназначена для разного уровня пользователей.