آخرین پست‌های 🔋 Труба данных (@ohmydataengineer) در تلگرام

پست‌های تلگرام 🔋 Труба данных

🔋 Труба данных
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
3,805 مشترک
306 عکس
5 ویدیو
آخرین به‌روزرسانی 11.03.2025 07:46

آخرین محتوای به اشتراک گذاشته شده توسط 🔋 Труба данных در تلگرام

🔋 Труба данных

30 Jan, 13:52

2,322

https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql

Вы будете кидать 💩, но я опять про Clickhouse
Огромная статья с технической мяготкой про 1 Billion JSON Challenge и насколько новый нативный тип JSON в клике работает быстрей и эффективней по памяти и стораджу по сравнению с другими базами данных.


@ohmydataengineer - канал "🕯Труба Данных" в очередной раз про одно и то же!
🔋 Труба данных

29 Jan, 08:32

1,959

https://medium.com/strava-engineering/rain-a-key-value-store-for-stravas-scale-7f580f5b4848

У меня love / hate relationships с бегом: когда-то я его любил, бегал марафоны, потом ненавидел, потом снова любил, потом снова ненавидел, ну вы поняли =)
И каждый раз я продолжал загружать свои пробежки в Strava.

Наткнулся тут на их инженерный блог и прикольную статью о том, что они там изобрели в качестве хранилищ для определенного типа данных и вообще как там у них устроено.

@ohmydataengineer - канал "🕯Труба Данных" про технологии в продуктах, которыми пользуемся ежедневно!
🔋 Труба данных

28 Jan, 08:59

2,090

https://www.warpstream.com

Warpstream
Кстати, забыл рассказать, что я наткнулся на прикольный продукт от Confluent: Kafka, только вместо памяти на машинах - датка лежит в бакетах.
Да, скорость будет поменьше, но и ценник сильно меньше 😏

@ohmydataengineer - канал "🕯Труба Данных" радуется прикольным незнакомым инструментам!
🔋 Труба данных

27 Jan, 09:25

2,501

https://www.astronomer.io/ebooks/apache-airflow-best-practices-etl-elt-pipelines/

Астрономер (главный контрибьютор Airflow) раздает книжку по best practices в Airflow. Ничего сверхестественного, но кажется вполне себе годным чтивом, обновить знания.

@ohmydataengineer - канал "🕯Труба Данных" любит Airflow, как бы его не хейтили
🔋 Труба данных

24 Jan, 09:02

2,549

Рекрутеры используют AI, чтобы отсеивать нерелевантные отклики.

А можно просто фильтровать по словам и сразу всех "автоматизаторов откликов" выявить 😂

@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
🔋 Труба данных

23 Jan, 09:18

2,390

https://www.answer.ai/posts/2025-01-08-devin.html

Помните, какое-то время назад, в интернете появился Devin, AI программист, который должен был нас всех заменить? Тогда в демо этого AI Agent компания показывала, что он от и до смог решить какую-то задачу с Upwork без какого-либо вмешательства.

Так вот пока это все пустые обещания, все очень так себе.

@ohmydataengineer - канал "🕯Труба Данных" говорит что нас заменят, но не скоро
🔋 Труба данных

22 Jan, 07:59

2,419

https://github.com/databrickslabs/dqx

Databricks выложили в опенсорс DQX - фреймворк для DQ поверх pyspark датафреймов.
Больше фреймворков богу фреймворков.

Даже мотивация для этого фреймворка какая-то хлюпкая
Current data quality frameworks often fall short in providing detailed explanations for specific row or column data quality issues and are primarily designed for complete datasets, making integration into streaming workloads difficult.


@ohmydataengineer - канал "🕯Труба Данных" не верит в очередной фреймворк
🔋 Труба данных

21 Jan, 07:56

2,024

2.10 Reparse button

Когда не надо лишних слов.
🔋 Труба данных

20 Jan, 09:52

3,860

https://howqueryengineswork.com

Оч приятное и комфортное чтиво про то, как работают query engine (ну то есть вот та фигня, которая планирует и исполняет ваш запрос к базенке).
Описано все в общих словах, но достаточно детально.


@ohmydataengineer - канал "🕯Труба Данных" предлагает вам написать свой движок запросов!
🔋 Труба данных

17 Jan, 12:21

2,405

Пятничный юмор или модные словечки!

@ohmydataengineer