Big data world @bigdata_world Channel on Telegram

Big data world

@bigdata_world


Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime

Big data world (Russian)

Добро пожаловать в мир больших данных! Канал "Big data world" - это место, где вы найдете интересные статьи о Data Science, Big Data, Machine Learning и Deep Learning. Если вас интересует анализ данных, их обработка и применение в различных отраслях, то этот канал станет для вас настоящим кладезем знаний. Здесь вы сможете узнать о последних тенденциях в сфере аналитики, технологий и инноваций. По вопросам сотрудничества и интересующим вас темам, обращайтесь к администратору канала @Daily_admin_info. Присоединяйтесь к нашему сообществу умных и целеустремленных людей, готовых делиться знаниями и опытом в области обработки и анализа данных. Вместе мы можем создать будущее больших данных!

Big data world

31 Jan, 05:21


Как использовать DeepSeek R1 бесплатно в Visual Studio Code с Cline или Roo Code

https://dev.to/dwtoledo/how-to-use-deepseek-r1-for-free-in-visual-studio-code-with-cline-or-roo-code-3an9

Big data world

28 Jan, 13:09


Beyond Jupyter — это сборник материалов для самостоятельного изучения проектирования программного обеспечения, в котором особое внимание уделяется приложениям машинного обучения. Он демонстрирует, как грамотное проектирование программного обеспечения может ускорить как разработку, так и эксперименты. https://transferlab.ai/trainings/beyond-jupyter

Big data world

28 Jan, 11:08


Основы компьютерного зрения

https://yashshahh.notion.site/CV-Basics-1-163464be31028096bad4ffa3aca9851e

Big data world

28 Jan, 11:04


Используем HTTP API Gemini 2.0 бесплатно

https://habr.com/ru/articles/876566/

Big data world

22 Jan, 08:45


Создание ИИ-агента для вашего фронтенд-проекта

https://blog.logrocket.com/building-ai-agent-frontend-project

Big data world

22 Jan, 07:43


Дорожная карта по освоению машинного обучения в 2025 году

https://machinelearningmastery.com/roadmap-mastering-machine-learning-2025

Big data world

19 Jan, 08:57


Краткое введение в использование векторной базы данных
В которой мы узнаем, как создать простую векторную базу данных с использованием вложений Pinecone и OpenAI, и обнаружим, что это гораздо проще, чем мы могли ожидать.

https://stevekinney.net/writing/using-a-vector-database

Big data world

19 Jan, 06:56


Лучшие проекты визуализации данных 2024 года

https://flowingdata.com/2024/12/30/best-data-visualization-projects-of-2024/

Big data world

18 Jan, 15:52


Мы создали мини-приложение ChatGPT, которое работает локально на вашем компьютере.

В основе лежит модель Llama3.2-vision с открытым исходным кодом.

https://blog.dailydoseofds.com/p/building-a-100-local-mini-chatgpt

Big data world

18 Jan, 12:51


7 методов оперативной инженерии следующего поколения

С продуктами большой языковой модели (LLM), такими как ChatGPT и Gemini, захватывающими мир, нам нужно скорректировать наши навыки, чтобы следовать тренду. Один из навыков, который нам нужен в современную эпоху, — это быстрая инженерия.

Prompt engineering — это стратегия разработки эффективных подсказок, которые оптимизируют производительность и выход LLM. Структурируя входные данные, prompt engineering стремится обеспечить релевантные и высококачественные результаты. https://machinelearningmastery.com/7-next-generation-prompt-engineering-techniques

Big data world

18 Jan, 11:49


13 бесплатных курсов по ИИ-агентам в 2025 году

https://www.marktechpost.com/2025/01/01/13-free-ai-courses-on-ai-agents-in-2025

Big data world

18 Jan, 09:56


Необходимые условия управления данными
Существует множество методов управления данными, которые могут помочь вам лучше организовать ваш проект, однако способность команды «сделать все» на самом деле ограничена такими факторами, как финансирование, сроки, размер команды и опыт. Поэтому для команд важно рассмотреть, какие методы осуществимы, а также какие из них дадут им наибольшую отдачу от инвестиций... Я думаю, что есть список основных методов, которые следует внедрить на ранней стадии, до начала сбора данных, чтобы ваш проект был успешным. В этой записи блога будут рассмотрены эти методы..

https://cghlewis.com/blog/project_beginning

Big data world

06 Dec, 12:01


Масштабирующие трансформаторы для высококачественного кодирования речи с низким битрейтом https://github.com/Stability-AI/stable-codec

Big data world

06 Dec, 11:59


Auto-RAG: Автономная генерация с расширенным поиском для больших языковых моделей https://github.com/ictnlp/auto-rag

Big data world

06 Dec, 11:59


Шпаргалка по структурам данных

В этой статье мы дадим введение в структуры данных, предложив примеры каждой структуры и проиллюстрировав, как они могут быть представлены в Memgraph. https://memgraph.com/blog/data-structures-cheat-sheet

Big data world

24 Nov, 09:15


Мой путь в машинном обучении: идеальная дорожная карта для новичков

https://medium.com/@ashujha44/my-machine-learning-journey-perfect-roadmap-for-beginners-78208c47fb92

Big data world

18 Nov, 11:59


Изучите генеративный ИИ для разработчиков

https://www.freecodecamp.org/news/learn-generative-ai-for-developers

Big data world

08 Nov, 12:22


Введение в трансформаторы в машинном обучении (часть 1)

https://medium.com/h7w/an-introduction-to-transformers-in-machine-learning-50c8a53af576

Big data world

08 Nov, 12:21


Как Instacart использует машинное обучение, чтобы предлагать замены для отсутствующих на складе товаров

https://tech.instacart.com/how-instacart-uses-machine-learning-to-suggest-replacements-for-out-of-stock-products-8f80d03bb5af

Big data world

08 Nov, 06:55


Python больше не король науки о данных
5 причин, по которым Python теряет свою корону

https://blog.stackademic.com/is-python-still-the-king-of-data-science-476f1e3191b3

Big data world

08 Nov, 06:53


Вложения недооценены
Машинное обучение (ML) имеет потенциал для продвижения современного уровня технического письма. Нет, я не говорю о моделях генерации текста, таких как Claude, Gemini, LLaMa, GPT и т. д. Технология ML, которая может в конечном итоге оказать наибольшее влияние на техническое письмо, — это встраивание .

Вложения не являются чем-то новым, но они стали гораздо более широкодоступными за последние пару лет. То, что вложения предлагают техническим писателям, — это возможность обнаруживать связи между текстами в ранее невозможных масштабах .https://technicalwriting.dev/data/embeddings.html

Big data world

31 Oct, 06:32


Нейронные сети (инференс MNIST) на «3-центовом» микроконтроллере


Вдохновившись на удивление высокой производительностью нейронных сетей и обучением с учётом квантования на микроконтроллере CH32V003, я захотел выяснить, как далеко эту идею можно развить. Насколько можно сжать нейронную сеть с сохранением высокой точности тестов на датасете MNIST? Когда речь идёт о крайне дешёвых микроконтроллерах, сложно предположить что-то более подходящее, чем 8-битные Padauk.

Эти устройства оптимизированы под простейшие и самые дешёвые приложения из доступных. Самая мелкая модель серии, PMS150C, оснащена однократно программируемой памятью в 1024 13-битных слова и 64 байтами RAM — на порядок меньше, чем в CH32V003. Кроме того, эта модель в противоположность намного более мощному набору инструкций RISC-V содержит коммерческий регистр-аккумулятор на основе 8-битной архитектуры.

Возможно ли реализовать механизм инференса MNIST, способный классифицировать рукописные числа, также и на PMS150C?
https://habr.com/ru/companies/ruvds/articles/853050/

Big data world

23 Oct, 15:04


pg_parquet: расширение для соединения Postgres и Parquet
Сегодня мы рады представить pg_parquet — расширение Postgres с открытым исходным кодом для работы с файлами Parquet. Расширение считывает и записывает файлы parquet на локальный диск или в S3 напрямую из Postgres. С pg_parquet вы можете:

Экспорт таблиц или запросов из Postgres в файлы Parquet

Загрузка данных из файлов Parquet в Postgres

Проверьте схему и метаданные существующих файлов Parquet.

https://www.crunchydata.com/blog/pg_parquet-an-extension-to-connect-postgres-and-parquet

Big data world

23 Oct, 15:02


Понимание LLM с нуля, используя математику средней школы

https://rohit-patel.medium.com/understanding-llms-from-scratch-using-middle-school-math-e602d27ec876

Big data world

19 Oct, 08:32


17 проектов для команд по созданию функций ИИ в 100 раз быстрее

https://dev.to/latitude/17-projects-for-teams-to-build-ai-features-100x-faster-nbn

Big data world

19 Oct, 08:31


12 фундаментальных математических теорий, необходимых для понимания ИИ

https://medium.com/teach-me-in-plain-language/12-fundamental-math-theories-needed-to-understand-ai-5383b49a04c8

Big data world

15 Oct, 12:47


Машинное обучение с нуля готово к работе!

Книга о нейронных сетях с открытым исходным кодом, которую вы все ждали https://thepalindrome.org/p/machine-learning-from-zero-is-ready

Big data world

11 Oct, 08:25


5 проектов ИИ, которые вы можете реализовать на этих выходных (с Python)
От начального до продвинутого уровня

https://towardsdatascience.com/5-ai-projects-you-can-build-this-weekend-with-python-c57724e9c461

Big data world

07 Oct, 13:14


PyGlove — это библиотека общего назначения для манипуляции объектами Python. Она вводит символическое объектно-ориентированное программирование в Python, позволяя напрямую манипулировать объектами, что значительно упрощает написание метапрограмм. Она использовалась для обработки сложных сценариев машинного обучения, таких как AutoML, а также для облегчения ежедневных задач программирования с дополнительной гибкостью.

https://github.com/google/pyglove

Big data world

07 Oct, 13:13


«Быстрая визуализация данных» — краткий курс из 8 частей по визуализации данных с использованием R.
В этом репозитории 8 занятий:

Самые основы R-кодирования

Введение в аккуратные фреймы данных

Введение в визуализацию данных с использованием ggplot

Введение в среднее разделение

Введение в пропорциональные данные

Введение в тепловые карты

Введение в данные и сети взаимоотношений

Введение в композицию/монтаж сюжета… https://github.com/cxli233/Online_R_learning/tree/master/Quick_data_vis

Big data world

07 Oct, 13:12


Распознавание лиц — понимание алгоритма Виолы Джонс
За время исследования этой темы я пришел к выводу, что многие люди на самом деле не понимают его или понимают лишь частично. Кроме того, многие руководства плохо объясняют «непрофессионально», что именно он делает, или опускают определенные шаги, которые в противном случае прояснили бы некоторую путаницу. Поэтому я собираюсь объяснить от начала до конца максимально простым способом.

https://medium.com/@aaronward6210/facial-detection-understanding-viola-jones-algorithm-116d1a9db218

Big data world

05 Oct, 08:50


Самое крутое визуальное представление преобразования Фурье.

Big data world

04 Oct, 14:40


7 проектов LLM, которые пополнят ваш портфель знаний по машинному обучению

https://machinelearningmastery.com/7-llm-projects-to-boost-your-machine-learning-portfolio

Big data world

02 Oct, 13:00


Все алгоритмы машинного обучения объяснены за 17 минут

https://www.youtube.com/watch?v=E0Hmnixke2g

Big data world

01 Oct, 15:02


Трансформатор Колмогорова-Арнольда: реализация PyTorch с ядром CUDA

https://github.com/Adamdad/kat

Big data world

01 Oct, 13:21


Выбор между фреймворками LLM Agent

https://towardsdatascience.com/choosing-between-llm-agent-frameworks-69019493b259

Big data world

30 Sep, 14:08


TensorHue — это библиотека Python, которая позволяет визуализировать тензоры прямо в консоли, что упрощает понимание и отладку содержимого тензоров.

https://github.com/epistoteles/TensorHue

Big data world

30 Sep, 12:23


Llama теперь может видеть и работать на вашем устройстве — встречайте Llama 3.2

https://huggingface.co/blog/llama32

StoryMaker: на пути к целостным последовательным персонажам при создании изображений из текста

https://github.com/redaigc/storymaker

Проектирование систем машинного обучения и обучения по программе LLM: 450 примеров, из которых можно извлечь уроки

База данных из 450 примеров из более чем 100 компаний… https://www.evidentlyai.com/ml-system-design

Langfun - OO для LLM
Langfun - это библиотека на основе PyGlove, которая призвана сделать работу с языковыми моделями (LM) увлекательной. Ее центральный принцип - обеспечить бесшовную интеграцию между естественным языком и программированием, рассматривая язык как функции. Благодаря внедрению объектно-ориентированных подсказок Langfun позволяет пользователям подсказывать LLM, используя объекты и типы, предлагая улучшенный контроль и упрощая разработку агентов... Langfun совместим с популярными LLM, такими как Gemini, GPT, Claude, и все это без необходимости дополнительной тонкой настройки... https://github.com/google/langfun

Big data world

17 Sep, 07:02


Визуализируйте свою модель машинного обучения
Mycelium — это библиотека для создания графических визуализаций моделей машинного обучения или любых других направленных ациклических графов. Она также поддерживает просмотрщик графов системы визуализации и оптимизации моделей Talaria… https://apple.github.io/ml-mycelium

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/

Big data world

12 Sep, 08:12


Как создать приложение для рекомендации фильмов без сложностей векторных баз данных

Используйте Streamlit-Weaviate Connection для интеграции векторной базы данных https://blog.streamlit.io/how-to-recommendation-app-vector-database-weaviate

Big data world

12 Sep, 06:17


Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/

Big data world

09 Sep, 06:27


Mini-Omni
Mini-Omni — это многомодельная большая языковая модель с открытым исходным кодом, которая может слышать, говорить и думать. Включает в себя сквозной речевой ввод в реальном времени и возможности потокового аудиовывода для разговора. https://github.com/gpt-omni/mini-omni

Big data world

07 Sep, 13:39


supertree - Interactive Decision Tree Visualization

supertree - это пакет Python, разработанный для визуализации деревьев решений в интерактивном и удобном для пользователя виде в Jupyter Notebooks, Jupyter Lab, Google Colab и любых других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента вы можете не только отображать деревья решений, но и взаимодействовать с ними напрямую в среде блокнота. https://github.com/mljar/supertree

Big data world

07 Sep, 10:38


Простой рецепт анализа ошибок модели

Анализ ошибок — мощный инструмент в машинном обучении, о котором мы мало говорим. Каждая модель прогнозирования допускает ошибки. Идея анализа ошибок заключается в анализе точечных ошибок и выявлении закономерностей ошибок. Если вы найдете закономерности ошибок, это может помочь улучшить и отладить модель и лучше понять неопределенность… https://mindfulmodeler.substack.com/p/a-simple-recipe-for-model-error-analysis