Big data world @bigdata_world Channel on Telegram

Big data world

@bigdata_world


Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime

Big data world (Russian)

Добро пожаловать в мир больших данных! Канал "Big data world" - это место, где вы найдете интересные статьи о Data Science, Big Data, Machine Learning и Deep Learning. Если вас интересует анализ данных, их обработка и применение в различных отраслях, то этот канал станет для вас настоящим кладезем знаний. Здесь вы сможете узнать о последних тенденциях в сфере аналитики, технологий и инноваций. По вопросам сотрудничества и интересующим вас темам, обращайтесь к администратору канала @Daily_admin_info. Присоединяйтесь к нашему сообществу умных и целеустремленных людей, готовых делиться знаниями и опытом в области обработки и анализа данных. Вместе мы можем создать будущее больших данных!

Big data world

18 Nov, 11:59


Изучите генеративный ИИ для разработчиков

https://www.freecodecamp.org/news/learn-generative-ai-for-developers

Big data world

08 Nov, 12:22


Введение в трансформаторы в машинном обучении (часть 1)

https://medium.com/h7w/an-introduction-to-transformers-in-machine-learning-50c8a53af576

Big data world

08 Nov, 12:21


Как Instacart использует машинное обучение, чтобы предлагать замены для отсутствующих на складе товаров

https://tech.instacart.com/how-instacart-uses-machine-learning-to-suggest-replacements-for-out-of-stock-products-8f80d03bb5af

Big data world

08 Nov, 06:55


Python больше не король науки о данных
5 причин, по которым Python теряет свою корону

https://blog.stackademic.com/is-python-still-the-king-of-data-science-476f1e3191b3

Big data world

08 Nov, 06:53


Вложения недооценены
Машинное обучение (ML) имеет потенциал для продвижения современного уровня технического письма. Нет, я не говорю о моделях генерации текста, таких как Claude, Gemini, LLaMa, GPT и т. д. Технология ML, которая может в конечном итоге оказать наибольшее влияние на техническое письмо, — это встраивание .

Вложения не являются чем-то новым, но они стали гораздо более широкодоступными за последние пару лет. То, что вложения предлагают техническим писателям, — это возможность обнаруживать связи между текстами в ранее невозможных масштабах .https://technicalwriting.dev/data/embeddings.html

Big data world

31 Oct, 06:32


Нейронные сети (инференс MNIST) на «3-центовом» микроконтроллере


Вдохновившись на удивление высокой производительностью нейронных сетей и обучением с учётом квантования на микроконтроллере CH32V003, я захотел выяснить, как далеко эту идею можно развить. Насколько можно сжать нейронную сеть с сохранением высокой точности тестов на датасете MNIST? Когда речь идёт о крайне дешёвых микроконтроллерах, сложно предположить что-то более подходящее, чем 8-битные Padauk.

Эти устройства оптимизированы под простейшие и самые дешёвые приложения из доступных. Самая мелкая модель серии, PMS150C, оснащена однократно программируемой памятью в 1024 13-битных слова и 64 байтами RAM — на порядок меньше, чем в CH32V003. Кроме того, эта модель в противоположность намного более мощному набору инструкций RISC-V содержит коммерческий регистр-аккумулятор на основе 8-битной архитектуры.

Возможно ли реализовать механизм инференса MNIST, способный классифицировать рукописные числа, также и на PMS150C?
https://habr.com/ru/companies/ruvds/articles/853050/

Big data world

23 Oct, 15:04


pg_parquet: расширение для соединения Postgres и Parquet
Сегодня мы рады представить pg_parquet — расширение Postgres с открытым исходным кодом для работы с файлами Parquet. Расширение считывает и записывает файлы parquet на локальный диск или в S3 напрямую из Postgres. С pg_parquet вы можете:

Экспорт таблиц или запросов из Postgres в файлы Parquet

Загрузка данных из файлов Parquet в Postgres

Проверьте схему и метаданные существующих файлов Parquet.

https://www.crunchydata.com/blog/pg_parquet-an-extension-to-connect-postgres-and-parquet

Big data world

23 Oct, 15:02


Понимание LLM с нуля, используя математику средней школы

https://rohit-patel.medium.com/understanding-llms-from-scratch-using-middle-school-math-e602d27ec876

Big data world

19 Oct, 08:32


17 проектов для команд по созданию функций ИИ в 100 раз быстрее

https://dev.to/latitude/17-projects-for-teams-to-build-ai-features-100x-faster-nbn

Big data world

19 Oct, 08:31


12 фундаментальных математических теорий, необходимых для понимания ИИ

https://medium.com/teach-me-in-plain-language/12-fundamental-math-theories-needed-to-understand-ai-5383b49a04c8

Big data world

15 Oct, 12:47


Машинное обучение с нуля готово к работе!

Книга о нейронных сетях с открытым исходным кодом, которую вы все ждали https://thepalindrome.org/p/machine-learning-from-zero-is-ready

Big data world

11 Oct, 08:25


5 проектов ИИ, которые вы можете реализовать на этих выходных (с Python)
От начального до продвинутого уровня

https://towardsdatascience.com/5-ai-projects-you-can-build-this-weekend-with-python-c57724e9c461

Big data world

07 Oct, 13:14


PyGlove — это библиотека общего назначения для манипуляции объектами Python. Она вводит символическое объектно-ориентированное программирование в Python, позволяя напрямую манипулировать объектами, что значительно упрощает написание метапрограмм. Она использовалась для обработки сложных сценариев машинного обучения, таких как AutoML, а также для облегчения ежедневных задач программирования с дополнительной гибкостью.

https://github.com/google/pyglove

Big data world

07 Oct, 13:13


«Быстрая визуализация данных» — краткий курс из 8 частей по визуализации данных с использованием R.
В этом репозитории 8 занятий:

Самые основы R-кодирования

Введение в аккуратные фреймы данных

Введение в визуализацию данных с использованием ggplot

Введение в среднее разделение

Введение в пропорциональные данные

Введение в тепловые карты

Введение в данные и сети взаимоотношений

Введение в композицию/монтаж сюжета… https://github.com/cxli233/Online_R_learning/tree/master/Quick_data_vis

Big data world

07 Oct, 13:12


Распознавание лиц — понимание алгоритма Виолы Джонс
За время исследования этой темы я пришел к выводу, что многие люди на самом деле не понимают его или понимают лишь частично. Кроме того, многие руководства плохо объясняют «непрофессионально», что именно он делает, или опускают определенные шаги, которые в противном случае прояснили бы некоторую путаницу. Поэтому я собираюсь объяснить от начала до конца максимально простым способом.

https://medium.com/@aaronward6210/facial-detection-understanding-viola-jones-algorithm-116d1a9db218

Big data world

05 Oct, 08:50


Самое крутое визуальное представление преобразования Фурье.

Big data world

04 Oct, 14:40


7 проектов LLM, которые пополнят ваш портфель знаний по машинному обучению

https://machinelearningmastery.com/7-llm-projects-to-boost-your-machine-learning-portfolio

Big data world

02 Oct, 13:00


Все алгоритмы машинного обучения объяснены за 17 минут

https://www.youtube.com/watch?v=E0Hmnixke2g

Big data world

01 Oct, 15:02


Трансформатор Колмогорова-Арнольда: реализация PyTorch с ядром CUDA

https://github.com/Adamdad/kat

Big data world

01 Oct, 13:21


Выбор между фреймворками LLM Agent

https://towardsdatascience.com/choosing-between-llm-agent-frameworks-69019493b259

Big data world

30 Sep, 14:08


TensorHue — это библиотека Python, которая позволяет визуализировать тензоры прямо в консоли, что упрощает понимание и отладку содержимого тензоров.

https://github.com/epistoteles/TensorHue

Big data world

30 Sep, 12:23


Llama теперь может видеть и работать на вашем устройстве — встречайте Llama 3.2

https://huggingface.co/blog/llama32

StoryMaker: на пути к целостным последовательным персонажам при создании изображений из текста

https://github.com/redaigc/storymaker

Проектирование систем машинного обучения и обучения по программе LLM: 450 примеров, из которых можно извлечь уроки

База данных из 450 примеров из более чем 100 компаний… https://www.evidentlyai.com/ml-system-design

Langfun - OO для LLM
Langfun - это библиотека на основе PyGlove, которая призвана сделать работу с языковыми моделями (LM) увлекательной. Ее центральный принцип - обеспечить бесшовную интеграцию между естественным языком и программированием, рассматривая язык как функции. Благодаря внедрению объектно-ориентированных подсказок Langfun позволяет пользователям подсказывать LLM, используя объекты и типы, предлагая улучшенный контроль и упрощая разработку агентов... Langfun совместим с популярными LLM, такими как Gemini, GPT, Claude, и все это без необходимости дополнительной тонкой настройки... https://github.com/google/langfun

Big data world

17 Sep, 07:02


Визуализируйте свою модель машинного обучения
Mycelium — это библиотека для создания графических визуализаций моделей машинного обучения или любых других направленных ациклических графов. Она также поддерживает просмотрщик графов системы визуализации и оптимизации моделей Talaria… https://apple.github.io/ml-mycelium

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/

Big data world

12 Sep, 08:12


Как создать приложение для рекомендации фильмов без сложностей векторных баз данных

Используйте Streamlit-Weaviate Connection для интеграции векторной базы данных https://blog.streamlit.io/how-to-recommendation-app-vector-database-weaviate

Big data world

12 Sep, 06:17


Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества. https://habr.com/ru/companies/ods/articles/839694/

Big data world

09 Sep, 06:27


Mini-Omni
Mini-Omni — это многомодельная большая языковая модель с открытым исходным кодом, которая может слышать, говорить и думать. Включает в себя сквозной речевой ввод в реальном времени и возможности потокового аудиовывода для разговора. https://github.com/gpt-omni/mini-omni

Big data world

07 Sep, 13:39


supertree - Interactive Decision Tree Visualization

supertree - это пакет Python, разработанный для визуализации деревьев решений в интерактивном и удобном для пользователя виде в Jupyter Notebooks, Jupyter Lab, Google Colab и любых других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента вы можете не только отображать деревья решений, но и взаимодействовать с ними напрямую в среде блокнота. https://github.com/mljar/supertree

Big data world

07 Sep, 10:38


Простой рецепт анализа ошибок модели

Анализ ошибок — мощный инструмент в машинном обучении, о котором мы мало говорим. Каждая модель прогнозирования допускает ошибки. Идея анализа ошибок заключается в анализе точечных ошибок и выявлении закономерностей ошибок. Если вы найдете закономерности ошибок, это может помочь улучшить и отладить модель и лучше понять неопределенность… https://mindfulmodeler.substack.com/p/a-simple-recipe-for-model-error-analysis

2,422

subscribers

410

photos

64

videos