Наука и данные @naukaidannye Channel on Telegram

Наука и данные

@naukaidannye


Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/

Наука и данные (Russian)

Добро пожаловать в Telegram-канал "Наука и данные"! Если вы увлечены наукой о данных, машинным обучением и визуализацией данных, то этот канал станет вашей лучшей записной книжкой. Здесь вы найдете дайджест по полезным и интересным инструментам в указанных областях. Наша цель - помочь вам быть в курсе последних тенденций и находок в мире науки о данных. Канал "Наука и данные" создан для всех, кто жаждет знаний и стремится к профессиональному росту. Присоединяйтесь к нам, чтобы не упустить важную информацию и делиться своими открытиями и вопросами с единомышленниками. А еще у нас есть сайт, который будет отличным дополнением к нашему каналу: https://naukaidannye.
etlify.app/ Здесь вы найдете еще больше полезной информации и ресурсов. Подпишитесь на канал "Наука и данные" и отправьте свой путь к новым знаниям и возможностям в мире науки о данных!

Наука и данные

17 Jan, 08:01


Make LaTeX great again!

Hadley Wickham запустил свою линейку футболок для всех... любителей LaTeX (см. Learn LaTeX in 30 minutes) из Техаса! У него давно была такая идея и лишь недавно он ее воплотил:

LaTex + Texas = \LaTeXas!

Жаль, не могу приложить ссылки на продажу футболки, увы, линк из поста Hadley у меня не работает.

Может и нам свой мерч запустить? Уже была не так давно идея с Tidyverse-гексами! :)

Всем хороших выходных! 👋

Наука и данные

16 Jan, 07:01


Ghostty 👻

В аккурат перед Новым Годом вышла официальная версия Ghostty - многофункционального кроссплатформенного (macOS + Linux) эмулятора терминала, который использует собственный интерфейс.

На Ghostty уже вышло множество обзоров, возможно, однажды я тоже попробую его (пока я на iTerm2 + fish shell), вариантов сейчас очень много. В общем, посвящается любителям Neovim, tmux, Lazygit и всем клавиатурно-настроенным программистам.

Наука и данные

16 Jan, 07:01


Advent of SQL with DuckDB and R

Уже давно закончился Advent of Code - популярный календарь с головоломками перед Рождеством (см. также первоклассное видео, в котором автор Eric Wastl рассказывает от том, как он реализовал идею календаря).

François Michonneau решил поделиться своими решениями другого челленджа - Advent of SQL, который он решил используя DuckDB и {dplyr}. Получился довольно обстоятельный пост.

Наука и данные

15 Jan, 08:00


Working with colours in R 🎨

Когда вы создаете визуализацию данных с помощью R (или любого другого программного обеспечения), используется набор цветов по умолчанию. Это не всегда самый эффективный или эстетически приятный набор цветов.

Nicola Rennie в новой статье блога описывает различные способы определения цветов, как сделать правильный выбор цветовых палитр и как создать собственные цветовые схемы в R. Работе с цветом посвящено множество публикаций, но эта - крайне полезная и содержательная.

Наука и данные

15 Jan, 07:00


ggplot2 extension cookbook 🫖

Gina Reynolds для всех пользователей ggplot2 и R, уже неплохо владеющим языком R, сделала страницу ggplot2 extension cookbook (которая будет дополняться), основная цель которой - предоставить множество примеров расширений для знакомства и развития, которые также могут служить конкретной справкой.

Все сделано пошагово, в последовательной и доступной форме; некоторые приемчики и библиотеки действительно очень интересные! 👌

Небольшое дополнение: tidyplots сделали сайт Use cases с примерами, выглядит довольно стильно, но было бы неплохо, если бы и код к картинкам приложили.

Наука и данные

14 Jan, 07:00


Вот так выглядит кнопка "collapse" для содержания на сайте RSources.

Наука и данные

14 Jan, 07:00


Collapse button в Quarto

Emil Hvitfeldt эксклюзивно поделился со мной рецептом, как сделать кнопочку, позволяющую развертывать или сворачивать содержание в книгах на основе Quarto, такую же, как в его книге Feature Engineering A-Z.

Шаг 1. Нужно в корень проекта поместить файл misc.html

Шаг 2. Добавьте в _quarto.yml строки:

format:
html:
include-after-body: [misc.html]


Вся магия происходит в JavaScript. Я модифицировал кнопочку так, как мне нужно, попробуйте и вы! 👇

Наука и данные

14 Jan, 06:06


Positron: My Key Bindings

Emil Hvitfeldt написал небольшую заметку по клавиатурным сочетаниям в IDE Positron, что может весьма полезным, например, как быстро сгененрировать репрекс, сфокусироваться на определенном окне и т. д.

Напомню также комментарий Анатолия Цыпленкова: в настройках Positron есть возможность включить кеймапы RStudio как описано в разделе Keyboard Shortcuts, они помогут сделать переход из RStudio бесшовным.

Наука и данные

13 Jan, 14:16


Пример ShinyLive

Уважаемые коллеги, на повестке дня стоял вопрос публикации Shiny-приложений. Один из неплохих вариантов - Posit Cloud, но в Posit (как и ожидалось) стали брать денежки за облако. Однако, нужен ли нам сервер? Нет, для небольших приложений не нужен!

Один из способов - использовать ShinyLive для создания интерактивных веб-приложений. Обратная сторона такой публикации - необходимо подождать пока веб-страница загрузится.

Я сделал небольшое простое руководство по использованию ShinyLive, но имейте ввиду, если углубиться в тему - есть ньюансы, не без них. Вот еще пример: shinylive-in-book-test (автор Max Kuhn).

Наука и данные

13 Jan, 07:00


Genuary 2025

На дворе январь 2025 года, а это значит - новый прекрасный ежегодный челлендж по генеративному арту GENUARY. Используйте prompts, применяйте в качестве рабочего инструмента любой язык программирования и делитесь результатом в социальных сетях (z.B. в Fosstodon или в Bluesky). Самое главное - чтобы это было в удовольствие!

Можно посмотреть работы авторов, которые выполенены в R:

📍 Georgios Karamanis

📍 Nicola Rennie

📍 Юрий Тукачев

Если вашему вдохновению хочется еще больше генеративного арта, то можно заглянуть на The Weekly Creative Code Challenge, который ведет Raphaël de Courville на сайте OpenProcessing.

Наука и данные

10 Jan, 08:01


Хороших выходных! 👋

Наука и данные

10 Jan, 07:40


Taming LLMs

Коллегам, которые работают с большими языковыми моделями (см. большой свежий обзор), возможно, пригодится книжка Taming LLMs, которая выглядит многообещающе и рассматривает ключевые ограничения и подводные камни реализации, с которыми сталкиваются разработчики при создании приложений на основе LLM. В книге приведены практические примеры на Python, что добавляет ценности. К книге прилагается авторский блог.

Дедлайн написания всех глав - примерно 2 февраля 2025.

Кстати, R библиотека ellmer вышла на CRAN.

Наука и данные

10 Jan, 07:22


Data Visualization in R 👌

Claus O. Wilke - автор прекрасной книги Fundamentals of Data Visualization, переведенной на русский язык как Основы визуализации данных. Пособие по эффективной и убедительной подаче информации переделал страницу своего курса Data Visualization in R на Quarto: теперь презентации в разделе Slides выполнены на Quarto-версии Reveal.js, а ноутбуки с упражнениями в разделе Worksheets используют WebR, что позволяет запускать код в браузере. Материалы курса дополняются!

Наука и данные

10 Jan, 07:00


Program Evaluation for Public Service 👨‍🎓

Andrew Heiss (Andrew Young School of Policy Studies, Georgia State University), известный нам, например, по материалам курса Data Visualization (актуализированная версия), изучающего принципы графического дизайна на основе R и ggplot2, поделился материалами курса Program Evaluation for Public Service. В этом курсе дается введение в область причинно-следственных связей (causal inference) с использованием R и tidyverse в применении к оценке эффективности социальных программ.

Для того, чтобы войти в курс дела, можно посмотреть подборку С чего начать свой путь в causal inference? и Оценка причинно-следственных связей от наших уважаемых коллег из МГУ им. М.В. Ломоносова, а также Causal Inference in R у нас на канале.

Наука и данные

27 Dec, 10:00


Rесурсы 🌟

Коллеги, исходя из своих интересов, я сделал небольшой список ресурсов и ссылок, которые сам использую, либо могу рекомендовать по Data Science. Это далеко не все, что существует по R, тем не менее, данная коллекция ресурсов может пригодиться как начинающим, так и активным пользователям.

Отмечу, что тут не все касается только R, например, ссылки на материалы по геопространственному анализу включают Python и Julia.

📍 Rесурсы (русская версия) | RSources (English version)

Напомню, что некоторые примеры работы с R можно посмотреть в блоге Наука и Данные. 💫

Надеюсь, что это может стать поводом для вдохновения и написания собственных замечательных проектов!

Наука и данные

27 Dec, 10:00


...остался только обещанный сюрприз 👇

Наука и данные

27 Dec, 10:00


Уважаемые коллеги,

Для каждого из вас уходящий год был своим, со своими трудностями, хорошими впечатлениями и открытиями. Мы успели рассмотреть на канале огромное количество источников, многое еще впереди. Но самое главное, это то, что нас объединяет и заставляет забыть о разногласиях - стремление к знаниям!

Я хочу пожелать, чтобы в ваших семьях был мир, покой и достаток, чтобы вы могли посвятить себя любимому делу. Здоровья вам и вашим близким!

С наступающим Новым Годом!

А мы встретимся в 2025-м! 🎄🎉🥂

Наука и данные

27 Dec, 06:30


С последней пятницей уходящего года, уважаемая профессура! 👋

Наука и данные

27 Dec, 06:10


Картографические пятнашки 1️⃣5️⃣

Вы точно занаете "игру в 15": головоломка из пятнадцати квадратных плиток с числами, которые нужно расположить в правильном порядке. Её придумал Ной Чепмэн в 1878 году

А совсем недавно архитектор и дизайнер Ахмад Барклай создал потрясающую версию этой игры, где можно выбрать любимый город и собрать его карту по аналогии с "пятнашками"

Красота 😍

Поделился находкой Евгений друг нашего канала и автор "Науки и данных"

🌎🕊️ GIS_AND_PEACE

Наука и данные

26 Dec, 07:01


Дорогие читатели,

Я надеюсь, что многим из вас пригодились ссылки и обзоры, публикуемые в рамках канала Наука и данные. Отличительная особенность ежедневных публикаций и дайджестов НиД - кругозор рассматриваемых вопросов. Кроме того, TG-канал - это отличный повод показать возможности и красоту языка программирования R и издательской системы Quarto, особенно для молодежи, которой достаточно много в подписчиках.

Сейчас конец календарного года, пора отчетов, сессий, защит, время подготовки к Новому Году, тем не менее, если у вас будет минутка рассказать о том, чем помогли записи на канале для написания научной публикации, защиты диссертации, в проекте, или у вас есть идеи, которые можно попробовать воплотить, напишите, почему бы и нет? Мне будет интересна обратная связь.

Также можно написать, выход какой книги вы особенно ждете? У меня есть одна такая.

Уверен, впереди нас ждет множество обзоров, мероприятий и сюрпризов, и один из них будет уже завтра!

Е.Н.

Наука и данные

25 Dec, 08:00


Best Practices for Data Visualisation

Andreas Krause, Brian Tarran и Nicola Rennie написали небольшое пособие по методам визуализации данных, в первую очередь для авторов публикаций Королевского статистического общества (UK). Тем не менее, информация и советы в нем имеют широкую актуальность и полезны для любой задачи визуализации данных.

Их советы касаются принципов и элементов визуализаций, выбора типов визуализаций, стилизации для публикаций и многого другого.

Наука и данные

25 Dec, 07:30


nbsanity

Предположим, что вы используете Jupyter Notebooks как основное техническое средство, объединяющее в одном документе код, визуализации и повествовательный текст. Несмотря на это, при использовании ноутбуков на GitHub, программе просмотра записных книжек на GitHub не хватает функций, необходимых для надлежащего технического взаимодействия.

Hamel Husain представил сервис nbsanity, который превращает любой общедоступный ноутбук на GitHub в веб-страницу, просто изменив URL. nbsanity работает на базе Quarto, который является наиболее эргономичным генератором статических сайтов, доступных для ноутбуков.

Отмечу, что Hamel ведет довольно интересный блог и YouTube-канал.

Наука и данные

25 Dec, 07:01


GitHub Wrapped

Каким был ваш год на GitHub?

Сайт GitHub Wrapped предлагает сделать визуальную расшифровку вашей GitHub-активности, попробуйте!

Наука и данные

24 Dec, 07:00


Data Science notes 🔥

Eric Book опубликовал замечательные заметки по Data Science в виде мини-книги. Сюда включено просто огромное количество тем, элементов кода, объяснений, шпаргалок. Причем есть просто 👌 изюминки!

Обратите внимание!

Наука и данные

23 Dec, 07:00


litedown - переосмысленный R Markdown

R Markdown имеет долгую историю, однако с некоторого времени Quarto получил большой толчок, Quarto развивается, для него пишутся расширения... а что же R Markdown?

Yihui Xie, основной автор Knitr и R Markdown, в настоящий момент разрабатывает экспериментальную библиотеку {litedown}. litedown разработан как облегченный аналог R Markdown для минималистов, без Word, без PDF, только HTML + немного LaTeX. Суть в том, что ядро простое и небольшое, и можно включать или отключать большинство функций.

Markdown изначально был придуман для простоты, однако действительно ли litedown прост? С точки зрения разработчика, да, это так, во многом из-за ограниченного объема. С точки зрения пользователя, некоторые функции определенно не так просты.

Посмотрите документацию, попробуйте, я пока голосую за Quarto.

Наука и данные

20 Dec, 08:01


Ну что товарищи, а вы уже готовитесь встрече Нового Года? 🎄

Всем хороших выходных! 👋

Наука и данные

20 Dec, 07:00


Educational Data Analytics Using R 👨‍🎓

Louis Rocconi, Joshua Rosenberg, Sarah Narvaiz (The University of Tennessee, Knoxville) создали небольшой курс на Shiny по анализу образовательных данных. Вот его основные разделы:

1. Введение в R

2. Базовые навыки

3. Основы языка R (типы данных, структуры данных)

4. Обработка данных

5. Tidy Data

6. Описательная статистика

Также вы можете попробовать Shiny-приложение для иллюстрации центральной предельной теоремы (автор James Balamuta) и почитать книгу A Portable Introduction to Data Analysis как несложное введение в статистику.

Наука и данные

19 Dec, 11:00


30DayMapChallenge 2024 completed! 🗺️

Cédric Vidonne (Information Management Officer at UNHCR - Data visualization, maps and R) поделился своими роскошными картами, которые он сделал для челленджа 30DayMapChallenge, а также кодом. Все выполнено на R!

Вот еще ряд примеров на R, которые сделал Matt Malishev.

Наука и данные

19 Dec, 07:00


Introduction to Environmental Data Science (Jerry Davis, SFSU Institute for Geographic Information Science)

Книга Introduction to Environmental Data Science посвящена исследованию окружающей среды на основе языка программирования R, в первую очередь, на основе измерения различных показателей в пространственной и временной областях.

Следует отметить, что в книге присутствует пространственный анализ данных и моделирование: начиная от растрового анализа данных до анализа спутниковых изображений, которые включают в себя диапазон электромагнитного спектра от видимого до коротковолнового инфракрасного, что представляет особый интерес. Environmental Data Science book or EDS book - аналогичный ресурс на Python.

Наука и данные

18 Dec, 07:30


On bubbles and trees 💫

Teun van den Brand делает просто волшебные дополнения к ggplot2, в частности, библиотека {legendry} теперь позволяет делать пузырьковые легенды для графиков.


library(legendry)

gapminder::gapminder |>
dplyr::filter(year == max(year)) |>
ggplot(aes(gdpPercap, lifeExp, size = pop,
fill = continent)) +
geom_point(pch = 21, alpha = 0.8) +
scale_size_area(
limits = c(0, NA), max_size = 20,
breaks = c(0, 100, 500, 1000)*1e6,
labels = c(0, "100M", "500M", "1B"),
guide = guide_circles(vjust = 1)
) +
scale_fill_discrete(guide =
guide_legend(override.aes =
list(size = 4, alpha = 0.8))) +
scale_x_log10() +
labs(
x = "ВВП на душу населения",
y = "Ожидаемая продолжительность жизни",
fill = "Континент",
size = "Население"
)


Это должно быть по умолчанию в {ggplot2}!

Наука и данные

18 Dec, 07:01


{statquotes}

Известный нам статистик и самый дружелюбный историк визуальных представлений данных Michael Friendly является автором книг и библиотек R, одна из которых - {statquotes} мне особенно понравилась. Она отображает случайно выбранную цитату по темам, связанным со статистикой, визуализацией данных и Data Science.

Более того, такой цитатник я вставил в Quarto-страницу (подойдет и markdown или LaTeX). Также можно создавать облако слов на основе поиска в базе данных цитат.

Наука и данные

17 Dec, 07:31


{tidyplots}

Большое спасибо Александру за ссылку на сайт библиотеки {tidyplots} для создания готовых к публикации графиков для научных статей, автор которого Jan Broder Engler. По мнению автора библиотека:

🕊️ Бесплатная и с открытым исходным кодом
🚀 Простая, интуитивно понятная и быстрая
💾 Содержит демонстрационные наборы данных
🏆 Использует лучшие практики
🌈 Красивая

Галерея графиков tidyplots выглядит неплохо, очень напоминает {ggpubr}, которым я активно пользуюсь, и BBC Visual and Data Journalism cookbook for R graphics.

Наука и данные

17 Dec, 07:01


Finding Your Way To R 🏃‍♂️‍➡️

Помимо прочих ресурсов по изучению языка R, можно вспомнить про дорожную карту от RStudio (теперь Posit). Путь к познанию R разделен на три направления, от начинающих до экспертов.

Пусть эти материалы в некоторых моментах требуют обновления, но в целом они могут помочь идейно сориентировать в навигации по экосистеме R.

Наука и данные

16 Dec, 08:00


How Dense are the World's Biggest Cities? 🏘️

Интересный подход к рассмотрению плотности населения продемонстрировал Jonathan Nolan на семинаре nyhackr, который ведет Jared Lander (Chief Data Scientist of Lander Analytics a New York data science firm).

В частности, Shiny-сайт citydensity.com позволяет сравнивать различные города по плотности заселенности в зависимости от расстояния от центра. В докладе Jonathan поделился идеями и техническими деталями по анализу данных такого рода.

Наука и данные

16 Dec, 07:00


How To Craft A Blazingly Fast Graphics Device 🐅

На сколько мы знаем, библиотека {gganimate} делает анимации достаточно медленно, каждый кадр отрисовывается как отдельный ggplot2-объект, а потом эти графики объединяются в один gif. Кроме того, пока не существует кроссплатформенных графических устройств, что тоже вносит определенные трудности в создание анимаций в R.

Hiroaki Yutani сделал доклад на Japan.R (увы, по-японски и записи не было) по созданию анимаций, графическим устройствам, API, а также vellogd: A GPU-powered Interactive Graphics Device for R. Презентация (на английском) доступна в сети, пока это эксперимент, но результат уже сейчас представляет интерес.

Наука и данные

13 Dec, 08:01


Как создать "крутяк"? 🤘

ThePudding объясняет идеи, которые у всех на слуху и обсуждаются в (масс-)культуре с помощью небольших визуальных эссе, они выбирают темы, в которых визуальные эффекты информируют и развлекают. Если вам нравятся визуальные представления - это вам точно понравится.

Роясь в бездне ссылок я наткнулся на забавный набор статей, который выпустила команда ThePudding (а точнее - Ilia Blinderman), эдакий трехсерийный сериал, призванный помочь ознакомиться с инструментами, используемыми для создания визуальных историй, основанных на данных.

Part 1: Working with Data

Part 2: Design

Part 3: Storytelling

Отличные статьи, читайте, отдыхайте. Одним словом, всем хороших выходных! 👋

Наука и данные

13 Dec, 07:00


Explainers

Мне нравится интерактивная подача материала и иллюстрации по таким сложным вопросам как искуственные нейронные сети и машинное обучение. Примеры можно посмотреть в известной статье Generative AI exists because of the transformer (FT), The Illustrated Machine Learning или LLM Visualization.

Вот еще один класс "объяснялок" от Polo Club of Data Science:

🔸 CNN Explainer

🔹 Transformer Explainer

🔸 Diffusion Explainer

Наука и данные

12 Dec, 07:02


Data Science Learning Community

Девиз Data Science Learning Community (ex R4DS Online Learning Community) - Учимся вместе!

Напомню о том, что сообщество DSLC проводит регулярные онлайн-встречи, организуя "книжные клубы" по прохождению различных книг для R и Python по Data Science и ML.

Записи онлайн-встреч доступны на YouTube. Также у сообщества есть собственный сайт, где представлены ссылки на видео с семинарами по книгам с поддержкой в Slack и календарь событий. Безусловно, можно подписаться и на их Bluesky.

Наука и данные

11 Dec, 07:00


Top 40 New CRAN Packages 4️⃣0️⃣ 🆕 📦

Некоторое время тому назад R Views публиковали список 40 лучших библиотек за месяц, однако с какого-то времени эта практика прекратилась. Оказывается, теперь эти отличные подборки можно почитать на R Works.

Также, еженедельный список интересных R-находок публикуют на R Weekly и можно подписаться на различные рассылки, например, Blaze Data Science with R.

Наука и данные

10 Dec, 07:02


Fundamentals of Numerical Computation (Tobin A. Driscoll & Richard J. Braun)

Несомненно, MATLAB оставался лидером в качестве основной среды в исследования численных вычислений, и сейчас он занимает определенную нишу, однако современный ландшафт меняется и сейчас существуют полнофункциональные open source альтернативы MATLAB, например, NumPy языка Python. Помимо Python, язык Julia был разработан с целью отдать приоритет быстрым численным научным вычислениям.

Книга Fundamentals of Numerical Computation изначально была написана для MATLAB, а затем переведена на Julia. Издание интересно как математическим введением в предмет, так и подробным сопровождением кода, начиная от классических тем (линейная алгебра, корни нелинейных уравнений) до уравнений в частных производных.

В R можно посмотреть список ресурсов Numerical Mathematics (Hans W. Borchers, Robin Hankin, Serguei Sokol).

Наука и данные

06 Dec, 08:00


Вот так задачка! 🙈

Поскольку не так давно мы отметили день математика, отмечу забавный твит, в котором Luis Batalha обнаружил, что Серж Ленг в книге по комплексному анализу предложил в качестве упражнения... доказать гипотезу Римана!

Напомню, гипотеза Римана - это одна из нерешенных (так называемых The Millennium Prize Problem) проблем математики, за решение которой Clay Mathematics Institute предложил выплатить 1 млн USD.

Серж Ленг был в свое время довольно известным математиком и выдающимся педагогом, который написал множество книг по самым различным темам как для младшекурсников, так и серьезных книг для аспирантов. Интересно что он путешествовал с пишущей машинкой и не любил компьютеры, а его бабушка была русской. Когда я был в один из визитов в MPIfM он подарил мне свою книжку и подписал ее. Так вот Серж Ленг был известным оригиналом, например, к "упражнению выше" по гипотезе Римана он приписал: "вы можете спросить совета по решению этой задачи у своего профессора". 😀

Всем хороших выходных! 👋

Наука и данные

06 Dec, 07:00


Data Viz Collective + Geo-Computation

Мы уже видели отличные визуализации, которые Aditya Dahiya делает на R, выполненные на основе ggplot2.

Сейчас он также ведет еще один интересный блог-проект по гео-вычислениям, в котором, в частности, проходит упражнения из известной книги Geocomputation with R. К слову, отмечу еще одну книгу, связанную с пространственными данными: GeoComputation and Spatial Analysis practicals

Наука и данные

06 Dec, 05:30


2025 AI Calendar 📅

Tom Yeh опубликовал gif с рекламой календаря 12 deep learning architectures to study in 2025.

1. January: Multi-Layer Perceptron (MLP)

2. February: Backpropagation

3. March: Autoencoder

4. April: Recurrent Neural Network (RNN)

5. May: Long-Short Term Memory (LSTM)

6. June: Generative Adversarial Network (GAN)

7. July: Residual Network (ResNet)

8. August: Transformer

9. September: Self-Attention

10. October: U-Net

11. November: Reinforcement Learning with Human Feedback (RLHF)

12. December: Contrastive Language-Image Pretraining (CLIP)

Выглядит очень красиво, ничего не сказать, календарь можно заказать в США... но где же тут KANs (Kolmogorov–Arnold Networks)? Или эта тема уже не столь актуальна/модна/молодежна? 🤔

Наука и данные

05 Dec, 07:02


Network Science in Archaeology

Проект Online Companion to Network Science in Archaeology является дополнением к книге Network Science in Archaeology [Tom Brughmans & Matthew A. Peeples (2023), Cambridge Manuals in Archaeology], что представляет собой первое всеобъемлющее руководство по сетевому анализу в археологической практике.

Издание предлагает пошаговое описание методов сетевого анализа и повествует о теоретических основах и приложениях в археологических исследованиях, которые проиллюстрированы археологическими примерами, включая сбор и управление сетевыми данными, исследовательский сетевой анализ, вопросы выборки и анализ чувствительности, пространственные сети и визуализацию сетей.

В книге предоставлен код и примеры для воспроизведения с использованием языка программирования R, а также множество других полезных инструментов.
---
Для "сетевиков" также будет интересна реализация алгоритма Смита-Питтмана в библиотеке {ig.degree.betweenness}.

Наука и данные

04 Dec, 07:01


Circular visualization in R

Предположим, что вы изучаете циклические явления или структуры: сезонный рост заболеваемости, глобальное изменение температуры, филогенетические деревья, приливы и т. д., тогда вам помогут круговые визуализации.

Zuguang Gu создал две библиотеки {circlize} (по которой он написал книгу Circular visualization in R) и {spiralize}, целиком посвященные круговым визуализациям, включая тепловые карты, геномные данные, хордовые диаграммы и многое, многое другое.

Наука и данные

03 Dec, 07:01


ggiraph 🦒

Yan Holtz считает недооцененной библиотеку {ggiraph} для интерактивной визуализации данных, которая сделана на основе {ggplot2} как htmlwidget.

Действительно, его примеры выглядят отлично в галерее r-graph-gallery! Имеется и Python-версия карты из примеров выше (обратите внимание - гистограмма присутствует как легенда).

Также, недавно Yan Holtz запустил новый курс по библиотеке Matplotlib (+Pyodide sandbox Matplotlib Journey) и страницу Dataviz with React fundamentals 🔥 (часть материалов будут в последствии закрыты и будут только за 💰).

Кстати, если вам нравится Matplotlib, то можете посмотреть видео Create Time Series Animations in Python with Matplotlib! (автор Keith Galli)

Наука и данные

02 Dec, 08:01


The R Manuals. A re-styled Quarto-version of the original R manuals

Если вы хотите погрузиться в "классический R" без "всяких там tidyverse", то проверенный временем набор ссылок The R Manuals послужит одним лучших введений.

Например, разделы страницы описывают ряд вводных вопросов (от простых операций до тонкостей графики), импорт/экспорт данных, установку и администрирование R, написание собственных R-расширений и многое другое.

Напомню, что на русском языке есть хороший онлайн-учебник Введение в язык программирования R (автор Филипп Управителев), который кратко касается схожих вопросов.

Наука и данные

02 Dec, 07:01


R Riffomonas

Pat Schloss (Department of Microbiology & Immunology in the University of Michigan School of Medicine) ведет свобственный YouTube-канал с небольшими роликами, которые помогут в асинхронном режиме улучшить свои навыки в R-программировании.

Например, в одном из недавних видео он рассказывает про разрывы графиков вдоль оси Ox в ggplot2, и я вспомнил о том, что есть аналогичный прием, про который я рассказывал в своем блоге в статье по ggplot2.

Также можно зайти на его страницу Riffomonas чтобы познакомиться с различными материалами по R, разбитыми по темам (Training modules), а также элементами кода в разделе Code Club.

Наука и данные

01 Dec, 13:30


В честь Дня Математика - математический кроссворд выходного дня. Предупреждаем: он не самый простой 🎩

По горизонтали:

1. Чем выше его значение, тем сильнее пики, чем ниже — тем более плоское распределение.
3. Основной инструмент для обучения моделей через минимизацию функции потерь.
6. В градиентных методах это используется для учета инерции обновления весов.
8. Его работы легли в основу теории цепей, где будущее состояние системы зависит только от текущего.
9. Его вершины — это потенциальные кандидаты на оптимум.
10. Если он равен нулю, строки или столбцы матрицы линейно зависимы.
13. Функция расстояния между распределениями, используемая, например, в байесовском обучении.
14. Самый замечательный термин математики.

По вертикали:

2. Классический пример применения его теоремы — фильтр для определения спама в письмах.
4. Свойство чисел, позволяющее определить равенство остатков при делении. Часто встречается в криптографии и при хэшировании данных.
5. Статистический метод, при котором из одной выборки многократно создаются новые с помощью случайного выбора с возвращением.
7. Мера неопределенности или хаотичности системы.
11. Операция отображения многомерных данных на пространство меньшей размерности. Часто применяется в t-SNE и PCA для визуализации.
12. Он бывает Белла, Жегалкина и даже Лежандра.
15. Без нее градиентный спуск невозможен.

Присылайте догадки в комментарии, только закрывайте спойлерами 🤫

Наука и данные

01 Dec, 13:30


Проверьте себя, я только за одним словом залез в Google, да и то потому, что давно статистику не преподавал. 😄

Наука и данные

01 Dec, 09:00


Дорогие коллеги, с Праздником!

Кстати, сегодня был учрежден и день математика. 1 декабря для такого дня, наверное, существенно лучше 1 апреля. Поэтому, пусть будет так 😊

Ну а мы начинаем сегодняшнее Воскресенье с весёлой картинки, на которую нас вдохновил похожий мем от MathMatize.

#ёжик_развлекается

Наука и данные

01 Dec, 05:01


Advent of Code 2024 🌲

Ежегодно с 2015 года Eric Wastl публикует список ежедневных задачек по программированию. По сути, Advent of Code - это вариант предрождественского календаря (от нем. Adventskalender - традиционный в Европе календарь для отслеживания времени от периода до прихода Рождества).

Для решения этих программных головоломок не требуется большого мастерства. Тем не менее, люди используют их в качестве подготовки к собеседованию, обучения в компании, для университетских курсовых работ, соревнований на скорость или просто для того, чтобы бросить вызов друг другу.

Самое главное - для решения задач не нужен навороченный компьютер и решать задачи можно на любом языке программирования, который вам нравится (R!).

Примеры решения задач прошлых лет на R:

✔️ Ella Kaye’s solutions and notes

✔️ Emil Hvitfeldt’s solutions

✔️ Jack Davison’s solutions

✔️ Jonathan Carroll’s solutions

✔️ David Robinsons's Advent of Code functions

Happy coding!

Наука и данные

30 Nov, 07:37


R-щики! Футболка из R-гексиков! 😍

David Schoch - большой поклонник популярных R-стикеров! И в своей любви он дошёл до того, что собрал из них полотно для футболке!
Теперь издалека будет видно, что вы серьёзный R-специалист
😎👌

Как её сделать, сказано тут!
Жду селфяш на стиле, коллеги! Вы знаете, к кому я обращаюсь!
😎👌

https://blog.schochastics.net/posts/2024-10-29_hexshirt-making-of/index.html

#rstats

Наука и данные

29 Nov, 08:00


Вот несколько интересных библиотек, на которые можно обратить внимание:

📦 {cocoon} - форматирование статистической информации в документах

📦 {ggalign} - расширение ggplot2 для группировки нескольких диаграмм

📦 {legendry} - аннотирование ggplot2-графиков вдоль координатных осей

📦 {tidyplots} - упрощение создания графиков для научных публикаций (+статья)

📦 {scatterbar} - отображение пропорциональных данных

📦 {tidyprompt} - написание промптов в tidy-стиле

📦 {webshot2} + статья = скриншоты в R

📦 {Ridian} - R в Obsidian (+видео)

📦 {isocubes} + {oblicubes} для построения изометрических 3D-изображений в духе Minecraft

Всем хороших выходных! 👋

Наука и данные

29 Nov, 07:00


{camcorder} 📽️

Библиотека {camcorder} языка R позволяет записывать последовательно все этапы визуализации и преобразовывать их в gif. Это полезно, когда необходимо продемонстрировать процесс создания графиков с помощью {ggplot2}.

Много примеров такого характера создано с помощью {camcorder} для проекта TidyTuesday (например, такими известными авторами, как Cédric Scherer, Georgios Karamanis и Nicola Rennie).

Наука и данные

28 Nov, 08:00


Projection Wizard 🗺️

Projection Wizard - это веб-приложение (недавно приложение обновилось до версии 2.1), которое помогает картографам выбрать подходящую проекцию для своей карты.

В зависимости от протяженности и свойств искажения карты приложение возвращает список предлагаемых картографических проекций с дополнительными параметрами проекции, если это необходимо. Рядом с каждой проекцией есть ссылки PROJ и WKT, которые открывают всплывающее окно с текстовой строкой, доступной для копирования в буфер обмена.

Также интересно посмотреть изменения проекций в Surface Area of a Sphere. Я уверен, наберется множество других аналогичных сайтов и приложений.

Наука и данные

28 Nov, 07:02


R/Pharma video 📺

На Youtube стали доступными более 60 видео с конференции R/Pharma! Конференция представляет собой научно-отраслевое коллегиальное мероприятие, посвященное использованию R в разработке фармацевтических препаратов. Есть очень стоящие доклады.

В качестве дополнения можно посмотреть плейлист конференции Øredev 2024.

Наука и данные

27 Nov, 08:00


The Hadleyverse

Хотите знать, как выглядит Hadleyverse (от Hadley + tidyverse)? С помощью простого сервиса skircle.me можно построить "круг общения" для любого пользователя социальной сети Bluesky.

Дело в том, что разработчикам, чтобы быстро обмениваться короткими новостями, нужны социальные сети, и долгое время X (он же Twitter) был лидером среди новостных систем сообщений, однако после того как Twitter был продан и его алгоритмы стали на сторону политических ботов, R-мир переехал на Mastodon, но надолго там не закрепился и частично мигрировал на Bluesky. В Quarto можно вставлять Bluesky-комментарии с помощью специального расширения.

Например, из Bluesky можно узнать о том, что Hadley Wickham пишет краткую историю tidyverse и поучаствовать в обсуждении.

Увы, сейчас в социальном R-мире из-за перебежек на платформы все стало разрозненно и не столь насыщенно как прежде.

Наука и данные

27 Nov, 07:30


Matplotlib в браузере 📈🐍

Yan Holtz создал страницу Matplotlib Journey, где можно с помощью Pyodide рисовать онлайн Matplotlib графики.

Наука и данные

22 Nov, 08:00


Всем хороших выходных! 👋

Наука и данные

22 Nov, 07:01


2024 Government & Public Sector R Conference

Lander Analytics выложили на YouTube плейлист видео с конференции 2024 Government & Public Sector R Conference | In-Person in Washington DC & Virtual | October 29-30, 2024.

Очень много интересных докладов, рекомендую к просмотру!

Наука и данные

21 Nov, 07:00


stoRy time with Shiny, Quarto, and Google Cloud Run

Umair Durrani рассмотрел свои принципы для создания историй с помощью GenAI, языка R, Quarto, Rest API, Shiny, Google Cloud и Docker.

Его презентация мотивирована Дюной (фильмом и романом), так что если вы хотите постичь искусство stoRytime как Лисан аль-Гаиб эксперт, то эта красивая презентация вам поможет.

Наука и данные

21 Nov, 06:02


Your pal 🤝

Пока у Julia-коллег идут споры о качестве современных LLM, нам (в R) нейросети помогают в выполнять повторяющиеся, трудно автоматизируемые задачи с помощью библиотеки {pal}, которую разрабатывает Simon P. Couch.

Увы, без ANTHROPIC_API_KEY, похоже, не обойтись, однако pal позволяет переписать код под один из префиксов: cli, testthat или roxygen, что уже хорошо.

Наука и данные

20 Nov, 07:00


Psychometrics in Exercises using R and RStudio

Anna Brown - автор книги Psychometrics in Exercises using R and RStudio (Textbook and data resource), которая служит для иллюстрации и отработки основных психометрических методов с использованием языка R. Книга может подойти как в процессе обучения на университетских курсах, так и для самостоятельного изучения в области психологии или любой поведенческой или социальной науки, где необходимо уметь осмысливать свои данные или создавать новые оценки.

Упражнения упорядочены таким образом, что как правило последующие упражнения опираются на предыдущие. Очень интересная тематика, которая использует статистические модели и основана на построении поведенческих индикаторов.
---
Немного дополню мини-обзор на книгу отличным введением, которое написал Юрий Александрович Тукачёв, который лично знаком с автором.

Наука и данные

19 Nov, 07:00


R’s Geospatial Kaleidoscope: Exploring Perspectives, Strengths, and Challenges 🔥

Jakub Nowosad сделал интересный доклад, который касается обзора текущих R-инструментов и перспектив развития в области пространственных данных. Можно посмотреть его прекрасную презентацию, которая охватывает множество тем, начиная от типов данных до различных перспективных направлений. Отличное введение для всех, кто интересуется, как используется язык R в пространственном анализе!

Machine learning approaches for working with spatial data - еще один интересный (хотя и не всеобъемлющий) обзор на основе mlr-подхода от Jacub'а.

Помимо прочего, Jacub в своем блоге (+пост) недавно опубликовал отличную серию статей по сравнению растровых данных (как непрерывных, так и категориальных).

Наука и данные

19 Nov, 06:00


LaTeX by Examples

Небольшая книга LaTeX by Examples, на которую обратил внимание коллега, представляет собой удобный сборник советов и примеров (порой очень классных), оформленный в виде "шпаргалок" по LaTeX.

Наука и данные

18 Nov, 07:01


Shaded Relief Gallery 🗻

Spencer Schien создал большую галерею графических рельефов используя библиотеку {rayshader}, автором которой, как и Rayverse-вселенной библиотек является Tyler Morgan-Wall.

Познакомиться с галереей можно на сайте автора, а посмотреть код в GitHub-репозитории.

Наука и данные

16 Nov, 12:02


Nathan Yau делает отличные визуальные проекты, каждый проект - шедевр! Он использует в своих работах R + D3 + Adobe Illustrator.

Наука и данные

16 Nov, 12:02


Уровень занятости и возраст, больше работы и больше лет!

Новый проект от прекрасного Nathan Yau, посвящен занятости в разрезе пола и возраста. Очень приятно сделаны изменения, когда двигаешь ползунок на диаграмме - легкий шлейф остается от линии!
Такая ненавязчивая анимация и при этом видно исторические данные.

Вообще у него все проекты, по-моему прекрасные. А какой ваш любимый? ☺️

https://flowingdata.com/2024/11/14/employment-decades/

Наука и данные

16 Nov, 09:52


📚 ggplot2 extended

Сайт книги ggplot2 extended от Antti Rask. Посвящена расширению функциональности пакета ggplot2 (Wickham 2024) для R, разработанного Хэдли Викхэмом. С момента появления пакета ggplot2 появилось множество пакетов расширений. Эта книга о том, как их использовать, чтобы извлечь максимум пользы из всей экосистемы ggplot2. Книга предполагает некоторое базовое понимание R и ggplot2.

#R #ggplot2 #ВизуализацияДанных

Наука и данные

15 Nov, 08:01


Всем хороших выходных! 👋

Наука и данные

15 Nov, 07:02


Complex Analysis (A Visual and Interactive Introduction)

Интересный визуальный проект Complex Analysis, который создал Juan Carlos Ponce Campuzano, представляет собой интерактивное введение в теорию функций одного комплексного переменного.

Несмотря на то, что книга не является полным курсом, охватывая лишь некоторые темы (например, здесь мы не увидим вычетов, римановых поверхностей и т. д.), это потрясающее интерактивное дополнение к учебникам ТФКП с великолепными визуальными эффектами, примерами и интуитивным пониманием того, как работает сложный анализ.

Наука и данные

14 Nov, 07:02


Stan Playground

Stan Playground (непосредственно сайт) - это среда для запуска в браузере моделей Stan (см. также пост). Пользователи могут редактировать, компилировать и запускать модели, а также анализировать результаты с помощью графиков и статистики без необходимости локальной установки. Приложение хорошо подходит для образовательных целей, а также для пользователей, которые хотят экспериментировать с моделями Stan в браузере, а не на локальном компьютере.

Посмотрите также доклад Stan without installing Stan? How (and why) to sample inside your browser (Brian Ward).

Наука и данные

13 Nov, 07:01


hexsession

Библиотека {hexsession} позволяет создавать панель с шестиугольными логотипами для каждой загруженной библиотеки в сеансе R (за исключением базовых библиотек). Попробуйте, выглядит красиво.

remotes::install_github("luisdva/hexsession")

hexsession::make_tile()

Наука и данные

12 Nov, 07:01


Shiny GeoApp

Mohsin Ramay создал Shiny-приложение для тех, кто хочет исследовать и загружать административные границы стран и территорий внутри стран, а также климатические переменные. Достаточно указать страну и значение ключа, описывающего административный уровень в территориальной иерархии. Все создано с помощью библиотеки {rgeoboundaries}.

Приложение, безусловно, интересное, но не могу отвечать за точность загружаемых границ и увы, скорость работы страницы может быть низкой.

Наука и данные

11 Nov, 07:01


Study Artifacts and Their Corrections

Книга Study Artifacts and Their Corrections (+видео +Matthew B. Jané блог), по словам авторов, призвана помочь социальным/клиническим/поведенческим/когнитивным исследователям понять природу артефактов исследования, под которыми понимается любой источник методологического загрязнения, который вызывает предвзятость в результатах исследований. Ни одна дисциплина не застрахована от ошибок измерения и эффектов отбора, поэтому важно учитывать эти артефакты в каждой области исследований.

Книга отлично проиллюстрирована примерами и содержат R-код, авторы надеются, что прочтение этой книги даст бесценные идеи и инструменты, которые позволят людям бороться с предвзятостью в наших исследованиях.

Напомню также про книгу Guide to Effect Sizes and Confidence Intervals от этого же авторского коллектива и библиотеку {effectplots}.

Наука и данные

10 Nov, 07:48


10 ноября исполняется 100 лет со дня рождения Михаила Фёдоровича Решетнёва —выдающегося отечественного ученого, конструктора и организатора производства систем информационных космических телекоммуникаций и ракетной техники.

В научных работах М.Ф. Решетнёва получила дальнейшее развитие механика движения твёрдого тела относительно центра масс с присоединенными упругими элементами, создана пассивная магнитно-гравитационная система ориентации, исследовано влияние факторов космического пространства на материалы и механику композиционных материалов.

Среди спутников созданных под руководством М.Ф. Решетнёва наиболее значительными явлениями стали системы спутниковой связи и вещания "Стрела-1" (1964), "Молния-1+" (1967), "Стрела-1М" (1969), "Стрела-2" (1970), "Молния-2" (1971), "Молния-3" (1974), спутник связи "Радуга" (1975), геостационарный спутник прямого телевещания "Экран" (1976), геостационарный спутник связи "Горизонт" (1978), спутник "Радио" (1981), геостационарный спутник-ретранслятор "Поток" (1982), спутники связи "Молния-1Т" (1983) и "Стрела-3" (1985), геостационарный спутник связи "Луч" (1985), военный спутник связи "Радуга-1" (1989), спутник глобальной связи "Гонец-Д1" (1992), геостационарный спутник связи "Экспресс" (1994).

М.Ф. Решетнёв внёс вклад в создание орбитальных группировок спутниковых систем навигации "Циклон" (1967), "Цикада" (1976), "Надежда" (1982), "ГЛОНАСС" (1982) и "Галс" (1994), а также в создание спутниковых систем изучения Земли — геодезических и научно-исследовательских спутников "Вертикальный космический зонд" (1967), "Сфера" (1968), "Ионосферная станция" ("Космос-381", 1970), "Гео-ИК" (1981), "Эталон" (1989).

М.Ф. Решетнёв оказал значительное влияние на создание сибирской научной школы, объединив вокруг себя талантливых учёных, инженеров, разработчиков ракетно-космической техники. Под его руководством была создана материально-техническая база создания новой техники в Сибири с уникальными лабораториями по исследованию и отработке сложных систем и конструкций. Возглавляемое Решетнёвым НПО прикладной механики (ныне АО “Информационные спутниковые системы имени академика М. Ф. Решетнёва”) стало основным отечественным разработчиком и производителем спутников связи, телевещания, навигации и геодезии, и остаётся таковым по сей день.

#история

Наука и данные

08 Nov, 08:01


Всем хороших выходных! 👋

Наука и данные

08 Nov, 07:02


pastum 🔥

Расширение pastum для VS Code/Positron позволяет копировать текстовые таблицы (например, из веб-страниц или Excel) и переносить их в датафреймы в IDE. Расширение аналогично datapasta: pastum добавляет команды в палитру команд и контекстное меню правой кнопки мыши и поддерживает распознавание типов с плавающей точкой, целых чисел и строк.

В значительной степени идея плагина основана на веб-приложении HTML to Dataframe Convener (автор James Balamuta), которое поддерживает Pandas, Tidyverse, Polars и не только.

Установить расширение можно перейдя на отлично оформленный сайт; его автор Анатолий Цыпленков читает комментарии к этому посту, поэтому если у вас есть вопросы и предложения по улучшению и развитию приложения, можно написать тут.

Наука и данные

08 Nov, 06:01


Quarto talks

В преддверии выхода новой версии Quarto были опубликованы на единой веб-странице ссылки на доклады по Quarto на конференции posit::conf(2024).

Также, вышла серия видео докладов от Mine Çetinkaya-Rundel, которая посвящена Quarto Dashboards (см. страницу с презентациями к докладам + GitHub-репозиторий):

Quarto Dashboards 1: Hello, Dashboards!
Quarto Dashboards 2: Components
Quarto Dashboards 3: Theming and Styling

Наука и данные

07 Nov, 11:19


Коллеги, издательство ДМК Пресс устраивает c 8 по 10 ноября хорошую распродажу как электронных (в PDF), так и бумажных книг. Мне кажется, надо пользоваться!

Наука и данные

07 Nov, 11:19


⚡️ Книги по скидке 40%! Дичайшая распродажа! Только до 10 ноября!

Друзья, мы начинаем нашу Черную пятницу! Только до 10 ноября на сайте издательства «ДМК Пресс» будут действовать мои дикие скидки на 40% на PDF и 30% на бумагу! И самое главное, что вы можете купить по этой скидке мою новую книгу «Python: Pandas на практике» (200 упражнений по анализу данных с решениями и пояснениями), которая выйдет в ближайшие недели! (недавно я анонсировал ее на своем канале)

Спешите!!! Скидки действуют на ВСЕ книги издательства "ДМК Пресс", а не только на мои! При покупке обязательно вводите мой промокод:

- на бумагу: Ginko_BlackFriday_2024
- на PDF: Ginko_BlackFriday_PDF_2024

Все мои книги собраны на отдельной странице издательства: https://dmkpress.com/content/authors/8024111/, но вы также можете покупать и любые другие книги, на них тоже будет распространяться скидка!

Скидку вы получите и без моих промокодов, но с ними вы сможете поддержать меня и наш с вами общий канал и внести вклад в мои будущие переводы!

Вот лишь несколько примеров цен на мои книги в Черную пятницу:
1) Подробное руководство по DAX: 2049 руб. >>> 1289 руб.
2) Введение в статистическое обучение с примерами на Python: 2499 руб. >>> 1499 руб.
3) Power Query и язык М. Подробное руководство: 2499 руб. >>> 1499 руб.
4) Python: Pandas на практике: 2599 руб. >>> 1559 руб.

Страница со всеми моими книгами на сайте: https://dmkpress.com/content/authors/8024111/

Наука и данные

07 Nov, 07:01


Geospatial Data Science with Julia

Язык программирования Julia не так популярен как Python или R. Тем не менее, для него также существуют библиотеки для исследования географических данных (растровых и тематических карт, работы с OpenStreetMap и т. д.). Помимо книги Geocomputation with Julia, входящей в цикл geocompx.org, мы можем также следить за прогрессом написания книги Geospatial Data Science with Julia (автор Júlio Hoffimann).

Несмотря на то, что тематика такого рода книг является во многом похожей, на некоторые темы этой книги стоит обратить внимание (например, как реализованы вариограммы в Julia). Последние главы книги будут посвящены приложениям (оценке ресурсов и экономической оценке реального месторождения полезных ископаемых, приложениям к задачам в сельском хозяйстве и нефтяной промышленности), что тоже в своем роде уникально.

Наука и данные

07 Nov, 06:30


WebAssembly roundup

Несомненно, внедрение WebAssembly для R/Python и Quarto имеет огромные перспективы, запуск кода в браузере без установки языка программирования - это большой шаг в мире интерактивности. Мне очень нравится использовать в своих Reveal.js-презентациях плагин {drop}.

George Stagg, как один из главных авторов Wasm-приложений, поделился своим опытом по WebR, Shinylive и Quarto Live в серии недавних публикаций:

WebAssembly roundup part 1: webR 0.4.2
WebAssembly roundup part 2: Shinylive 0.8.0
WebAssembly roundup part 3: Quarto Live 0.1.1

Наука и данные

07 Nov, 06:00


Major Large Language Models (LLMs)

Отлично сделанная с помощью VizSweet интерактивная карта основных больших языковых моделей ранжирована по производительности и параметрам, используемых для обучения, с использованием MMLU (Massive Multitasks Language Understanding) - бенчмарка для оценки возможностей больших языковых моделей.

Наука и данные

06 Nov, 07:00


Introduction to Data Science

Книга Introduction to Data Science представляет собой введение в науку о данных для людей практически без опыта, основываясь на решении базовых задач, получении надежных навыков и простых инструментов. Основу курса этой книги составляет введение в типы данных, программирование на языке R, визуализация и исследовательский анализ данных, последующие главы рассматривают более сложные вопросы предиктивного моделирования и создания интерактивных приложений.

Помимо этой книги, содержащей общие темы, можно обратиться к книге того же автора (Hansjörg Neth, Universität Konstanz) Data Science for Psychologists, которая ориентирована на более подготовленных студентов бакалавриата.

Наука и данные

06 Nov, 06:01


New release of mapsf 🗺️

Всем любителям тематической картографии в R несомненно понравится обновление библиотеки {mapsf}. В библиотеку были добавлены две новые функции: mf_get_borders() и mf_get_pencil() (хотя они и раньше были в предшествующей библиотеке {cartography}). Мне особенно понравилась вторая функция, которая преобразует полигоны в линии, имитируя рисунок карандашом.

Подробно посмотреть с примерами новые возможности mapsf можно посмотреть в блоге R Geomatic (автор Timothée Giraud).

Наука и данные

05 Nov, 07:01


Efficient Machine Learning with R (Low-Compute Predictive Modeling with tidymodels)

Мета-библиотека {tidymodels} языка R становится все популярнее, уже несколько книг в той или иной мере используют ее:

📙 Tidy Modeling with R
📙 Feature Engineering A-Z
📙 Supervised Machine Learning for Text Analysis in R
📙 Applied Machine Learning for Tabular Data

...и вот еще одна книга, за прогрессом написания которой будем наблюдать: Efficient Machine Learning with R, автор - Simon P. Couch, блог которого во многом посвящен tidymodels.

Основная цель книги - оптимизация моделей машинного обучения на основе эффективных адаптаций движка, выбора моделей, предобработки данных, параллельных вычислений и т. д.

Наука и данные

02 Nov, 10:04


rsi — загрузка данных из STAC и расчет спектральных индексов [ссылка]

Пакет rsi (от __r__epeated __s__patial __i__nfelicities) предоставляет пользователю:

- Интерфейс к проекту Awesome Spectral Indices project, который содержит список спектральных индексов в виде таблицы tibble.
- Метод эффективного вычисления этих спектральных индексов.
- Метод загрузки данных с любого сервера STAC, с дополнительными настройками для загрузки популярных данных Landsat, Sentinel-1 и Sentinel-2 с бесплатных и публичных серверов STAC.
- Метод объединения нескольких растров, содержащих различные наборы данных, в единый растровый стек.

Функция spectral_indices() возвращает таблицу спектральных индексов.

Функция get_stac_data() позволяет загружать изображения из любого доступного каталога STAC. Например, можно загрузить композит каналов Landsat с маской облачности:

aoi <- sf::st_point(c(-74.912131, 44.080410))
aoi <- sf::st_set_crs(sf::st_sfc(aoi), 4326)
aoi <- sf::st_buffer(sf::st_transform(aoi, 5070), 1000)

landsat_image <- get_stac_data(
aoi,
start_date = "2022-06-01",
end_date = "2022-06-30",
pixel_x_size = 30,
pixel_y_size = 30,
asset_names = c("red", "blue", "green"),
stac_source = "https://planetarycomputer.microsoft.com/api/stac/v1/",
collection = "landsat-c2-l2",
mask_band = "qa_pixel",
mask_function = landsat_mask_function,
output_filename = tempfile(fileext = ".tif"),
item_filter_function = landsat_platform_filter,
platforms = c("landsat-9", "landsat-8")
)


Для популярных данных, например для снимков Landsat, есть отдельные функции, где большинство параметров настроено по умолчанию:

landsat_image <- get_landsat_imagery(
aoi,
start_date = "2022-06-01",
end_date = "2022-06-30",
output_filename = tempfile(fileext = ".tif")
)


По умолчанию, данные загружаются из Microsoft's Planetary Computer API.

Теперь на основе полученных каналов снимков Landsat рассчитаем спектральные индексы при помощи calculate_indices():

indices <- calculate_indices(
landsat_image,
available_indices,
output_filename = tempfile(fileext = ".tif")
)


Наконец, в rsi есть утилита для эффективного объединения растров, содержащих различные данные об одном и том же месте, в VRT, что позволяет программам типа GDAL рассматривать эти отдельные источники данных как единый файл.

Например, мы можем объединить наши снимки Landsat с полученными индексами:

raster_stack <- stack_rasters(
c(landsat_image, indices),
tempfile(fileext = ".vrt")
)


#R #индексы

Наука и данные

02 Nov, 08:01


Posit:conf(2024) video 📺

Конференция Posit:conf(2024) давно закончилась, про материалы конференции уже был пост, теперь вышли видео материалы на YouTube, всего более 100 докладов!

Наука и данные

02 Nov, 07:01


Closeread Prize - Scrollytelling with Quarto

Posit проводит множество различных конкурсов, например, только что закончился Shiny Contest 2024, и вот совершенно новый! Andrew Bray и James Goldie придумали конкурс на основе авторской библиотеки Closeread, позволяющей делать scrollytelling-страницы в Quarto.

Идея scrollytelling заключается в том, чтобы выстраивать сюжетную линию слой за слоем, увеличивая масштаб или выделяя ключевые моменты во время прокрутки страницы.

Работы принимаются до 15 декабря, посмотреть Closeread-примеры можно на страницах:

▫️ Closeread Gallery
▫️ The Grand Narrative of World Exhibitions (Georgios Karamanis)
▫️ Eine kurze Geschichte der Arbeitszeit (Matthias Schnetzer)
▫️ English Monarchs and Marriages (Nicola Rennie)

Напомню про канал Натальи Киселевой в той или иной мере касающийся данных и сторителлинга.

Наука и данные

01 Nov, 08:01


Полностью согласен с автором оптимистичного твита с дельфином!

Всем хороших выходных! 👋

Наука и данные

01 Nov, 07:50


Уже попробовал в действии ChatGPT search. :)

Наука и данные

01 Nov, 07:00


Сайт Curbcut (авторы David Wachsmuth и Maxime Bélanger de Blois) стал победителем Shiny Contest 2024! 🎉

Это платформа для интерактивной визуализации геоданых и анализа устойчивости городов на примере Монреаля. Страница отображает широкий спектр курируемых аналитических модулей, соответствующих различным ключевым проблемам и вопросам устойчивости, сгруппированным под заголовками «Климат», «Демография», «Экология», «Экономика», «Здравоохранение», «Жилье», «Землепользование», «Ресурсы», «Транспорт» и «Городская жизнь».

Веб-сайт демонстрирует впечатляющий анализ и визуализацию в различных пространственных и временных переменных на основе многомерной архитектуры данных в интуитивно понятной форме.

Очень рекомендую статью, которая подобно рассказывает не только про сайт, но и про ключевые принципы реализации такого рода приложений (+GitHub репозиторий).

Наука и данные

31 Oct, 07:00


Data Science Workflows in R (An introduction to deploying production quality R code)

Dean Marchiori - сопредседатель секции статистических вычислений и визуализации Статистического общества Австралии и автор небольшого блога, пишет книгу Data Science Workflows in R, предварительная версия которой доступна онлайн. Книга задумана как вводное руководство для пользователей R, целью которого является иллюстрация современных инструментов и фреймворков, а также передовых практик надежного программного обеспечения производственного уровня. Первоначально книга была разработана в качестве учебных материалов для семинаров по разработке кода на R и для MLOps.

Данную книгу может дополнить доклад R in Production (Hadley Wickham) и книга Building reproducible analytical pipelines with R + курс (Bruno Rodrigues).

Наука и данные

30 Oct, 07:00


Parameterized plots and reports with R and Quarto

Nicola Rennie провела в рамках R/Pharma Conference практический семинар Parameterized plots and reports with R and Quarto.

Запись семинара будет доступна на YouTube, а материалы можно посмотреть на странице семинара, включая презентации, примеры, упражнения и список источников.

Бонус: видео автора Introduction to Machine Learning with {tidymodels} + Styling Quarto PDFs with Typst.

Отмечу пару новинок для Quarto: {quartize} и {froggeR}.

Наука и данные

30 Oct, 07:00


Writing Better R Code

Nicola Rennie (Lancaster Medical School) на семинаре Writing Better R Code рассмотрела советы и приемы о том, как писать такой код R, который легче читается и воспринимается, код, которым легче делиться с другими на основе Git, а также как организовывать проекты в R.

Материалы разбиты на две части:

1️⃣ организация рабочего процесса R, где рассматриваются общие вопросы создания R-проектов, стилизация кода, организация скриптов R;

2️⃣ отслеживание изменений и совместная работа над кодом: начало работы с Git и GitHub в RStudio, создание и работа с Git-репозиторием.

Страница семинара также содержит презентации, примеры, упражнения и список источников.

Наука и данные

29 Oct, 07:02


IDE Positron обзавелся отдельным веб-сайтом.

Positron обладает как многими плюсами

- поддержка нескольких языков программирования
- доступность многих расширений VS Code от Open VSX
- рисунки в табах
- Data Explorer позволяет отображать данные и предоставлять сводную статистику внутри Positron
- панель Connections Pane позволяет управлять соединениями с базой данных, созданными в сеансах R или Python

так и некоторыми минусами, которые можно обсудить на странице дискуссий, например

- нет многих возможностей RStudio
- нет возможности последовательно отображать исполнение кода в Quarto и RMarkdown как в Jupyter-ноутбуках

Несколько обзоров Positron:

▫️ Fun with Positron (Andrew Heiss)
▫️ R package development in Positron (Stephen Turner)
▫️ First look at Positron, exploring orca encounters (Julia Silge)
▫️ Positron IDE by Posit (James Balamuta)
▫️ Download, set up and customize Positron for R on Windows 11 (Milos Popovic)
▫️ Developing C/C++ code for R with Positron (Tyler Morgan-Wall)

Наука и данные

28 Oct, 07:30


Student creations: A curated collection

Я считаю, что лучшим результатом любого курса являются не отзывы, а работы студентов. Yan Holtz организовал курс Productive R Workflow, в рамках которого мы уже видели его замечательные советы по Quarto.

Несколько веб-страниц выпускников его курса, выполненых в Quarto, можно посмотреть в галерее на странице Student creations, при этом результаты выглядят очень и очень неплохо.

Отмечу, что Quarto 1.6 уже приобрел статус Release Candidate.

Наука и данные

28 Oct, 07:02


ASA Statistical Computing and Graphics Award 2025 🏆

Hadley Wickham - живая легенда и классик, автор принципов, на основе которых развивается tidy-вселенная библиотек (что по некоторым оценкам составляет около 40% CRAN), автор прекрасных книг, превосходный лектор, был удостоен премии Американской статистической ассоциации в области статистических вычислений и графики за 2025 год. Заслуженная награда, которая подчеркивает его вклад в разработку инструментов с открытым исходным кодом!

Награда будет вручена на Joint Statistical Meetings 2025 года в Нэшвилле, штат Теннесси.

Наука и данные

19 Oct, 15:51


Data Science Resources 🔥

Nicola Rennie сделала замечательный сайт Data Science Resources с наборами ссылок на свободно распространяемые ресурсы в области Data Science. Я также когда-то сделал подобный набор ссылок Rесурсы, но он уже нуждается в переработке.

Наука и данные

19 Oct, 15:50


Компьютерный анализ текста в R 📖

Уважаемые коллеги,

Ольга Валерьевна Алиева (автор канала RAntiquity) читает курс «Компьютерный анализ текста в R» студентам магистерской программы «Цифровые методы в гуманитарных науках». Курс постоянно дорабатывается, однако уже сейчас это очень ценные материалы, снабженные как полноценным текстом в виде электронной книги, так и видео-материалами.

Подробности можно посмотреть по данной ссылке.

Наука и данные

18 Oct, 08:01


🚨 Уважаемые коллеги, какое-то время новостей на канале Наука и данные не будет. Однако напомню, что существуют каналы, которые могут помочь разобраться с вопросами по R и не только, например:

▫️ R in Action (ru)
▫️ R4marketing | канал Алексея Селезнёва | Язык R
▫️ Статистика и R в науке и аналитике
▫️ RAntiquity

Отмечу также свои недавние TG-открытия в области визуализации данных:

▫️ Data-comics - здесь собраны интересные визуализации, советы, разбор графиков и многое другое от Натальи Киселевой (я не понимаю когда она успевает вести TG-каналы, проводить онлайн-сессии, делать очень интересные курсы!)
▫️ Дата-арт - ссылки на дата-арт проекты
▫️ Датавизнутая - красивые визуализации от редактора инфографики ТАСС

Всем хороших выходных! 👋

Е.Н.

Не скучайте! 🙂

Наука и данные

18 Oct, 07:00


Air Quality Stripes

Идея проекта Air Quality Stripes вдохновлена знаменитыми климатическими полосами Эда Хокинса и показывают изменение загрязнения воздуха твердыми частицами (PM2.5) с 1850 по 2021 год в различных городах по всему миру.

Для РФ, правда, это только Москва и Якутск. Представляю, как бы смотрелись такие графики, скажем, для Братска или Красноярска 🙈.

Наука и данные

17 Oct, 07:02


Inferential Statistics

Inferential Statistics - это страница курса, авторы которой Sahir Bhatnagar и James Hanley, McGill University, Montreal, Canada.

Данный курс дает представление о том, как визуализировать, анализировать и интерпретировать данные, используя статистические методы с помощью R, и далее применять статистические методы в собственных исследованиях. Основная аудитория, по словам авторов курса, это исследователи в области естественных и социальных наук, которые не имеют навыков в статистике.

Такого рода курс может быть вводным и дополнять, например, Introduction to Modern Statistics (2e). Некоторые объяснения и иллюстрации можно взять на вооружение для составления курсов по статистике.

Наука и данные

16 Oct, 07:00


DoubleML

Фреймвок DoubleML для Python и R основан на методе двойного машинного обучения (Double Machine Learning, DML). Базовая ссылка на теоретическую часть - статья Double/debiased machine learning for treatment and structural parameters.

Python-реализация DML создана на основе scikit-learn, а библиотека R - на основе экосистемы mlr3 (см. книгу). DoubleML подходит для разнообразных моделей и позволяет использовать множество ML-алгоритмов. К сожалению, в статье не совсем доступное изложение материала, признаюсь, мне пока довольно трудно судить о сути метода, однако будет интересно вернуться к DoubleML позже.

Наука и данные

15 Oct, 07:00


gitignore

Полезный веб-сервис gitignore.io позволяет генерировать .gitignore-шаблоны в зависимости от используемых операционных систем, IDE и языков программирования. Можно установить функционал в командной строке, тогда записать шаблон в .gitignore достаточно просто, например:


gi r,macos >> .gitignore
git add .
git commit -m "add gitignore! :tada:"


Посмотрите также статью Initialising git repositories with sensible .gitignore files (автор Cynthia Huang).

Если вы еще не используете в своей работе Git, то хорошим началом может стать книга Happy Git and GitHub for the useR.

Я интенсивно использую связку Quarto + Netlify через GitHub Actions так, как это описано в статье Intermediate guide to publish a Quarto website with GitHub & Netlify для настройки автоматизации публикации сайтов Quarto на Netlify. Отмечу, что в процессе такой публикации каталог _site (либо _book и т. п.) не задействуется, мы его отправляем в .gitignore, что существенно сокращает объем коммитов.

Наука и данные

14 Oct, 14:10


#30DayMapChallenge возвращается с 1 ноября.

Это социальный проект, проводимый каждый ноябрь, в котором каждый может попрактиковаться в картировании на ежедневную заданную тему. В этом году очень интересная тематика заданий.

Все подробности тут 👉 30daymapchallenge.com

Наука и данные

14 Oct, 07:01


Math Arxiv Data Map

Красивая карта данных-облако, показывающая публикации в arxiv.org (электронный архив с открытым доступом для препринтов в области математики) с автоматической категоризацией и кластеризацией.

Наука и данные

11 Oct, 07:30


Небольшое полезное напоминание.

Всем хороших выходных! 👋

Наука и данные

11 Oct, 07:00


Полезные расширения Quarto

Издательская система Quarto сама по себе пополняется от версии к версии интересным функционалом, однако, благодаря энтузиастам, уже сейчас насчитывается более 200 различных расширений Quarto! Здесь приведен небольшой сборник некоторых полезных расширений.

📌 Для презентаций Reveal.js:

▫️ countdown - таймер в презентациях
▫️ drop - консоль R или Python в презентациях
▫️ pointer - указатель (нажимаем q для активации)
▫️ embedio - вставка презентаций (и не только) в веб-страницы
▫️ revealjs-codewindow - стилизованные блоки кода
▫️ revealjs-text-resizer - изменение размера текста в Reveal.js-презентациях
▫️ verticator - вертикальная группировка слайдов
▫️ appearance - красивая анимация в презентациях
▫️ spotlight - выделение объектов в слайдах для привлечения внимания
▫️ quiz - опросы в презентациях

📌 Интерактивность в Quarto обеспечивается благодаря HTML-виджетам, Shiny, а также расширениям:
WebR, Pyodide, Shinylive, Quarto Live

📌 Расширения общего характера:

▫️ social-embeds - включение содержимого из социальных сервисов
▫️ social-share - добавление кнопок социальных сервисов на страницу
▫️ qrcode - QR-коды в Quarto
▫️ citetools - расширенные функции библиографии
▫️ now - текущие дата и время
▫️ auto-dark - автоматическое переключение на светлую/темную тему в зависимости от установок ОС
▫️ glossary - добавление глоссария
▫️ bookup-html - формат Quarto для светлой и темной темы

📌 Scrollytelling в Quarto: Closeread + Sverto

📌 Красивые иконки: fontawesome, iconify, academicons; lordicon - анимированные иконки

Помимо официальной страницы с расширениями Quarto, веб-сайт Quarto Extensions, который ведет Mickaël CANOUIL, предоставляет большой список расширений для самых различных нужд.

---
Не бойтесь модифицировать файлы LUA внутри установленных расширений, это позволит расширить функционал (добавить перевод, сделать новую кнопку и т. д.).

Наука и данные

11 Oct, 06:02


Shiny Assistant

Winston Chang анонсировал для всех любителей Shiny + GPT помощник для построения приложений Shiny. Под капотом Claude 3.5 Sonnet.

Наука и данные

10 Oct, 07:02


The brms Book. Applied Bayesian Regression Modelling Using R and Stan

Веб-сайт The brms Book посвящен материалам книги (находящейся пока в разработке) по библиотеке brms. Автором проекта является Paul-Christian Bürkner, который сделал важный вклад в программное обеспечение с открытым исходным кодом.

Напомню, что библиотека brms является высокоуровневым интерфейсом для Stan (state-of-the-art platform for statistical modeling and high-performance statistical computation) - платформы, которая служит для статистического моделирования, анализа данных и прогнозирования в социальных, биологических и физических науках, инженерии, экологии и бизнесе. Непосредственно brms является интерфейсом для подгонки байесовских обобщенных (не)линейных многомерных многоуровневых моделей с использованием Stan, по синтаксису brms схож с синтаксисом библиотеки lme4, предназначенной для смешанного регрессионного анализа.

Наука и данные

09 Oct, 07:01


From Notebooks to Dashboards with Quarto

Материалы и презентации небольшого практического семинара, которые провели Sara Altman и Isabella Velásquez содержат основные идеи того, как начать работу с Quarto и научат создавать дэшборды со статическими и интерактивными функциями, используя воспроизводимый рабочий процесс. Материалы также содержат упражнения.

Весь семинар прошел на основе Python, теперь как-то так, без подобных завлекалок в Posit никак. Конечно, Quarto во многом не зависит от выбора языка программирования, но, скажем, материалов на основе Julia и OJS в Quarto крайне мало.

В качестве дополнения можно почитать блог-пост Quarto dashboard creation and automation, а также посмотреть презентации Quarto Dashboards.

Наука и данные

08 Oct, 06:00


Eine kurze Geschichte der Arbeitszeit ⚒️

Еще один хороший storytelling-проект, описывающий краткую историю рабочего времени (ориентируясь на Австрию), выполнен на R и Quarto. Проект создал Matthias Schnetzer, преподаватель кафедры экономики Венского университета экономики и бизнеса.

Прекрасная работа, замечательные инструменты (библиотека Closeread), интересная история. Единственное, такому исследованию немного не хватает выводов на довольно злободневную в Австрии тему занятости и возможностей ухода за детьми среди женщин.

Наука и данные

07 Oct, 07:00


geocompx.org 🗺️

Для тех, кто использует географические данные в аналитических вычислениях, напомню о существовании ресурса geocompx.org. Основу проекта составляют версии замечательной книги с открытым кодом, написанной с использованием различных языков программирования на основе единого подхода. Такого рода проект прекрасно подходит для изучения и преподавания геовычислений.

▫️ Geocomputation with R (закончено второе издание, например, одно из главных нововведений - использование 4-й версии библиотеки tmap) 🎉

▫️ Geocomputation with Python (книга полностью готова) 💫

▫️ Geocomputation with Julia (новинка! пока в разработке) ⚡️

Наука и данные

05 Oct, 11:08


⚽️ Спортивная аналитика: визуализация данных на R

Я не фанат футбола и спортивной аналитики, но иногда находишь что-то интересное в плане визуализации, да ещё с кодом на R. Рекомендую блог Tony ElHabr, как и его коллекцию визуализаций (в основном футбольных).

#R #ggplot2 #sports_analytics