Наука и данные @naukaidannye Channel on Telegram

Наука и данные

@naukaidannye


Дайджест по полезным и интересным инструментам в науке о данных, машинному обучению и визуализации данных. Создан как записная книжка, которая дополняет страницу https://naukaidannye.netlify.app/

Наука и данные (Russian)

Добро пожаловать в Telegram-канал "Наука и данные"! Если вы увлечены наукой о данных, машинным обучением и визуализацией данных, то этот канал станет вашей лучшей записной книжкой. Здесь вы найдете дайджест по полезным и интересным инструментам в указанных областях. Наша цель - помочь вам быть в курсе последних тенденций и находок в мире науки о данных. Канал "Наука и данные" создан для всех, кто жаждет знаний и стремится к профессиональному росту. Присоединяйтесь к нам, чтобы не упустить важную информацию и делиться своими открытиями и вопросами с единомышленниками. А еще у нас есть сайт, который будет отличным дополнением к нашему каналу: https://naukaidannye.netlify.app/ Здесь вы найдете еще больше полезной информации и ресурсов. Подпишитесь на канал "Наука и данные" и отправьте свой путь к новым знаниям и возможностям в мире науки о данных!

Наука и данные

22 Nov, 08:00


Всем хороших выходных! 👋

Наука и данные

22 Nov, 07:01


2024 Government & Public Sector R Conference

Lander Analytics выложили на YouTube плейлист видео с конференции 2024 Government & Public Sector R Conference | In-Person in Washington DC & Virtual | October 29-30, 2024.

Очень много интересных докладов, рекомендую к просмотру!

Наука и данные

21 Nov, 07:00


stoRy time with Shiny, Quarto, and Google Cloud Run

Umair Durrani рассмотрел свои принципы для создания историй с помощью GenAI, языка R, Quarto, Rest API, Shiny, Google Cloud и Docker.

Его презентация мотивирована Дюной (фильмом и романом), так что если вы хотите постичь искусство stoRytime как Лисан аль-Гаиб эксперт, то эта красивая презентация вам поможет.

Наука и данные

21 Nov, 06:02


Your pal 🤝

Пока у Julia-коллег идут споры о качестве современных LLM, нам (в R) нейросети помогают в выполнять повторяющиеся, трудно автоматизируемые задачи с помощью библиотеки {pal}, которую разрабатывает Simon P. Couch.

Увы, без ANTHROPIC_API_KEY, похоже, не обойтись, однако pal позволяет переписать код под один из префиксов: cli, testthat или roxygen, что уже хорошо.

Наука и данные

20 Nov, 07:00


Psychometrics in Exercises using R and RStudio

Anna Brown - автор книги Psychometrics in Exercises using R and RStudio (Textbook and data resource), которая служит для иллюстрации и отработки основных психометрических методов с использованием языка R. Книга может подойти как в процессе обучения на университетских курсах, так и для самостоятельного изучения в области психологии или любой поведенческой или социальной науки, где необходимо уметь осмысливать свои данные или создавать новые оценки.

Упражнения упорядочены таким образом, что как правило последующие упражнения опираются на предыдущие. Очень интересная тематика, которая использует статистические модели и основана на построении поведенческих индикаторов.
---
Немного дополню мини-обзор на книгу отличным введением, которое написал Юрий Александрович Тукачёв, который лично знаком с автором.

Наука и данные

19 Nov, 07:00


R’s Geospatial Kaleidoscope: Exploring Perspectives, Strengths, and Challenges 🔥

Jakub Nowosad сделал интересный доклад, который касается обзора текущих R-инструментов и перспектив развития в области пространственных данных. Можно посмотреть его прекрасную презентацию, которая охватывает множество тем, начиная от типов данных до различных перспективных направлений. Отличное введение для всех, кто интересуется, как используется язык R в пространственном анализе!

Machine learning approaches for working with spatial data - еще один интересный (хотя и не всеобъемлющий) обзор на основе mlr-подхода от Jacub'а.

Помимо прочего, Jacub в своем блоге (+пост) недавно опубликовал отличную серию статей по сравнению растровых данных (как непрерывных, так и категориальных).

Наука и данные

19 Nov, 06:00


LaTeX by Examples

Небольшая книга LaTeX by Examples, на которую обратил внимание коллега, представляет собой удобный сборник советов и примеров (порой очень классных), оформленный в виде "шпаргалок" по LaTeX.

Наука и данные

18 Nov, 07:01


Shaded Relief Gallery 🗻

Spencer Schien создал большую галерею графических рельефов используя библиотеку {rayshader}, автором которой, как и Rayverse-вселенной библиотек является Tyler Morgan-Wall.

Познакомиться с галереей можно на сайте автора, а посмотреть код в GitHub-репозитории.

Наука и данные

16 Nov, 12:02


Nathan Yau делает отличные визуальные проекты, каждый проект - шедевр! Он использует в своих работах R + D3 + Adobe Illustrator.

Наука и данные

16 Nov, 12:02


Уровень занятости и возраст, больше работы и больше лет!

Новый проект от прекрасного Nathan Yau, посвящен занятости в разрезе пола и возраста. Очень приятно сделаны изменения, когда двигаешь ползунок на диаграмме - легкий шлейф остается от линии!
Такая ненавязчивая анимация и при этом видно исторические данные.

Вообще у него все проекты, по-моему прекрасные. А какой ваш любимый? ☺️

https://flowingdata.com/2024/11/14/employment-decades/

Наука и данные

16 Nov, 09:52


📚 ggplot2 extended

Сайт книги ggplot2 extended от Antti Rask. Посвящена расширению функциональности пакета ggplot2 (Wickham 2024) для R, разработанного Хэдли Викхэмом. С момента появления пакета ggplot2 появилось множество пакетов расширений. Эта книга о том, как их использовать, чтобы извлечь максимум пользы из всей экосистемы ggplot2. Книга предполагает некоторое базовое понимание R и ggplot2.

#R #ggplot2 #ВизуализацияДанных

Наука и данные

15 Nov, 08:01


Всем хороших выходных! 👋

Наука и данные

15 Nov, 07:02


Complex Analysis (A Visual and Interactive Introduction)

Интересный визуальный проект Complex Analysis, который создал Juan Carlos Ponce Campuzano, представляет собой интерактивное введение в теорию функций одного комплексного переменного.

Несмотря на то, что книга не является полным курсом, охватывая лишь некоторые темы (например, здесь мы не увидим вычетов, римановых поверхностей и т. д.), это потрясающее интерактивное дополнение к учебникам ТФКП с великолепными визуальными эффектами, примерами и интуитивным пониманием того, как работает сложный анализ.

Наука и данные

14 Nov, 07:02


Stan Playground

Stan Playground (непосредственно сайт) - это среда для запуска в браузере моделей Stan (см. также пост). Пользователи могут редактировать, компилировать и запускать модели, а также анализировать результаты с помощью графиков и статистики без необходимости локальной установки. Приложение хорошо подходит для образовательных целей, а также для пользователей, которые хотят экспериментировать с моделями Stan в браузере, а не на локальном компьютере.

Посмотрите также доклад Stan without installing Stan? How (and why) to sample inside your browser (Brian Ward).

Наука и данные

13 Nov, 07:01


hexsession

Библиотека {hexsession} позволяет создавать панель с шестиугольными логотипами для каждой загруженной библиотеки в сеансе R (за исключением базовых библиотек). Попробуйте, выглядит красиво.

remotes::install_github("luisdva/hexsession")

hexsession::make_tile()

Наука и данные

12 Nov, 07:01


Shiny GeoApp

Mohsin Ramay создал Shiny-приложение для тех, кто хочет исследовать и загружать административные границы стран и территорий внутри стран, а также климатические переменные. Достаточно указать страну и значение ключа, описывающего административный уровень в территориальной иерархии. Все создано с помощью библиотеки {rgeoboundaries}.

Приложение, безусловно, интересное, но не могу отвечать за точность загружаемых границ и увы, скорость работы страницы может быть низкой.

Наука и данные

11 Nov, 07:01


Study Artifacts and Their Corrections

Книга Study Artifacts and Their Corrections (+видео +Matthew B. Jané блог), по словам авторов, призвана помочь социальным/клиническим/поведенческим/когнитивным исследователям понять природу артефактов исследования, под которыми понимается любой источник методологического загрязнения, который вызывает предвзятость в результатах исследований. Ни одна дисциплина не застрахована от ошибок измерения и эффектов отбора, поэтому важно учитывать эти артефакты в каждой области исследований.

Книга отлично проиллюстрирована примерами и содержат R-код, авторы надеются, что прочтение этой книги даст бесценные идеи и инструменты, которые позволят людям бороться с предвзятостью в наших исследованиях.

Напомню также про книгу Guide to Effect Sizes and Confidence Intervals от этого же авторского коллектива и библиотеку {effectplots}.

Наука и данные

10 Nov, 07:48


10 ноября исполняется 100 лет со дня рождения Михаила Фёдоровича Решетнёва —выдающегося отечественного ученого, конструктора и организатора производства систем информационных космических телекоммуникаций и ракетной техники.

В научных работах М.Ф. Решетнёва получила дальнейшее развитие механика движения твёрдого тела относительно центра масс с присоединенными упругими элементами, создана пассивная магнитно-гравитационная система ориентации, исследовано влияние факторов космического пространства на материалы и механику композиционных материалов.

Среди спутников созданных под руководством М.Ф. Решетнёва наиболее значительными явлениями стали системы спутниковой связи и вещания "Стрела-1" (1964), "Молния-1+" (1967), "Стрела-1М" (1969), "Стрела-2" (1970), "Молния-2" (1971), "Молния-3" (1974), спутник связи "Радуга" (1975), геостационарный спутник прямого телевещания "Экран" (1976), геостационарный спутник связи "Горизонт" (1978), спутник "Радио" (1981), геостационарный спутник-ретранслятор "Поток" (1982), спутники связи "Молния-1Т" (1983) и "Стрела-3" (1985), геостационарный спутник связи "Луч" (1985), военный спутник связи "Радуга-1" (1989), спутник глобальной связи "Гонец-Д1" (1992), геостационарный спутник связи "Экспресс" (1994).

М.Ф. Решетнёв внёс вклад в создание орбитальных группировок спутниковых систем навигации "Циклон" (1967), "Цикада" (1976), "Надежда" (1982), "ГЛОНАСС" (1982) и "Галс" (1994), а также в создание спутниковых систем изучения Земли — геодезических и научно-исследовательских спутников "Вертикальный космический зонд" (1967), "Сфера" (1968), "Ионосферная станция" ("Космос-381", 1970), "Гео-ИК" (1981), "Эталон" (1989).

М.Ф. Решетнёв оказал значительное влияние на создание сибирской научной школы, объединив вокруг себя талантливых учёных, инженеров, разработчиков ракетно-космической техники. Под его руководством была создана материально-техническая база создания новой техники в Сибири с уникальными лабораториями по исследованию и отработке сложных систем и конструкций. Возглавляемое Решетнёвым НПО прикладной механики (ныне АО “Информационные спутниковые системы имени академика М. Ф. Решетнёва”) стало основным отечественным разработчиком и производителем спутников связи, телевещания, навигации и геодезии, и остаётся таковым по сей день.

#история

Наука и данные

08 Nov, 08:01


Всем хороших выходных! 👋

Наука и данные

08 Nov, 07:02


pastum 🔥

Расширение pastum для VS Code/Positron позволяет копировать текстовые таблицы (например, из веб-страниц или Excel) и переносить их в датафреймы в IDE. Расширение аналогично datapasta: pastum добавляет команды в палитру команд и контекстное меню правой кнопки мыши и поддерживает распознавание типов с плавающей точкой, целых чисел и строк.

В значительной степени идея плагина основана на веб-приложении HTML to Dataframe Convener (автор James Balamuta), которое поддерживает Pandas, Tidyverse, Polars и не только.

Установить расширение можно перейдя на отлично оформленный сайт; его автор Анатолий Цыпленков читает комментарии к этому посту, поэтому если у вас есть вопросы и предложения по улучшению и развитию приложения, можно написать тут.

Наука и данные

08 Nov, 06:01


Quarto talks

В преддверии выхода новой версии Quarto были опубликованы на единой веб-странице ссылки на доклады по Quarto на конференции posit::conf(2024).

Также, вышла серия видео докладов от Mine Çetinkaya-Rundel, которая посвящена Quarto Dashboards (см. страницу с презентациями к докладам + GitHub-репозиторий):

Quarto Dashboards 1: Hello, Dashboards!
Quarto Dashboards 2: Components
Quarto Dashboards 3: Theming and Styling

Наука и данные

07 Nov, 11:19


Коллеги, издательство ДМК Пресс устраивает c 8 по 10 ноября хорошую распродажу как электронных (в PDF), так и бумажных книг. Мне кажется, надо пользоваться!

Наука и данные

07 Nov, 11:19


⚡️ Книги по скидке 40%! Дичайшая распродажа! Только до 10 ноября!

Друзья, мы начинаем нашу Черную пятницу! Только до 10 ноября на сайте издательства «ДМК Пресс» будут действовать мои дикие скидки на 40% на PDF и 30% на бумагу! И самое главное, что вы можете купить по этой скидке мою новую книгу «Python: Pandas на практике» (200 упражнений по анализу данных с решениями и пояснениями), которая выйдет в ближайшие недели! (недавно я анонсировал ее на своем канале)

Спешите!!! Скидки действуют на ВСЕ книги издательства "ДМК Пресс", а не только на мои! При покупке обязательно вводите мой промокод:

- на бумагу: Ginko_BlackFriday_2024
- на PDF: Ginko_BlackFriday_PDF_2024

Все мои книги собраны на отдельной странице издательства: https://dmkpress.com/content/authors/8024111/, но вы также можете покупать и любые другие книги, на них тоже будет распространяться скидка!

Скидку вы получите и без моих промокодов, но с ними вы сможете поддержать меня и наш с вами общий канал и внести вклад в мои будущие переводы!

Вот лишь несколько примеров цен на мои книги в Черную пятницу:
1) Подробное руководство по DAX: 2049 руб. >>> 1289 руб.
2) Введение в статистическое обучение с примерами на Python: 2499 руб. >>> 1499 руб.
3) Power Query и язык М. Подробное руководство: 2499 руб. >>> 1499 руб.
4) Python: Pandas на практике: 2599 руб. >>> 1559 руб.

Страница со всеми моими книгами на сайте: https://dmkpress.com/content/authors/8024111/

Наука и данные

07 Nov, 07:01


Geospatial Data Science with Julia

Язык программирования Julia не так популярен как Python или R. Тем не менее, для него также существуют библиотеки для исследования географических данных (растровых и тематических карт, работы с OpenStreetMap и т. д.). Помимо книги Geocomputation with Julia, входящей в цикл geocompx.org, мы можем также следить за прогрессом написания книги Geospatial Data Science with Julia (автор Júlio Hoffimann).

Несмотря на то, что тематика такого рода книг является во многом похожей, на некоторые темы этой книги стоит обратить внимание (например, как реализованы вариограммы в Julia). Последние главы книги будут посвящены приложениям (оценке ресурсов и экономической оценке реального месторождения полезных ископаемых, приложениям к задачам в сельском хозяйстве и нефтяной промышленности), что тоже в своем роде уникально.

Наука и данные

07 Nov, 06:30


WebAssembly roundup

Несомненно, внедрение WebAssembly для R/Python и Quarto имеет огромные перспективы, запуск кода в браузере без установки языка программирования - это большой шаг в мире интерактивности. Мне очень нравится использовать в своих Reveal.js-презентациях плагин {drop}.

George Stagg, как один из главных авторов Wasm-приложений, поделился своим опытом по WebR, Shinylive и Quarto Live в серии недавних публикаций:

WebAssembly roundup part 1: webR 0.4.2
WebAssembly roundup part 2: Shinylive 0.8.0
WebAssembly roundup part 3: Quarto Live 0.1.1

Наука и данные

07 Nov, 06:00


Major Large Language Models (LLMs)

Отлично сделанная с помощью VizSweet интерактивная карта основных больших языковых моделей ранжирована по производительности и параметрам, используемых для обучения, с использованием MMLU (Massive Multitasks Language Understanding) - бенчмарка для оценки возможностей больших языковых моделей.

Наука и данные

06 Nov, 07:00


Introduction to Data Science

Книга Introduction to Data Science представляет собой введение в науку о данных для людей практически без опыта, основываясь на решении базовых задач, получении надежных навыков и простых инструментов. Основу курса этой книги составляет введение в типы данных, программирование на языке R, визуализация и исследовательский анализ данных, последующие главы рассматривают более сложные вопросы предиктивного моделирования и создания интерактивных приложений.

Помимо этой книги, содержащей общие темы, можно обратиться к книге того же автора (Hansjörg Neth, Universität Konstanz) Data Science for Psychologists, которая ориентирована на более подготовленных студентов бакалавриата.

Наука и данные

06 Nov, 06:01


New release of mapsf 🗺️

Всем любителям тематической картографии в R несомненно понравится обновление библиотеки {mapsf}. В библиотеку были добавлены две новые функции: mf_get_borders() и mf_get_pencil() (хотя они и раньше были в предшествующей библиотеке {cartography}). Мне особенно понравилась вторая функция, которая преобразует полигоны в линии, имитируя рисунок карандашом.

Подробно посмотреть с примерами новые возможности mapsf можно посмотреть в блоге R Geomatic (автор Timothée Giraud).

Наука и данные

05 Nov, 07:01


Efficient Machine Learning with R (Low-Compute Predictive Modeling with tidymodels)

Мета-библиотека {tidymodels} языка R становится все популярнее, уже несколько книг в той или иной мере используют ее:

📙 Tidy Modeling with R
📙 Feature Engineering A-Z
📙 Supervised Machine Learning for Text Analysis in R
📙 Applied Machine Learning for Tabular Data

...и вот еще одна книга, за прогрессом написания которой будем наблюдать: Efficient Machine Learning with R, автор - Simon P. Couch, блог которого во многом посвящен tidymodels.

Основная цель книги - оптимизация моделей машинного обучения на основе эффективных адаптаций движка, выбора моделей, предобработки данных, параллельных вычислений и т. д.

Наука и данные

02 Nov, 10:04


rsi — загрузка данных из STAC и расчет спектральных индексов [ссылка]

Пакет rsi (от __r__epeated __s__patial __i__nfelicities) предоставляет пользователю:

- Интерфейс к проекту Awesome Spectral Indices project, который содержит список спектральных индексов в виде таблицы tibble.
- Метод эффективного вычисления этих спектральных индексов.
- Метод загрузки данных с любого сервера STAC, с дополнительными настройками для загрузки популярных данных Landsat, Sentinel-1 и Sentinel-2 с бесплатных и публичных серверов STAC.
- Метод объединения нескольких растров, содержащих различные наборы данных, в единый растровый стек.

Функция spectral_indices() возвращает таблицу спектральных индексов.

Функция get_stac_data() позволяет загружать изображения из любого доступного каталога STAC. Например, можно загрузить композит каналов Landsat с маской облачности:

aoi <- sf::st_point(c(-74.912131, 44.080410))
aoi <- sf::st_set_crs(sf::st_sfc(aoi), 4326)
aoi <- sf::st_buffer(sf::st_transform(aoi, 5070), 1000)

landsat_image <- get_stac_data(
aoi,
start_date = "2022-06-01",
end_date = "2022-06-30",
pixel_x_size = 30,
pixel_y_size = 30,
asset_names = c("red", "blue", "green"),
stac_source = "https://planetarycomputer.microsoft.com/api/stac/v1/",
collection = "landsat-c2-l2",
mask_band = "qa_pixel",
mask_function = landsat_mask_function,
output_filename = tempfile(fileext = ".tif"),
item_filter_function = landsat_platform_filter,
platforms = c("landsat-9", "landsat-8")
)


Для популярных данных, например для снимков Landsat, есть отдельные функции, где большинство параметров настроено по умолчанию:

landsat_image <- get_landsat_imagery(
aoi,
start_date = "2022-06-01",
end_date = "2022-06-30",
output_filename = tempfile(fileext = ".tif")
)


По умолчанию, данные загружаются из Microsoft's Planetary Computer API.

Теперь на основе полученных каналов снимков Landsat рассчитаем спектральные индексы при помощи calculate_indices():

indices <- calculate_indices(
landsat_image,
available_indices,
output_filename = tempfile(fileext = ".tif")
)


Наконец, в rsi есть утилита для эффективного объединения растров, содержащих различные данные об одном и том же месте, в VRT, что позволяет программам типа GDAL рассматривать эти отдельные источники данных как единый файл.

Например, мы можем объединить наши снимки Landsat с полученными индексами:

raster_stack <- stack_rasters(
c(landsat_image, indices),
tempfile(fileext = ".vrt")
)


#R #индексы

Наука и данные

02 Nov, 08:01


Posit:conf(2024) video 📺

Конференция Posit:conf(2024) давно закончилась, про материалы конференции уже был пост, теперь вышли видео материалы на YouTube, всего более 100 докладов!

Наука и данные

02 Nov, 07:01


Closeread Prize - Scrollytelling with Quarto

Posit проводит множество различных конкурсов, например, только что закончился Shiny Contest 2024, и вот совершенно новый! Andrew Bray и James Goldie придумали конкурс на основе авторской библиотеки Closeread, позволяющей делать scrollytelling-страницы в Quarto.

Идея scrollytelling заключается в том, чтобы выстраивать сюжетную линию слой за слоем, увеличивая масштаб или выделяя ключевые моменты во время прокрутки страницы.

Работы принимаются до 15 декабря, посмотреть Closeread-примеры можно на страницах:

▫️ Closeread Gallery
▫️ The Grand Narrative of World Exhibitions (Georgios Karamanis)
▫️ Eine kurze Geschichte der Arbeitszeit (Matthias Schnetzer)
▫️ English Monarchs and Marriages (Nicola Rennie)

Напомню про канал Натальи Киселевой в той или иной мере касающийся данных и сторителлинга.

Наука и данные

01 Nov, 08:01


Полностью согласен с автором оптимистичного твита с дельфином!

Всем хороших выходных! 👋

Наука и данные

01 Nov, 07:50


Уже попробовал в действии ChatGPT search. :)

Наука и данные

01 Nov, 07:00


Сайт Curbcut (авторы David Wachsmuth и Maxime Bélanger de Blois) стал победителем Shiny Contest 2024! 🎉

Это платформа для интерактивной визуализации геоданых и анализа устойчивости городов на примере Монреаля. Страница отображает широкий спектр курируемых аналитических модулей, соответствующих различным ключевым проблемам и вопросам устойчивости, сгруппированным под заголовками «Климат», «Демография», «Экология», «Экономика», «Здравоохранение», «Жилье», «Землепользование», «Ресурсы», «Транспорт» и «Городская жизнь».

Веб-сайт демонстрирует впечатляющий анализ и визуализацию в различных пространственных и временных переменных на основе многомерной архитектуры данных в интуитивно понятной форме.

Очень рекомендую статью, которая подобно рассказывает не только про сайт, но и про ключевые принципы реализации такого рода приложений (+GitHub репозиторий).

Наука и данные

31 Oct, 07:00


Data Science Workflows in R (An introduction to deploying production quality R code)

Dean Marchiori - сопредседатель секции статистических вычислений и визуализации Статистического общества Австралии и автор небольшого блога, пишет книгу Data Science Workflows in R, предварительная версия которой доступна онлайн. Книга задумана как вводное руководство для пользователей R, целью которого является иллюстрация современных инструментов и фреймворков, а также передовых практик надежного программного обеспечения производственного уровня. Первоначально книга была разработана в качестве учебных материалов для семинаров по разработке кода на R и для MLOps.

Данную книгу может дополнить доклад R in Production (Hadley Wickham) и книга Building reproducible analytical pipelines with R + курс (Bruno Rodrigues).

Наука и данные

30 Oct, 07:00


Parameterized plots and reports with R and Quarto

Nicola Rennie провела в рамках R/Pharma Conference практический семинар Parameterized plots and reports with R and Quarto.

Запись семинара будет доступна на YouTube, а материалы можно посмотреть на странице семинара, включая презентации, примеры, упражнения и список источников.

Бонус: видео автора Introduction to Machine Learning with {tidymodels} + Styling Quarto PDFs with Typst.

Отмечу пару новинок для Quarto: {quartize} и {froggeR}.

Наука и данные

30 Oct, 07:00


Writing Better R Code

Nicola Rennie (Lancaster Medical School) на семинаре Writing Better R Code рассмотрела советы и приемы о том, как писать такой код R, который легче читается и воспринимается, код, которым легче делиться с другими на основе Git, а также как организовывать проекты в R.

Материалы разбиты на две части:

1️⃣ организация рабочего процесса R, где рассматриваются общие вопросы создания R-проектов, стилизация кода, организация скриптов R;

2️⃣ отслеживание изменений и совместная работа над кодом: начало работы с Git и GitHub в RStudio, создание и работа с Git-репозиторием.

Страница семинара также содержит презентации, примеры, упражнения и список источников.

Наука и данные

29 Oct, 07:02


IDE Positron обзавелся отдельным веб-сайтом.

Positron обладает как многими плюсами

- поддержка нескольких языков программирования
- доступность многих расширений VS Code от Open VSX
- рисунки в табах
- Data Explorer позволяет отображать данные и предоставлять сводную статистику внутри Positron
- панель Connections Pane позволяет управлять соединениями с базой данных, созданными в сеансах R или Python

так и некоторыми минусами, которые можно обсудить на странице дискуссий, например

- нет многих возможностей RStudio
- нет возможности последовательно отображать исполнение кода в Quarto и RMarkdown как в Jupyter-ноутбуках

Несколько обзоров Positron:

▫️ Fun with Positron (Andrew Heiss)
▫️ R package development in Positron (Stephen Turner)
▫️ First look at Positron, exploring orca encounters (Julia Silge)
▫️ Positron IDE by Posit (James Balamuta)
▫️ Download, set up and customize Positron for R on Windows 11 (Milos Popovic)
▫️ Developing C/C++ code for R with Positron (Tyler Morgan-Wall)

Наука и данные

28 Oct, 07:30


Student creations: A curated collection

Я считаю, что лучшим результатом любого курса являются не отзывы, а работы студентов. Yan Holtz организовал курс Productive R Workflow, в рамках которого мы уже видели его замечательные советы по Quarto.

Несколько веб-страниц выпускников его курса, выполненых в Quarto, можно посмотреть в галерее на странице Student creations, при этом результаты выглядят очень и очень неплохо.

Отмечу, что Quarto 1.6 уже приобрел статус Release Candidate.

Наука и данные

28 Oct, 07:02


ASA Statistical Computing and Graphics Award 2025 🏆

Hadley Wickham - живая легенда и классик, автор принципов, на основе которых развивается tidy-вселенная библиотек (что по некоторым оценкам составляет около 40% CRAN), автор прекрасных книг, превосходный лектор, был удостоен премии Американской статистической ассоциации в области статистических вычислений и графики за 2025 год. Заслуженная награда, которая подчеркивает его вклад в разработку инструментов с открытым исходным кодом!

Награда будет вручена на Joint Statistical Meetings 2025 года в Нэшвилле, штат Теннесси.

Наука и данные

19 Oct, 15:51


Data Science Resources 🔥

Nicola Rennie сделала замечательный сайт Data Science Resources с наборами ссылок на свободно распространяемые ресурсы в области Data Science. Я также когда-то сделал подобный набор ссылок Rесурсы, но он уже нуждается в переработке.

Наука и данные

19 Oct, 15:50


Компьютерный анализ текста в R 📖

Уважаемые коллеги,

Ольга Валерьевна Алиева (автор канала RAntiquity) читает курс «Компьютерный анализ текста в R» студентам магистерской программы «Цифровые методы в гуманитарных науках». Курс постоянно дорабатывается, однако уже сейчас это очень ценные материалы, снабженные как полноценным текстом в виде электронной книги, так и видео-материалами.

Подробности можно посмотреть по данной ссылке.

Наука и данные

18 Oct, 08:01


🚨 Уважаемые коллеги, какое-то время новостей на канале Наука и данные не будет. Однако напомню, что существуют каналы, которые могут помочь разобраться с вопросами по R и не только, например:

▫️ R in Action (ru)
▫️ R4marketing | канал Алексея Селезнёва | Язык R
▫️ Статистика и R в науке и аналитике
▫️ RAntiquity

Отмечу также свои недавние TG-открытия в области визуализации данных:

▫️ Data-comics - здесь собраны интересные визуализации, советы, разбор графиков и многое другое от Натальи Киселевой (я не понимаю когда она успевает вести TG-каналы, проводить онлайн-сессии, делать очень интересные курсы!)
▫️ Дата-арт - ссылки на дата-арт проекты
▫️ Датавизнутая - красивые визуализации от редактора инфографики ТАСС

Всем хороших выходных! 👋

Е.Н.

Не скучайте! 🙂

Наука и данные

18 Oct, 07:00


Air Quality Stripes

Идея проекта Air Quality Stripes вдохновлена знаменитыми климатическими полосами Эда Хокинса и показывают изменение загрязнения воздуха твердыми частицами (PM2.5) с 1850 по 2021 год в различных городах по всему миру.

Для РФ, правда, это только Москва и Якутск. Представляю, как бы смотрелись такие графики, скажем, для Братска или Красноярска 🙈.

Наука и данные

17 Oct, 07:02


Inferential Statistics

Inferential Statistics - это страница курса, авторы которой Sahir Bhatnagar и James Hanley, McGill University, Montreal, Canada.

Данный курс дает представление о том, как визуализировать, анализировать и интерпретировать данные, используя статистические методы с помощью R, и далее применять статистические методы в собственных исследованиях. Основная аудитория, по словам авторов курса, это исследователи в области естественных и социальных наук, которые не имеют навыков в статистике.

Такого рода курс может быть вводным и дополнять, например, Introduction to Modern Statistics (2e). Некоторые объяснения и иллюстрации можно взять на вооружение для составления курсов по статистике.

Наука и данные

16 Oct, 07:00


DoubleML

Фреймвок DoubleML для Python и R основан на методе двойного машинного обучения (Double Machine Learning, DML). Базовая ссылка на теоретическую часть - статья Double/debiased machine learning for treatment and structural parameters.

Python-реализация DML создана на основе scikit-learn, а библиотека R - на основе экосистемы mlr3 (см. книгу). DoubleML подходит для разнообразных моделей и позволяет использовать множество ML-алгоритмов. К сожалению, в статье не совсем доступное изложение материала, признаюсь, мне пока довольно трудно судить о сути метода, однако будет интересно вернуться к DoubleML позже.

Наука и данные

15 Oct, 07:00


gitignore

Полезный веб-сервис gitignore.io позволяет генерировать .gitignore-шаблоны в зависимости от используемых операционных систем, IDE и языков программирования. Можно установить функционал в командной строке, тогда записать шаблон в .gitignore достаточно просто, например:


gi r,macos >> .gitignore
git add .
git commit -m "add gitignore! :tada:"


Посмотрите также статью Initialising git repositories with sensible .gitignore files (автор Cynthia Huang).

Если вы еще не используете в своей работе Git, то хорошим началом может стать книга Happy Git and GitHub for the useR.

Я интенсивно использую связку Quarto + Netlify через GitHub Actions так, как это описано в статье Intermediate guide to publish a Quarto website with GitHub & Netlify для настройки автоматизации публикации сайтов Quarto на Netlify. Отмечу, что в процессе такой публикации каталог _site (либо _book и т. п.) не задействуется, мы его отправляем в .gitignore, что существенно сокращает объем коммитов.

Наука и данные

14 Oct, 14:10


#30DayMapChallenge возвращается с 1 ноября.

Это социальный проект, проводимый каждый ноябрь, в котором каждый может попрактиковаться в картировании на ежедневную заданную тему. В этом году очень интересная тематика заданий.

Все подробности тут 👉 30daymapchallenge.com

Наука и данные

14 Oct, 07:01


Math Arxiv Data Map

Красивая карта данных-облако, показывающая публикации в arxiv.org (электронный архив с открытым доступом для препринтов в области математики) с автоматической категоризацией и кластеризацией.

Наука и данные

11 Oct, 07:30


Небольшое полезное напоминание.

Всем хороших выходных! 👋

Наука и данные

11 Oct, 07:00


Полезные расширения Quarto

Издательская система Quarto сама по себе пополняется от версии к версии интересным функционалом, однако, благодаря энтузиастам, уже сейчас насчитывается более 200 различных расширений Quarto! Здесь приведен небольшой сборник некоторых полезных расширений.

📌 Для презентаций Reveal.js:

▫️ countdown - таймер в презентациях
▫️ drop - консоль R или Python в презентациях
▫️ pointer - указатель (нажимаем q для активации)
▫️ embedio - вставка презентаций (и не только) в веб-страницы
▫️ revealjs-codewindow - стилизованные блоки кода
▫️ revealjs-text-resizer - изменение размера текста в Reveal.js-презентациях
▫️ verticator - вертикальная группировка слайдов
▫️ appearance - красивая анимация в презентациях
▫️ spotlight - выделение объектов в слайдах для привлечения внимания
▫️ quiz - опросы в презентациях

📌 Интерактивность в Quarto обеспечивается благодаря HTML-виджетам, Shiny, а также расширениям:
WebR, Pyodide, Shinylive, Quarto Live

📌 Расширения общего характера:

▫️ social-embeds - включение содержимого из социальных сервисов
▫️ social-share - добавление кнопок социальных сервисов на страницу
▫️ qrcode - QR-коды в Quarto
▫️ citetools - расширенные функции библиографии
▫️ now - текущие дата и время
▫️ auto-dark - автоматическое переключение на светлую/темную тему в зависимости от установок ОС
▫️ glossary - добавление глоссария
▫️ bookup-html - формат Quarto для светлой и темной темы

📌 Scrollytelling в Quarto: Closeread + Sverto

📌 Красивые иконки: fontawesome, iconify, academicons; lordicon - анимированные иконки

Помимо официальной страницы с расширениями Quarto, веб-сайт Quarto Extensions, который ведет Mickaël CANOUIL, предоставляет большой список расширений для самых различных нужд.

---
Не бойтесь модифицировать файлы LUA внутри установленных расширений, это позволит расширить функционал (добавить перевод, сделать новую кнопку и т. д.).

Наука и данные

11 Oct, 06:02


Shiny Assistant

Winston Chang анонсировал для всех любителей Shiny + GPT помощник для построения приложений Shiny. Под капотом Claude 3.5 Sonnet.

Наука и данные

10 Oct, 07:02


The brms Book. Applied Bayesian Regression Modelling Using R and Stan

Веб-сайт The brms Book посвящен материалам книги (находящейся пока в разработке) по библиотеке brms. Автором проекта является Paul-Christian Bürkner, который сделал важный вклад в программное обеспечение с открытым исходным кодом.

Напомню, что библиотека brms является высокоуровневым интерфейсом для Stan (state-of-the-art platform for statistical modeling and high-performance statistical computation) - платформы, которая служит для статистического моделирования, анализа данных и прогнозирования в социальных, биологических и физических науках, инженерии, экологии и бизнесе. Непосредственно brms является интерфейсом для подгонки байесовских обобщенных (не)линейных многомерных многоуровневых моделей с использованием Stan, по синтаксису brms схож с синтаксисом библиотеки lme4, предназначенной для смешанного регрессионного анализа.

Наука и данные

09 Oct, 07:01


From Notebooks to Dashboards with Quarto

Материалы и презентации небольшого практического семинара, которые провели Sara Altman и Isabella Velásquez содержат основные идеи того, как начать работу с Quarto и научат создавать дэшборды со статическими и интерактивными функциями, используя воспроизводимый рабочий процесс. Материалы также содержат упражнения.

Весь семинар прошел на основе Python, теперь как-то так, без подобных завлекалок в Posit никак. Конечно, Quarto во многом не зависит от выбора языка программирования, но, скажем, материалов на основе Julia и OJS в Quarto крайне мало.

В качестве дополнения можно почитать блог-пост Quarto dashboard creation and automation, а также посмотреть презентации Quarto Dashboards.

Наука и данные

08 Oct, 06:00


Eine kurze Geschichte der Arbeitszeit ⚒️

Еще один хороший storytelling-проект, описывающий краткую историю рабочего времени (ориентируясь на Австрию), выполнен на R и Quarto. Проект создал Matthias Schnetzer, преподаватель кафедры экономики Венского университета экономики и бизнеса.

Прекрасная работа, замечательные инструменты (библиотека Closeread), интересная история. Единственное, такому исследованию немного не хватает выводов на довольно злободневную в Австрии тему занятости и возможностей ухода за детьми среди женщин.

Наука и данные

07 Oct, 07:00


geocompx.org 🗺️

Для тех, кто использует географические данные в аналитических вычислениях, напомню о существовании ресурса geocompx.org. Основу проекта составляют версии замечательной книги с открытым кодом, написанной с использованием различных языков программирования на основе единого подхода. Такого рода проект прекрасно подходит для изучения и преподавания геовычислений.

▫️ Geocomputation with R (закончено второе издание, например, одно из главных нововведений - использование 4-й версии библиотеки tmap) 🎉

▫️ Geocomputation with Python (книга полностью готова) 💫

▫️ Geocomputation with Julia (новинка! пока в разработке) ⚡️

Наука и данные

05 Oct, 11:08


⚽️ Спортивная аналитика: визуализация данных на R

Я не фанат футбола и спортивной аналитики, но иногда находишь что-то интересное в плане визуализации, да ещё с кодом на R. Рекомендую блог Tony ElHabr, как и его коллекцию визуализаций (в основном футбольных).

#R #ggplot2 #sports_analytics