Latest Posts from Ivan Begtin (@begtin) on Telegram

Ivan Begtin Telegram Posts

Ivan Begtin
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
8,152 Subscribers
2,046 Photos
3 Videos
Last Updated 11.03.2025 07:46

Similar Channels

The Bell
110,093 Subscribers
PLUSHEV/ПЛЮЩЕВ
104,020 Subscribers
Синодов пишет
4,401 Subscribers

The latest content shared by Ivan Begtin on Telegram

Ivan Begtin

27 Feb, 07:49

1,061

В рубрике российской специфики публикации открытых данных я уже немало ранее писал о том что российские практики публикации открытых данных весьма специфичны (с) и значительно отличаются от лучших мировых практик. Например, при публикации датасетов практически не используется спецификация по стандарту schema.org, не используется типовое ПО для публикации датасетов, не используются стандарты такие как DCAT, бывает что и датасеты доступны только после авторизации на Госуслугах.
А вот ещё одна необычная практика, датасеты системы Государственного водного реестра публикуются в виде ZIP файла с цифровой подписью [1]. Я такого ранее не встречал, впервые вижу подобную практику и, честно говоря, не то чтобы осуждаю, но считаю довольно бессмысленной.

Да и сами данные публикуются в этой системе без страниц карточек датасетов, в результате невозможно сослаться на конкретный набор данных, только на страницу всех наборов.

Что тут скажешь, хорошо что хоть что-то публикуют и обновляют данные. Даже если и не особенно любят людей.

Ссылки:
[1] https://gis.favr.ru/web/guest/opendata

#opendata #russia #water #data
Ivan Begtin

26 Feb, 14:22

1,182

В очередной раз отвлекаясь от темы данных, в США вслед за USAID заморожено финансирование NED (National Endowment for Democracy) [1]. Этот фонд был, формально, частный, а де-факто на 95% финансировался средствами выделяемых Конгрессом, а теперь его финансирование приостановлено.

В 2023 году NED распределил $283 миллионов на 1989 проектов в 100 странах [2], информация о них довольно фрагментирована как и за прошлые годы. Гораздо легче найти гранты и контракты NED с Department of State в США, с информацией о том сколько и как фонд получал средств.

Лично у меня остались в архивах только данные о грантах распределённых NED до 2011 года и их получателях, а то есть очень давние данные.

Сложно предположить что что будет с NED далее, начнут ли их ликвидировать как USAID, останется ли веб сайт и тд. Однако для тех кто начнёт изучать их активность, по сути, одним из немногих порталов окажется d-portal.org где средства выделенные NED декомпозированы по странам, но не по организациям получателям [3].

NED, в принципе, никогда не был особенно прозрачным грантодателем. Ещё примерно лет 10-13 назад на их сайте был раздел работы по странам, например, по России [4] где были списки получателей средств из последнего годового отчета (не всех, не за все годы), потом этот раздел исчез и вместо него появились обобщённые страницы макрорегионов без детализации [5]. NED никогда не публиковали информацию о международной помощи на портале IATI [6], впрочем, как я понимаю, это финансирование может быть и не попадает под категорию международной помощи.

В любом случает свежий датасет по проектам финансированным NED, насколько я знаю, в открытом доступе отсутствует.

Всё это о том что непрозрачность - это характеристика многих источников политического финансирования в мире. Если данные NED начнут исчезать также быстро как данные USAID, то важно успеть их сохранить.

Ссылки:
[1] https://www.ned.org/investing-in-freedom-an-introduction-to-the-national-endowment-for-democracy/
[2] https://www.ned.org/2023-annual-report/
[3] https://d-portal.org/ctrack.html?publisher=US-GOV-11#view=act&aid=US-GOV-11-67243
[4] https://web.archive.org/web/20130118073745/http://ned.org/where-we-work/eurasia/russia
[5] https://www.ned.org/region/middle-east-and-northern-africa/
[6] https://iatiregistry.org

#opendata #datasets #usa #spending
Ivan Begtin

26 Feb, 08:29

1,109

Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.

Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies

#opensource #data #datatools #dataviz #genetics #python
Ivan Begtin

25 Feb, 12:00

1,317

В рубрике интересных и малоизвестных наборов данных Multinational Enterprise Information Platform (MEIP) [1] база данных по международным или, как ещё говорят, транснациональным корпорациям. Создана в рамках совместной инициативы OECD и UNSD решением 2015 г. на 46 сессии UNSD [2] в целях повышения понимания и измеримости статистики международной торговли и глобализации.

В открытом доступе находится два датасета: Global Register и Digital Register

Global Register - база дочерних предприятий 500 крупнейших MNP, общим объёмом в 128 тысяч организаций (в версии на конец декабря 2023 г. [3], включая данные о местонахождении, адресах, уникальных идентификаторах LEI и PermID и других метаданных.

Digital Register - база сайтов дочерних предприятий и их pageRank и посещаемости. На конец декабря 2023 г. это около 122 тысяч сайтов [4].

Для тех кто изучает устройство международной торговли датасеты могут быть интересны.

Из минусов - все данные в Excel, обновляются только раз в год.

Ссылки:
[1] https://www.oecd.org/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform.html
[2] https://unstats.un.org/unsd/statcom/46th-session/documents/statcom-2015-46th-report-E.pdf#page=21
[3] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx
[4] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx

#opendata #dataset #data
Ivan Begtin

21 Feb, 13:52

742

Для тех кто изучает данные по криптовалютам и Web3 мы запустили новый каталог открытых данных Crypto Data Hub [1] где можно найти много разных данных по криптовалютам из самых разных источников. Основным источником являются данные сервиса Blockchair [2] которые мы перегруппировали в виде помесячных датасетов, но кроме них есть и другие датасеты и общее их число будет постепенно расти.

Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].

CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на [email protected] и мы будем только рады их добавить в этот каталог.

P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.

Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash

#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs
Ivan Begtin

21 Feb, 11:05

815

В рубрике интересных наборов данных Ransomwhere [1] проект по отслеживанию выплат в криптовалютах шантажистам. Помимо того что данные можно просмотреть на сайте, их также можно скачать в виде датасета [2] и цитировать в научных работах.

В датасете информация о транзакциях включая адреса Bitcoin'а для куда шантажистам переводили средства.

Ссылки:
[1] https://ransomwhe.re
[2] https://zenodo.org/records/13999026

#opendata #datasets #cryptocurrency
Ivan Begtin

21 Feb, 10:07

803

Для тех кто всегда интересовался как глобальные корпорации следят за пользователями, научная статья The New Digital Divide [1] от исследователей из Microsoft о том как они проанализировали данные телеметрии с 40 миллионов компьютеров под управлением Windows в США. Там много разных выводов о том как инфраструктура влияет или не влияет на цифровые навыки и про корреляции между разными показателями.

И это только по данным телеметрии установки ПО и на основе данных по частоте и продолжительности использования настольных приложений.

Ссылки:
[1] https://www.nber.org/papers/w32932

#data #privacy #readings #research #microsoft
Ivan Begtin

21 Feb, 06:36

811

Полезные ссылки про данные, технологии и не только:
- I Have Written You A Book On Forensic Metascience [1] о книге по перепроверке научных работ, книга небольшая и очень практически ориентированная
- GovWayback [2] сервис для простого просмотра сайтов органов власти США до 20 января 2025 года (инаугурации пр-та Трампа). Надстройка над Интернет Архивом, повышающее удобство проверки изменений на этих сайтах
- Kroki. Creates diagrams from textual descriptions! [3] бесплатное API и открытый код по генерации диаграмм и графиков из текстового описания. Поддерживает множество нотаций: BlockDiag (BlockDiag, SeqDiag, ActDiag, NwDiag, PacketDiag, RackDiag), BPMN, Bytefield, C4 (with PlantUML) и многие другие

Ссылки:
[1] https://jamesclaims.substack.com/p/i-have-written-you-a-book-on-forensic
[2] https://govwayback.com/
[3] https://kroki.io

#digitalpreservation #digramming #openaccess
Ivan Begtin

20 Feb, 08:00

2,353

Давно хотел нарисовать диаграмму понятным языком объясняющую как выбирать лицензию для публикуемых датасетов. Вернее, вначале хотел написать текстом разные сценарии, а потом понял что визуально то понятнее.

Так что вот Вам готовая схема для принятия решений убрал только усложняющие пункты типа "Надо всё согласовывать с юристами?" или "Не хотите ни за что отвечать?". Ну да их в какой-нибудь следующей версии

Всё сделано с помощью Mermaid диаграмм декларативным описанием.

#licenses #data #diagrams
Ivan Begtin

19 Feb, 06:43

1,093

Ещё один проект по быстрому созданию приложений на основе датасетов Preswald [1]. С открытым кодом, под лицензией Apache 2.0, вместо low code/no-code пропагандируют принцип Code-First Simplicity (минимальный, но необходимый код), а также декларативное программирование через конфигурацию в toml файлах.

Когда и кому такой инструмент зайдёт? Тем кому нужно быстро визуализировать данные в наглядном виде и предоставлять их в таком виде пользователям. В этом смысле продукт похож чем-то на Observable или Datasette [2] .

На мой взгляд в части демонстрации возможностей инструмента команда как-то сильно недорабатывает, не видно интерактивных демо, а с другой стороны это же просто ещё один инструмент в копилку аналогичных. Возможно, полезный в будущем.

Ссылки:
[1] https://github.com/StructuredLabs/preswald
[2] https://datasette.io

#opensource #datatools