Neueste Beiträge von Ivan Begtin (@begtin) auf Telegram

Ivan Begtin Telegram-Beiträge

Ivan Begtin
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
8,152 Abonnenten
2,046 Fotos
3 Videos
Zuletzt aktualisiert 11.03.2025 07:46

Der neueste Inhalt, der von Ivan Begtin auf Telegram geteilt wurde.

Ivan Begtin

10 Mar, 15:30

499

С Днем архивов!

Ровно год назад мы запустили новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). За этот год мы стремились сохранить и сделать доступными исторические документы о госфинансах и госуправлении и, на наш взгляд, нам это удалось:

- количество документов на сайте Архива превысило 8 тысяч. Мы агрегировали новые источники документов: книги из личного архива А.Л. Кудрина (@AlekseiKudrin) по истории госфинансов, Архив Егора Гайдара и Национальную электронную библиотеку;

- распознали 500 сканов и подготовили 100 новых наборов данных, в основном связанных с государственными бюджетами СССР. Стремимся к созданию временных рядов;

- обогатили метаданными 1500 документов из библиотеки Минфина России и разработали три новых классификатора;

- собрали бюджеты за 1866-1990-е годы и оформили их в виде интерактивного таймлайна (https://finlibrary.ru/s/finarchive/page/timeline). Данные за 12 лет мы пока не нашли и находимся в активном поиске :D (можете нам с этим помочь);

- также в 2024 году мы активно помогали Комитету финансов Санкт-Петербурга (@comfinspb) оцифровать и опубликовать 100 тысяч образов о финансах Санкт-Петербурга за 100 лет, и надеемся, что скоро эти данные будут опубликованы (несмотря на перенос сроков);

- в этом году мы планируем больше взаимодействовать с нашими пользователями - вести телеграм-канал, организовывать конкурс для студентов и взаимодействовать с владельцами документов.
Ivan Begtin

10 Mar, 14:54

564

Этот день – повод напомнить о масштабном проекте Счетной палаты – «Архив». На специальной странице нашего сайта вы можете найти более 3500 оцифрованных проверок СП с 1996 года.
Ivan Begtin

10 Mar, 14:45

693

Для тех кто интересуется тема приватность и AI с точки зрения управления, юридических нюансов в первую очередь, курс AI Governance 2.0 про Регулирование и комплаенс ИИ-систем стартует завтра: в составе 9 преподавателей, 3 менторов, 1 куратора и 16 слушателей.

Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.

#privacy #ai #education #studies
Ivan Begtin

07 Mar, 16:30

918

Для тех кто интересуется данными по культуре Армении и армянской культуре в мире, выложен датасет с 12+ тысячами культурных объектов извлеченный из российского Госкаталога Музейного фонда (goskatalog.ru). Были выгружены объекты у которых местом создания указаны Армения, Армянская ССР или город Ереван

Датасет можно скачать в CSV формате https://data.opendata.am/dataset/goskatlog-armenia и попробовать поработать с этими данными. Сами данные госкаталога можно скачать с сайта opendata.mkrf.ru или в формате Parquet по ссылке. Желающие могут поискать другие культурные объекты, по другим значимым локациям в Армении.

Далее мы будем публиковать в нашем каталоге данных датасеты из других источников: Австралийского проекта Trove и Европейского Europeana, а также сайтов культурных учреждений разных стран.

P.S. Не все российские сайты открываются из Армении поэтому сайт Госкаталога может не открываться, файл с данными в parquet точно будет доступен.

Напоминаем что обсудить датасеты, события и просто поговорить про открытые данные можно в чате @opendataamchat

#opendata #armenia #culture
Ivan Begtin

06 Mar, 11:08

1,120

Вчера и сегодня провожу время на Open Data Day в Армении, вчера у нас был день посвящённый дата журналистике, визуализации и награждению участников конкурса, а сегодня мастер-классы по качеству данных на примере данных проекта Dateno и мастер класс по работе с культурными данными связанными с Арменией.

Про культурные данные в Армении - это гораздо сложнее чем во многих странах поскольку значительное число артефактов истории и культуры связанные с Арменией рассеяны по разным странам и чаще доступны не из Армении, а в Европе, России, Австралии и других странах.

#opendata #opengov #armenia
Ivan Begtin

04 Mar, 06:39

1,253

В рубрике как это устроено у них проект AidData [1] база данных, каталог данных и аналитические сервисы посвящённые международной помощи. Проект в который его создатели много лет в виде отдельных, но связанных баз данных собирали информацию о том как развитые (и не очень) страны помогали развивающимся.

В какой-то момент в проекте сильный акцент появился на китайской международной помощи и несколько баз данных посвящены ей, причём многие данные о китайских проектах извлекаются из разрозненных PDF отчётов вручную. Например, любопытный набор данных по экспорт ИИ из Китая [2]

Их, в том числе, поддерживали USAID и Госдепартамент США в прошлые годы, но это тот случай когда скорее администрация Трампа или поможет или не будет мешать проекту, поскольку он явно всё больше ориентируется на отслеживание активностей Китая.

Данные не самые большие, каталог данных не самый технически продвинутый, но сами данные интересны, особенно тем кто интересуется геополитикой в экономических её проявлениях.

Ссылки:
[1] https://www.aiddata.org
[2] https://www.aiddata.org/data/chinas-ai-exports-database-caied

#opendata #datasets #datacatalogs #china
Ivan Begtin

04 Mar, 06:13

1,016

Для тех кто в Армении в ближайшие дни, напомню что 5 и 6 марта в Армении пройдет Open Data Day, его программа доступна на сайте https://odd.opendata.am и там же можно зарегистрироваться. Это оффлайн митап где основное будет нетворкинг сообщества по открытым данным и несколько мастер-классов о том как работать с данными в примерах.

В частности, я буду 5-го рассказывать про состояние открытых данных в мире и 6-го числа проведу мастер класс по работе с культурными данными.

Напомню что ранее прошёл российский Open Data Day, полностью онлайн. Напомню что записи российского ODD доступны в ВК и YouTube.

#opendata #armenia #data #events #odd
Ivan Begtin

02 Mar, 17:37

1,261

В рубрике как это устроено у них о том как трансформируются научные журналы в сторону работы с данными. Журнал European Journal of Taxonomy открыл портал с данными по биоразнообразию на своём сайте [1]. Портал явным образом интегрирован с проектом GBIF и другими порталами данных в этой области и теперь на нём размещены наборы данных в форме датасетов и инструментов поиска по спискам биоразнообразия.

При этом он реализован не на движке IPT который распространяет GBIF, а неким другим образом, не удивлюсь если это какая-то собственная разработка особенностью которой является представление данных в виде кластеров [2], а также возможности поиска и аналитики.

Фактически журнал переходит от работы со статьями к работе с данными и широким набором инструментов аналитики. Это принципиально иной подход к работе с их аудиторией, исследователями.

В виду специфики темы они работают со специальными форматами данных описываемых в формате MetoTaxa, это так называемый XML-first подход [3] и работа со стандартизированными данными.

Ссылки:
[1] https://europeanjournaloftaxonomy.eu/index.php/ejt/announcement/view/45
[2] https://data.europeanjournaloftaxonomy.eu/occurrence/search/?view=CLUSTERS
[3] https://www.ouvrirlascience.fr/adaptation-of-metopes-for-taxonomy-edition/

#opendata #biodiversity #biology #datacatalogs
Ivan Begtin

01 Mar, 18:17

1,229

Полезный обзор Smallpond [1] свежего движка для обработки больших наборов/массивных потоков данных от Deepseek.

Внутри там DuckDB и автор копается во внутренностях движка объясняя как это работает.

Из интересного - да, это альтернатива Apache Spark или Daft. В общем-то DuckDB приобретает всё большую и большую популярность, встраивается внутрь самых разных инструментов.
Вот теперь ещё и в распределенные базы данных и в распределённую обработку данных.

Ссылки:
[1] https://mehdio.substack.com/p/duckdb-goes-distributed-deepseeks

#data #datatools #deepseek #dataengineering
Ivan Begtin

01 Mar, 17:36

1,921

Мою презентация с сегодняшнего Дня открытых данных в России можно посмотреть онлайн https://www.beautiful.ai/player/-OKHlQrIzuA3Bba4k-Uz

Она была полностью посвящена Dateno и практике поиска датасетов. Это не первая и не последняя моя презентация по этой теме, но как водораздел обновления Dateno до 22 миллионов датасетов.

#opendata #dateno