#opendatadata #opendata #culturalheritage
Посты канала Ivan Begtin

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.
Founder of Dateno https://dateno.io
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Founder of Dateno https://dateno.io
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
8,152 подписчиков
2,046 фото
3 видео
Последнее обновление 11.03.2025 07:46
Похожие каналы

25,051 подписчиков

11,531 подписчиков

2,251 подписчиков
Последний контент, опубликованный в Ivan Begtin на Telegram
А сейчас выступает Мария Сысоева с докладом Музейные данные: реализация просветительской функции, это будет особенно интересно для тех кто работает с данными о культурном наследии. А до этого было выступление Татьяны Максимовой о данных в генеалогии, её презентация доступна https://t.me/mskopendataday/2792 и видеозапись тоже скоро появится.
#opendatadata #opendata #culturalheritage
#opendatadata #opendata #culturalheritage
А сейчас на ODD выступает Ирина Дворецкая с докладом Фрагментарность открытых данных об образовании и их диспропорция.
Напомню что посмотреть трансляцию Дня открытых данных 2025 в ВК или YouTube.
#opendata #education #russia #opendataday
Напомню что посмотреть трансляцию Дня открытых данных 2025 в ВК или YouTube.
#opendata #education #russia #opendataday
Рубрика "Циничная открытость"
Сегодня, в Международный День Открытых Данных, почти через два года после закрытия послекапитального ремонта реставрации переноса на платформу "Гостех" снова открылся Портал открытых данных РФ
Сегодня, в Международный День Открытых Данных, почти через два года после закрытия после
Всем привет! Напоминаю, что сегодня начинается российский День открытых данных https://opendataday.ru/msk в 11:00 по Москве (UTC+3)
Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)
Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.
Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.
#opendataday #opendata #data #datasets #events
Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)
Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.
Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.
#opendataday #opendata #data #datasets #events
Я не пропустил совсем новость о том что Пр-во России анонсировало национальный проект "Экономика данных и цифровая трансформация государства" на который предполагается что потратят более 1 триллиона рублей до 2030 года [1], но долго думал как прокомментировать.
Меня в этом проекте всегда смущало слово экономика, оно как бы неявно, завуалировано, так сказать, создавало ощущение что где-то здесь, вот тут вот, совсем рядом, надо только вчитаться, но есть экономический эффект, оценка оборота данных, снижение регуляторных барьеров и так далее. Иначе говоря моделирование регуляторного и деятельностного пространства. И, конечно, введение в оборот большего числа/объёма данных находящихся в введении органов власти или напрямую ими регулируемых.
Я долго это искал в нацпроекте Цифровая экономика, но не мог найти. И сейчас не могу найти в новом нац проекте. А вот цифровая трансформация государства представлена в полной мере, здесь вопросов нет, здесь всё понятно.
И, конечно, как всегда, не могу не отметить отсутствие тематики открытых данных в официальной государственной повестке. Это не значит что их нет, это значит что их приоритет улетел куда-то, далеко улетел, но не совсем.
Но давайте я немного отвлекусь. Не все знают, а я напомню, что большая часть Bigtech'ов (Google/Amazon/Microsoft/Facebook) - это дата корпорации. Многие из них легко делятся технологиями и выкладывают их в открытый код потому что для всех из них (кроме разве что Microsoft) данные - это основной актив, важнейший актив. Большая часть из них живут по принципу DINDO (Data-in-no-data-out), по-русски это звучит как "Данные входят, данные не выходят".
Особенность российского регулирования данных и основных инициатив, на текущем этапе, в том что российское государство трансформируется в data корпорацию, в первую очередь на федеральном уровне. Медленнее чем можно было бы подумать, тяжелее чем можно было представить, но последовательнее чем можно было бы ожидать.
Это приводит всех нас в ситуацию когда, к примеру, запрос от бизнеса на государственные данные приводит к контр-вопросу "А Вы нам что?". Государство из распределителя общественного блага превращается в супер-дата-корпорацию не заинтересованную делиться данными потому что, вспоминаем, это ценный актив.
Это уникальное для мира явление и лично мне не нравится эта тенденция. В каждой новой инициативе я пытаюсь разглядеть отход от движения в эту сторону и пока не вижу.
Ссылки:
[1] https://tinyurl.com/data-economy-2025
#data #russia #regulation
Меня в этом проекте всегда смущало слово экономика, оно как бы неявно, завуалировано, так сказать, создавало ощущение что где-то здесь, вот тут вот, совсем рядом, надо только вчитаться, но есть экономический эффект, оценка оборота данных, снижение регуляторных барьеров и так далее. Иначе говоря моделирование регуляторного и деятельностного пространства. И, конечно, введение в оборот большего числа/объёма данных находящихся в введении органов власти или напрямую ими регулируемых.
Я долго это искал в нацпроекте Цифровая экономика, но не мог найти. И сейчас не могу найти в новом нац проекте. А вот цифровая трансформация государства представлена в полной мере, здесь вопросов нет, здесь всё понятно.
И, конечно, как всегда, не могу не отметить отсутствие тематики открытых данных в официальной государственной повестке. Это не значит что их нет, это значит что их приоритет улетел куда-то, далеко улетел, но не совсем.
Но давайте я немного отвлекусь. Не все знают, а я напомню, что большая часть Bigtech'ов (Google/Amazon/Microsoft/Facebook) - это дата корпорации. Многие из них легко делятся технологиями и выкладывают их в открытый код потому что для всех из них (кроме разве что Microsoft) данные - это основной актив, важнейший актив. Большая часть из них живут по принципу DINDO (Data-in-no-data-out), по-русски это звучит как "Данные входят, данные не выходят".
Особенность российского регулирования данных и основных инициатив, на текущем этапе, в том что российское государство трансформируется в data корпорацию, в первую очередь на федеральном уровне. Медленнее чем можно было бы подумать, тяжелее чем можно было представить, но последовательнее чем можно было бы ожидать.
Это приводит всех нас в ситуацию когда, к примеру, запрос от бизнеса на государственные данные приводит к контр-вопросу "А Вы нам что?". Государство из распределителя общественного блага превращается в супер-дата-корпорацию не заинтересованную делиться данными потому что, вспоминаем, это ценный актив.
Это уникальное для мира явление и лично мне не нравится эта тенденция. В каждой новой инициативе я пытаюсь разглядеть отход от движения в эту сторону и пока не вижу.
Ссылки:
[1] https://tinyurl.com/data-economy-2025
#data #russia #regulation
А вот и ещё одно последствие от стремительной резки фед. бюджета США Трампом/Маском. Mozilla рассылают письма пожертвовать им денег потому что опасаются потери $3.55 миллионов грантовых средств на несколько проектов. Это Mozilla’s Responsible Computing Challenge и Mozilla Common Voice. Первая программа касалась развивающихся стран, весь мир точно не затрагивает. А вот Mozilla Common Voice жаль, будем надеяться что будут другие источники финансирования.
#mozilla #spending #datasets
#mozilla #spending #datasets
Мы знаем, что вы ждали этот день!
Второй Международный День Открытых Данных в Армении состоится уже 5-6 марта.
Программа очень насыщенная: подведем итоги Конкурса Открытых Данных (сегодня последний день подачи заявок!), обсудим последние тренды в развитии открытых данных, научимся некоторым техникам сбора и обработки открытых данных и вместе поразмышляем, как сделать открытые данные более полезными для Армении и глобального армянского наследия.
📅 Дата: 5-6 марта, 14:00-18:00
📍 Место: Центр ISTC (Ереван, ул. Алека Манукяна 1/7, 7-й этаж)
🔗 Программа и регистрация: https://odd.opendata.am/am
Регистрируйтесь, приходите и приводите неравнодушных друзей – аналитиков, исследователей, журналистов, культурологов, филологов, активистов, чиновников.
Второй Международный День Открытых Данных в Армении состоится уже 5-6 марта.
Программа очень насыщенная: подведем итоги Конкурса Открытых Данных (сегодня последний день подачи заявок!), обсудим последние тренды в развитии открытых данных, научимся некоторым техникам сбора и обработки открытых данных и вместе поразмышляем, как сделать открытые данные более полезными для Армении и глобального армянского наследия.
📅 Дата: 5-6 марта, 14:00-18:00
📍 Место: Центр ISTC (Ереван, ул. Алека Манукяна 1/7, 7-й этаж)
🔗 Программа и регистрация: https://odd.opendata.am/am
Регистрируйтесь, приходите и приводите неравнодушных друзей – аналитиков, исследователей, журналистов, культурологов, филологов, активистов, чиновников.
Свежий полезный инструмент smallpond [1] от команды DeepSeek AI для тех кто работает с данными большого объёма и с необходимостью их распределения. Под капотом у него DuckDB и 3FS [2], другая разработка от DeepSeek AI в виде распределённой файловой системы с оптимизацией под обучение ИИ.
Ключевое - масштабируемость до петабайтных датасетов. Думаю что полезно для всех датасетов начиная с 1 ТБ и с масштабированием, а для данных объёмом поменьше уже будет избыточно.
Ссылки:
[1] https://github.com/deepseek-ai/smallpond
[2] https://github.com/deepseek-ai/3FS
#opensource #data #datatools
Ключевое - масштабируемость до петабайтных датасетов. Думаю что полезно для всех датасетов начиная с 1 ТБ и с масштабированием, а для данных объёмом поменьше уже будет избыточно.
Ссылки:
[1] https://github.com/deepseek-ai/smallpond
[2] https://github.com/deepseek-ai/3FS
#opensource #data #datatools
Для тех кто думает о том как AI и конкретно LLM меняют журналистику выступление [1] Katie Koschland из Financial Times в Великобритании о том как они реорганизовали работу редакции и создали внутренний инструмент подготовки статей.
Там про их внутренний инструмент Scoop который они используют для того чтобы подготавливать черновики текстов, но так чтобы они были максимально похожи на ранее написанные тексты FT.
Оптимистичное в её презентации то что без человека не обойтись, потому что этика и нюансы, но, мы то понимаем что конечно, со временем, обойтись получится если не совсем, то резко сокращая стоимость создания и поддержания редакции.
Ссылки:
[1] https://www.youtube.com/watch?v=6UkEFuLSoh4
#datajournalism #aijournalism #data #ai
Там про их внутренний инструмент Scoop который они используют для того чтобы подготавливать черновики текстов, но так чтобы они были максимально похожи на ранее написанные тексты FT.
Оптимистичное в её презентации то что без человека не обойтись, потому что этика и нюансы, но, мы то понимаем что конечно, со временем, обойтись получится если не совсем, то резко сокращая стоимость создания и поддержания редакции.
Ссылки:
[1] https://www.youtube.com/watch?v=6UkEFuLSoh4
#datajournalism #aijournalism #data #ai
Напоминаю что день открытых данных в России пройдёт 1 марта, в эту субботу, совсем скоро и что его программа уже доступна https://opendataday.ru/msk
У нас 8 выступающих в этом году, по разным темам, большая часть из которых связаны с научными исследованиями и популяризацией работы с данными для исследователей.
Я тоже буду там выступать и расскажу про поиск открытых данных с помощью Dateno
Напомню что день открытых данных проходит по всему миру между 1 и 7 марта, в России он пройдет 1 марта в онлайн формате.
А вскоре я напишу подробности про день открытых данных в Армении который пройдет оффлайн.
#opendata #opendataday #events #data
У нас 8 выступающих в этом году, по разным темам, большая часть из которых связаны с научными исследованиями и популяризацией работы с данными для исследователей.
Я тоже буду там выступать и расскажу про поиск открытых данных с помощью Dateno
Напомню что день открытых данных проходит по всему миру между 1 и 7 марта, в России он пройдет 1 марта в онлайн формате.
А вскоре я напишу подробности про день открытых данных в Армении который пройдет оффлайн.
#opendata #opendataday #events #data