Представляем вам Российскую базу бухгалтерской отчетности (РББО, RFSD) — первую открытую альтернативу СПАРК-Интерфакс, Ruslana, Контур.Фокус и СБИС. До сих пор исследователям приходилось покупать доступ к данным, формировать выгрузку и импортировать данные в статистический пакет. Теперь отчетности всех компаний можно загрузить тремя строками на Python:
from datasets import load_dataset
import polars as pl
# Эта строка загрузит всю РББО (6,6 ГБ+) и поместит ее в 🤗-кэш-директорию
RFSD = load_dataset('irlspbru/RFSD')
Наша база собрана из официальных источников — ЕГРЮЛ ФНС, архивных данных Росстата и отчетностей, полученных через Государственный информационный ресурс бухгалтерских отчетностей (ГИР БО). Сейчас РББО охватывает 2011–2023 годы и содержит 56,6 млн наблюдений. Мы планируем ежегодно обновлять базу по мере поступления новых данных в ГИР БО. Ближайшее обновление — в июле 2025 года.
Важное отличие РББО от коммерческих продуктов состоит в том, что она включает не только все годовые неконсолидированные отчетности российских организаций, но и сведения об организациях, не подавших отчетность несмотря на такую обязанность.
Процесс сбора и валидации данных документирован в препринте: https://arxiv.org/abs/2501.05841.
В репозитории на GitHub мы приводим примеры использования РББО в экономических исследованиях:
🌍 Для макроэкономистов — оценка процентных расходов российских компаний
🏭 Для отраслевых рынков — оценка производственной функции предприятий обрабатывающей промышленности
🗺 Для экономических географов — новый способ оценить пространственное распределение ВВП России с помощью данных фирм
Скачать РББО можно здесь:
🤗 Hugging Face: https://huggingface.co/datasets/irlspbru/RFSD
💤 Zenodo: https://doi.org/10.5281/zenodo.14622209
На GitHub также перечислены открытые проблемы и пути улучшения РББО. Будем рады вашему участию и помощи.