Анализ Foursquare Places: Точность и Доступность
Наконец, дошли руки потестировать сравнительно новый открытый источник данных о точка интересов (POIs) - Foursquare Places. Это глобальный набор, охватывающий 224 страны. Он содержит информацию о ресторанах, магазинах, достопримечательностях и других объектах, включая местоположение, категории, рейтинги и посещаемость. Верифицируются и обновляются данные волонтёрами, по аналогии с OSM.
🔽 Как получить данные
Данные Foursquare доступны через Amazon Web Services (AWS). Получить их можно несколькими способами:
✔️ Скачать файлы Parquet с помощью командной строки.
✔️ Использовать API (ограничение — 50 POI за запрос).
✔️ Подключиться к базе данных AWS и выполнить SQL-запрос (Athena, Spark, DuckDB).
Я выбрала первый способ, скачав все данные локально и отфильтровав в python нужный регион. Суммарный объем на мир- 11GB, на Израиль - 13MB
📊 Оценка Качества Данных
После загрузки данных я проверила их на дубликаты, устаревшие записи и точность координат.
Основные проблемы:
✔️ 19% точек дублируются (одинаковые ID).
✔️ 30% POI не обновлялись более 10 лет и при рандомной проверке чаще всего не существуют
✔️ Пропущенные значения в координатах и категориях.
✔️ Иногда координаты указывают не на здание, а на дорогу.
Как улучшала данные:
✔️ Удалила дубликаты ( по ID), оставив по одной записи на объект.
✔️ Исключила устаревшие данные(10+ лет)
✔️ Создала confidence score на основе даты обновления и полноты данных.
🔍 Сравнение с Официальным Реестром
Для проверки точности данных я сопоставила их с муниципальной базой зарегистрированных бизнесов в Тель-Авиве.
Для этого :
1. Привела категории Foursquare и реестра к единой системе наименований
2. Проанализировала плотность POI, используя гексагоны (H3).
📊 Результаты для Тель-Авива:
✔️ Официальный реестр содержит на 10% больше точек,
✔️ Foursquare покрывает большую территорию, но совпадает только 53% гексагонов совпадают
✔️ В категориях «Еда» и «Здоровье» и "Коммерция" наибольшая корреляция(~0.7) числа объектов в Foursquare с официальным источником.
✔️Ни в одной из категорий покрытие в Foursquare не превышало 75%
✔️ В Foursquare отсутствуют бизнесы не представленные онлайн, например точки на рынках
✔️ В Foursquare даже если два объекта находятся в одном здании, их координаты будут разными
📌 Вывод
Данные Foursquare Places дают общее представление о распределении POI в городе, но покрытие будет неполным, и чем более редкая категория , тем оно хуже. Поэтому, если полнота данных важна, я бы не стала ограничиваться этим источником. При этом для сравнения локаций, где относительные значения важнее абсолютных, он подойдет.
Ссылки на код: очистка данных, сравнение
О городах и данных

Автор:@intra23
Сайт: http://geopython.su/
Similar Channels



О городах и данных: Как исследования формируют будущее городского пространства
В современном мире города становятся все более сложными системами, требующими детального анализа для оптимизации их функционирования. Вопросы, связанные с городской инфраструктурой, транспортом, экосистемами и общественными услугами, требуют применения новых технологий и подходов. В этом контексте использование данных о городах становится важнейшим инструментом для тех, кто пытается улучшить жизнь в этих быстро меняющихся условиях. Исследования, основанные на городских данных, помогают выявлять проблемы, предсказывать тенденции и находить решения для их устранения. Однако, наряду с возможностями, которые предоставляет анализ данных, существуют и риски, связанные с конфиденциальностью, ошибками в интерпретации данных и их неравномерным распределением. Эта статья направлена на изучение того, как данные могут изменить наш взгляд на города и какие последствия это может иметь для их обитателей.
Что такое городские данные и как они собираются?
Городские данные представляют собой информацию, относящуюся к различным аспектам жизни в городе, включая демографические данные, данные о транспортной инфраструктуре, экологии и общественных услугах. Эти данные могут собираться через различные источники, такие как сенсоры, опросы населения, административные центры и открытые данные от правительства.
Сбор городских данных осуществляется также посредством технологий, таких как геолокация и интернет вещей (IoT). Устройства, установленные в городской среде, могут автоматизировать процесс сбора данных, обеспечивая более точную и актуальную информацию для анализа.
Как исследования городских данных могут улучшить качество жизни в городе?
Исследования, основанные на анализе городских данных, помогают городским администрациям более эффективно планировать и распределять ресурсы. Например, данные о плотности населения и движении транспорта могут быть использованы для оптимизации маршрутов общественного транспорта и улучшения дорожной инфраструктуры.
Кроме того, анализ данных может способствовать выявлению зон с высоким уровнем загрязнения или другими эколого-экономическими проблемами, что позволяет внедрять меры по улучшению экологии и здоровья граждан.
Какие риски связаны с использованием городских данных?
Одним из основных рисков является угроза утечки личной информации граждан. Собирая и анализируя данные, связанные с местонахождением, привычками и предпочтениями людей, городские власти могут inadvertently нарушить конфиденциальность, что вызывает опасения у жителей.
Другой риск заключается в потенциальной неправомерной интерпретации данных. Неверные выводы могут привести к неправильным решениям, которые могут негативно сказаться на жизни городских жителей. Это подчеркивает важность прозрачности и надежности анализа данных.
Как города могут использовать данные для улучшения инфраструктуры?
Города могут применять данные для мониторинга состояния инфраструктуры в реальном времени, что позволяет им реагировать на аварии или необходимость ремонтов более эффективно. Например, данные о состоянии дорог и мостов могут помочь в планировании их обслуживания до момента, когда они станут опасными для использования.
Системы умного города, использующие данные о движении и потреблении ресурсов, могут оптимизировать работу коммунальных служб, таких как электричество и водоснабжение, что в свою очередь позволяет сократить расходы и повысить удобство для граждан.
Как технологии могут помочь в анализе и использовании городских данных?
Современные технологии, такие как искусственный интеллект и машинное обучение, становятся важными инструментами для анализа больших объемов данных. Они позволяют автоматически выявлять паттерны и тренды, которые могут быть неочевидны при ручном анализе.
Кроме того, технологии визуализации данных позволяют представлять сложные наборы данных в наглядной форме, что способствует лучшему пониманию и принятию обоснованных решений как властями, так и населением.
О городах и данных Telegram Channel
Добро пожаловать на канал "О городах и данных"! Этот канал, с названием на русском языке, представляет собой уникальное сообщество, которое исследует и обсуждает важные темы, связанные с измерениями и данными городов. На канале вы найдете информацию о том, кто проводит измерения в городах, какие данные они собирают, и зачем это делают. Автор канала - @intra23 - делится интересными материалами и анализами, которые помогают лучше понять, как исследования, основанные на городских данных, могут улучшать жизнь в городе. Помимо полезной информации, на канале также обсуждаются риски, с которыми сталкиваются исследователи данных при работе с информацией о городах. Если вас интересуют инновации в области городского планирования, умные технологии и данные, то этот канал станет для вас настоящим кладезем знаний. Посетите наш сайт по ссылке: http://geopython.su/ и присоединяйтесь к нам на канале "О городах и данных" уже сегодня!