А мы с вами продолжаем концерт по заявкам разбор файла "50 вопросов аналитику"! 5️⃣0️⃣
Сегодня пройдёмся по вопросам 18-25.
18. Функции какого рода использовали в Excel?
Основными, наверное, можно считать функции агрегации: СУММ, СРЗНАЧ, СУММЕСЛИ, СРЗНАЧЕСЛИ, СУММ(СРЗНАЧ)ЕСЛИМН (и всё то же самое с функцией СЧЁТ).
Также ВПР и ГПР (которые можно эффективно заменить функциями ПОИСКПОЗ и ИНДЕКС в Google Sheets).
В GS можно отдельно обозначить функции IMPORTRANGE и QUERY, с помощью которых можно ворочать данные из разных листов и файлов.
А вообще их превеликое множество)
19. Какие агрегатные функции вы использовали?
Без привязки к языку или программе основными функциями агрегации можем назвать количество, сумма, среднее, максимум. минимум, количество уникальных элементов, медиана, мода, дисперсия, стандартное отклонение
Функции из Excel мы перечислили в прошлом пункте)
20. Как можно соединять таблицы? Через какие операторы?
Формулировка вопроса немного странная, но давайте вспомним, что соединение таблиц бывает:
- горизонтальным (ВПР в Excel, JOIN в SQL, merge в Python)
- вертикальным (UNION в SQL, concat в Python)
21. Как еще можно объединять таблицы, кроме Join?
Считаю, что про горизонтальное соединение мы сказали достаточно, но можно напомнить, что существует также горизонтальное соединение не по ключу, т.е. аналог UNION, но "приклеиваем" таблицу В не снизу от таблицы А, а справа.
В Python для этого есть специальная функция в библиотеке numpy: hstack. Вертикальным аналогом (копия логики UNION) является функция vstack.
22. Что, на ваш взгляд, делают аналитики в компании?
Вопрос очень широкий, конечно, так что ответим кратко:
работу аналитика можно условно разделить на два типа задач:
- Разовые запросы (ad hoc, исследования)
- Автоматизация (создание отчётности, внешней и внутренней)
От аналитиков требуется настройка инфраструктуры отчётов, расчёт и вывод цифр, интерпретация результатов, дальнейшие рекомендации и т.д. и т.п.
23. Что значит «второй тип нормализации баз данных»?
Второй тип нормализации БД (2NF) - это следующее требование к базе данных:
- БД должна находиться в первой нормальной форме (1NF)
- Каждый неключевой атрибут полностью зависит от ключа таблицы.
Пример для второго пункта:
Клиент с id=112 совершил покупку в городе с id=12. В третьей колонке таблицы также содержится информация, что эта покупка была совершена в Новосибирске. Третья колонка нарушает вторую форму нормальности, так как "Новосибирск" - это расшифровка id=12, т.е. неключевой признак (название города) зависит от другого признака (id города), а не от ключа таблицы (id клиента)
24. Каким аналитиком вы хотите быть?
Когда я начинал работать аналитиком, такой профессии в явном виде ещё не существовало, и мы назывались специалистами, методологами, экспертами - кем угодно, но не аналитиками😂
Ближе всего по духу мне продуктовая аналитика, больше всего опыта у меня с финансовой аналитикой, а дальше всенго от меня BI-аналитика) как-то так.
25. Как поменяется результат работы запроса, если мы поменяем inner join на full join?
Количество строк в результирующей таблице увеличится (или в крайнем случае останется таким же), так как теперь останутся все строки таблиц А и В, для которых не нашлось пары по ключу в противоположной таблице.
Давайте поздравим себя с достижением экватора!😋🌐
#аналитика #тестовое #hh