Системный Блокъ @sysblok Channel on Telegram

Системный Блокъ

@sysblok


«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join

Системный Блокъ (Russian)

«Системный Блокъ» - это издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Если вы увлечены миром высоких технологий и хотите быть в курсе последних новостей и тенденций в этой области, то канал @sysblok именно для вас.

«Системный Блокъ» является финалистом премии «Просветитель», что подтверждает его авторитетность и значимость в области цифровых технологий. На сайте sysblok.ru, а также в социальных сетях vk.com/sysblok, fb.com/sysblok и instagram.com/sysblok/ вы найдете множество интересных статей, обзоров, интервью и другой полезной информации.

Присоединяйтесь к команде «Системный Блокъ» и станьте частью активного сообщества, увлеченного цифровыми технологиями. Подпишитесь на канал @sysblok и не упустите возможность быть в курсе всех событий и новостей, касающихся цифрового мира. Добавьте канал в свой список избранных и получайте уникальную информацию первыми. Будьте в центре цифровых инноваций вместе с «Системным Блокъ»!

Системный Блокъ

14 Jan, 16:38


Играем по-серьёзному: как Serious Games меняют подход к обучению

Идея геймификации образования восходит ещё к эпохе Ренессанса, однако совершенно новым подходом стали серьёзные игры. Их основная цель— решение конкретных задач из реальной жизни, а также обучение или развитие навыков, а не развлечение или веселье. Рассказываем об особенностях такого подхода к образованию и его эффективности.

Что за серьезные игры?

Внешне Serious Games напоминают классические: с соревновательностью, аналогичным игровым процессом и интерфейсом. Но при этом в них вшиты образовательные цели, которые как бы скрыты от пользователя. Кроме того, серьёзные игры отличаются научной обоснованностью: рецензируемый научный журнал The International Journal of Serious Games ежеквартально выпускает статьи, посвящённые теоретическим, экспериментальным и прикладным аспектам разработки, внедрения и оценки таких игр.

Серьёзные игры во многом эффективны потому, что их механика, нарратив и дизайн включают в себя конкретные задачи — обучать, вдохновлять и приводить к образовательным результатам. Кроме того, они позволяют моделировать ситуации, которые в реальной жизни требуют значительных ресурсов или времени.

Duolingo

Один из самых известных примеров таких игр — Duolingo. Чтобы мотивировать пользователей учить языки, приложение использует игровые механики: дерево навыков, очки опыта и виртуальную валюту.

Foldit

Foldit — игра-головоломка, которая предсказывает структуру белков. Это одна из самых сложных задач в биологии. Созданная Центром игровых наук и кафедрой биохимии Университета Вашингтона, игра привлекла внимание широкой публики благодаря своей инновационной концепции: исследователи анализируют полученные игроками лучшие решения и применяют их для изучения болезней, разработки новых лекарств и биологических технологий.

Evolution of Trust

Ещё один пример — The Evolution of Trust, созданная педагогом и гейм-дизайнером Ники Кейзом. Эта игра объясняет, как возникают и разрушаются доверительные отношения, а также почему это важно для общества и как мы можем «изменить правила игры» для улучшения взаимодействий. The Evolution of Trust моделирует простую ситуацию: два игрока принимают решения в рамках вариации дилеммы заключённого. Весь процесс прохождения занимает около 30 минут, что идеально подходит для образовательных целей или кратких тренингов.

Ещё больше примеров серьезных игр  в сферах экономики, менеджмента, культуры, политики и даже генетики, найдете в полной версии статьи. Из нее же можно узнать больше о преимуществах и недостатках этого метода обучения.

Время чтения: 17 минут

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

12 Jan, 11:36


История диалоговых систем

Мы взаимодействуем с диалоговыми системами повсюду: когда бронируем столик в кафе, записываемся к врачу или звоним в поддержку. Все более похожие на человека чат-боты приобретают голос и эмоции, приносят пользу бизнесу и обычным пользователям. «Системный Блокъ» рассказывает, когда чат-боты стали повсеместными, как они учились и как воспроизводят естественный разговор.

Кратко: о чем статья?

Дизайн диалоговых интерфейсов — это индустрия создания систем, имитирующих человеческое общение. Одна из основных ее задач — сделать общение с ботом естественным, эффективным и не трудозатратным. Диалоговые системы понимают и устную, и письменную речь, а успешность их работы и распознавания напрямую зависит от доступных технологий.

История чат-ботов началась в 1952 году, когда американская корпорация создала Audrey — голосовой интерфейс, способный превратить голос в текст. Машина могла распознавать только цифры от 0 до 9 и заходила в тупик, слыша новый голос.

Создание в 1960-х годах в Массачусетском технологическом институте чат-бота ELIZA стало историческим. Она как бы исполняла роль психотерапевта, задавая вопросы из заранее составленного списка в ответ на текстовое сообщение. Например, если собеседник говорил, что ему грустно, Элиза уточняла: «Почему тебе грустно?»

В 1995 году была создана ALICE, вдохновленная Элизой. Она научилась делать логические выводы из текста пользователя, учитывать грамматику предложений и контекст предыдущего разговора.

Большой прорыв в диалоговых системах случился в 2011 году, когда Apple разработали Siri, в которой объединились голосовые команды и чат-бот-система. Siri стала первым виртуальным ассистентом, который можно взять с собой куда угодно, а список ее возможностей для своего времени был внушительным: найти ответ в Интернете, начать звонок, подсказать дорогу, отправить сообщение и т. д.

Хотя сегодня возможности диалоговых достигли небывалых высот, им есть куда стремиться. Чат-боты все еще вынуждают пользователей подстраиваться под себя, а многие диалоговые системы говорят только на английском.

Более подробно об истории создания чат-ботов и грани между людьми и говорящими машинами, читайте в полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

09 Jan, 15:06


Думать или делать: исследуем глаголы в английской литературе

Что помогает нам лучше узнать персонажа – речь или действия? Что, если действия персонажа могут говорить даже больше, чем его слова и мысли, обычно находящиеся в центре повествования? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании глаголов в художественной литературе, которое дает ответы на эти (и не только) вопросы.

Кратко: что за исследование?

Недавно канадский профессор в области литературоведения и Digital Humanities Эндрю Пайпер решил изучить, чем заняты персонажи книг и как их действия помогают в создании цельного образа. Для этого он взял два датасета: CONLIT, состоящий из 2 754 текстов английской прозы (художественной и нехудожественной) в двенадцати разных жанрах, и HATHI1M, который содержит коллекцию из 1 671 370 случайно отобранных страниц английских текстов, опубликованных между 1800 и 2000 годами.

В качестве основного рабочего инструмента использовался инструмент BookNLP, который может находить упоминания персонажей, включая разные формы имени героев и связанные с ними местоимения.

Как обнаружилось, самые частые глаголы в характеристиках персонажей относятся к актам коммуникации, за ними следуют движение и познание. Причем в нехудожественных текстах больше когнитивных действий, а в художественных – физически воплощенных, телесных. Более того, тенденция к выражению личной агентности именно через тело (а не через сознание, как привычно считать) усиливается с течением времени. 

Узнать, как глаголы распределены по текстам разных жанров, как это исследование связано с Theory of Mind (теорией сознания) и понятием агентонсти, и каким еще выводам пришел Пайпер, можно из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

07 Jan, 13:02


Что такое гражданская наука?

Гражданская наука (Citizen science), или научное волонтёрство, — это направление, где непрофессионалы активно участвуют в научных исследованиях и помогают ученым собирать и анализировать данные. И хотя само понятие появилось сравнительно недавно, идея участия общественности в научной деятельности не нова. Рассказываем о прошлом, настоящем и будущем гражданской науки.

Первые энтузиасты

C началом великих географических открытий моряки могли исследовать новую для них флору и фауну, а с появлением телескопов (1609 год) астрономы-любители начали активно менять научную картину мира.

Например, ещё во времена кругосветных плаваний Джеймса Кука (1768–1771 годы), английский рыцарь и натуралист-любитель Джозеф Бэнкс сделал первое научное описание бугенвиллеи (лат. Bougainvillea). А археолог-самоучка Генрих Шлиман проводил раскопки на месте античной Трои и стал первооткрывателем микенской культуры.

Цели и тенденции

Цель гражданской науки — привлечение широкого круга людей для сбора научно полезной информации. Главные задачи гражданской науки сегодня —  мониторинг биоразнообразия, сбор информации об экологической обстановке и поддержка научных баз данных.

Примеры проектов

Международные платформы, такие как iNaturalist и eBird, объединяют миллионы людей, которые делятся снимками животных, растений и грибов, помогая ученым собирать ценные данные о природе. А Гербарий МГУ — поддерживает цифровую платформу для сбора и оцифровки данных о растениях с помощью волонтеров.

Совсем другой пример – цифровой корпус почтовых открыток «Пишу тебе» @pishuteberu. Его участники собрали, оцифровали и разметили уже 70 000 открыток. Помимо этого волонтеры проекта занимаются обучением нейросетей для автоматической разметки и расшифровки открыток, а также программированием инструментов для работы с базой.  Присоединиться к «Пишу тебе» может любой желающий, заполнив анкету.

Другие примеры гражданских научных проектов, которые позволяют превратить наблюдения за птицами в научные данные или поучаствовать в мониторинге загрязнения воздуха, найдете в полной версии материала. Там же мы рассказали о том, как стать гражданским ученым (спойлер: очень просто!)

Время чтения: 5,5 минут


🤖 «Системный Блокъ» @sysblok

Системный Блокъ

06 Jan, 15:05


Что такое датасет?

Одной из ключевых составляющих машинного обучения являются датасеты — наборы данных. «Системный Блокъ» рассказывает, какие датасеты используются для обучения моделей и где их найти.

Кратко: о чем статья?

Датасет (англ. dataset), или выборка, — это структурированный набор данных, который используется для обучения и тестирования моделей машинного обучения. С помощью датасетов модели «учатся» на примерах, чтобы потом применять полученные знания для решения реальных задач.

Датасет может состоять из данных разных типов (например, текстов, изображений, аудио- или видеоматериалов), а также разметки. Она опциональна и является дополнительной информацией для описания и классификации данных. Например, датасет ImageNet содержит 14 млн изображений, каждое сопровождается меткой класса (например, указана порода собаки или название растения на фото).

Хороший датасет — репрезентативный, то есть точный и полный, поэтому при его формировании важно учитывать разнообразие, количество и качество данных. Например, в случае изображений важны разные погодные условия и освещение, для любых данных нужно проверять их достоверность и соответствие поставленной задаче.

Для обучения моделей датасеты обычно делят на три части: тренировочную (train), валидационную (validation) и тестовую (test). На первой модель обучается, с помощью второй можно реализовать валидацию разных параметров обучения и настроек модели, а третью используют для тестирования финальной версии модели. Датасеты можно собирать и делить самостоятельно, а можно найти уже готовые для обучения наборы данных на Kaggle, HuggingFace или UCI Machine Learning Repository, а также в разных исследовательских проектах.

Подробнее о том, какие еще типы датасетов бывают, как модель определяет, кто выживет на «Титанике», и к каким еще источникам данных можно обратиться читайте в полной версии статьи.

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

03 Jan, 08:35


Тест: Путин или ChatGPT? Угадайте, какое новогоднее обращение действительно принадлежит президенту, а какое сгенерировала нейросеть

Цифровые методы можно использовать с разными текстами: длинными и не очень, принадлежащими одному автору или нескольким, написанными за короткий срок или на протяжении длительного периода времени. Мы решили изучить цифровыми методами новогодние обращения Владимира Путина и заодно проверить, насколько хорошо справляются с написанием подобных речей современные языковые модели.

Для нового теста мы сделали тематическое моделирование корпуса текстов с помощью программы Mallet, построили кривые эмоциональной тональности текста с помощью Python и RuBERT и выяснили, как менялась длина новогодних обращений с 2000 по 2023 годы.

Проходите тест и узнаете, удалось ли ChatGPT сгенерировать предновогодние речи и какая лексика попала в облако слов новогодних обращений (спойлер: долг, испытание и дело вы там точно найдёте)

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

31 Dec, 14:31


«Системный Блокъ»: лучшее за 2024 год

По традиции 31 декабря «Системный Блокъ» публикует подборку лучших материалов уходящего года. 

Дата-исследование года

«Классное чтение» — исследование школьных программ по литературе с 1919 по 2022 годы. Мы выяснили, какие авторы и произведения входят в школьный литературный канон, как за сто лет изменилось изучение зарубежной и региональной литературы, и удостоверились, что Пушкин наше все во все времена (а еще Шекспир, Лев Толстой,  Горький и другие).

Интервью года

Игорь Мельчук о нетрадиционной лингвистике и машинном переводе. В 2024 году «Системный Блокъ» выпустил девять интервью. Наши собеседники рассказывали об оцифровке дневников, нейролингвистических исследованиях, истории интернета, клиодинамике, искусственном интеллекте. Но особенно мы гордимся интервью с лингвистом Игорем Мельчуком, одним из основоположников российской математической лингвистики и Московской семантической школы. Он рассказывает, как в 1950-е годы в Советском союзе начинался машинный перевод и как была создана теория «Смысл Текст».

Погружение года

На сайте «Системного Блока» появился раздел «DH: точка входа». На одной странице мы собрали все, что нужно знать начинающему цифровому гуманитарию: методы DH, основные понятия, список экспертов, полезное чтение и образовательные программы.

Филологическое исследование года

Как поймать всех животных в тексте? Пересказываем исследование Кирилла Маслинский, научного сотрудника Пушкинского дома, который на материале корпуса детской литературы изучил закономерности упоминания в текстах животных. Теперь мы знаем, в каких жанрах преобладают птицы, а в каких — обитатели подводного мира. 

Дайджест года 

Мы сделали регулярным дайджест новостей из мира нейросетей и искусственного интеллекта. С марта вышло 18 выпусков, в которых мы рассказываем о новых больших языковых моделях, продуктах и сервисах с использованием ИИ. 

Партнерство года

Вместе с благотворительной организацией «Ночлежка», Благотворительной больницей и платформой «Если быть точным» мы проанализировали, что влияет на причины смертности бездомных женщин и мужчин. 

Гайд года

Как сделать исследование с помощью Voyant Tools? Мы выпустили самый подробный гайд на русском языке по использованию популярного инструмента для корпусного анализа текстов Voyant Tools. Здесь в все - от подготовки корпуса до визуализации. 

Техноистория года

В материале о развитии перфокарт мы рассказывали, что общего у ткацкого станка и первых вычислительных машин, какой вклад гомеопатия внесла в историю технологий и какое наследие перфокарт сохранилось до сих пор. 

Тесты года 

Мы продолжаем делать для вас веселые и познавательные тесты. Например, угадывали птиц по фотографиям, изучали ругательства в НКРЯ и разбирались в значении эмодзи. Выбрать одного фаворита из этой рубрики слишком сложно!

Больше о наших главных материалах 2024 можно узнать из подробных итогов года на сайте, а если какие-то тексты особенно запомнились вам – расскажите о них в комментариях! 

С Новым годом 🎄

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

30 Dec, 17:47


Новые рассуждающие модели от OpenAI и Google, open-source-конкурент GPT и Claude

Рассказываем, что произошло в мире ИИ за последнее время.

Вторая версия модели o1

OpenAI представила обновление языковой модели o1, которая способна выстраивать логические рассуждения перед ответом. Новая версия получила название o3, поскольку название o2 уже используется британским оператором связи.

o3 превосходит все существующие модели в тестах на программирование и решение математических задач. В одном из самых сложных математических тестов предыдущая лучшая модель решила лишь 2% задач, тогда как o3 справилась с 25%. Кроме того, o3 стала первой моделью, сумевшей решить большую часть задач из бенчмарка ARC-AGI, который проверяет способность находить закономерности в данных, отсутствовавших в обучающей выборке. В этом тесте o3 решила 75,7% задач (против 53,6% у предыдущего лучшего метода), а при использовании более длинных цепочек рассуждений результат достиг 87,5%. Для сравнения: GPT-3 не способна решить ни одной задачи, а GPT-4 справляется лишь с 5%.

В «экономном» режиме на решение одной задачи o3 расходует вычислительные ресурсы стоимостью около 20 долларов, а при использовании более длинных рассуждений требуется примерно в 172 раза больше вычислительных ресурсов.

Авторы ARC-AGI отметили, что, несмотря на высокий результат, модель всё ещё не может решить множество простых задач. Вторая, более сложная версия бенчмарка должна выйти в следующем году.

Обновление пока не доступно для публичного использования.

Google выпустила первую рассуждающую модель

Корпорация Google представила модель Gemini 2.0 Flash Thinking. Эта версия является модификацией недавно выпущенной Gemini 2.0 Flash и в отличие от базовой версии способна генерировать рассуждения, что повышает качество ответов и позволяет модели решать более сложные задачи.

Новая модель заняла первое место в рейтинге Chatbot Arena, основанном на оценках пользователей. Предыдущим лидером была GPT-4o. Модель уже доступна для использования через API.

Всё больше лабораторий и компаний выпускают рассуждающие модели. В частности, мы также рассказывали об открытых моделях QwQ и DeepSeek-R1.

DeepSeek 3 – новый открытый конкурент лучших LLM

Китайская компания DeepSeek представила третью версию своей языковой модели. DeepSeek 3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос: DeepSeek 3 задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса.

В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6, LLama 3 и Qwen2.5. На обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.

DeepSeek 3 и техническая документация по её разработке находятся в открытом доступе. Модель также доступна через API.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

28 Dec, 08:31


Визуализируя воспоминания: как AR и VR-технологии погружают в прошлое

История памяти изучает, как в обществе возникают, живут и передаются знания о прошлом. История памяти — не о фактах и датах, а о восприятии и образах событий прошлого, бытовавших у людей. Сегодня изучать их помогают цифровые технологии, включая элементы виртуальной реальности. Рассказываем подробнее в новой статье.

Монологи «детей войны»

Пример такого использования AR (augmented reality, дополненная реальность) – немецкий проект 2018 года War Children: Using AR in a Documentary Context. Его создатели разработали приложение, которое знакомило пользователей с личными историями трех женщин из разных стран — России, Великобритании, Германии. Контент, дополненный различными визуальными элементами (искрами, снегом, дымом, самолетами), был привязан к среде пользователя. Повествование также дополнялось архивными фото и видеоматериалами. 

Память о Холокосте

Одна из постоянных экспозиций Иллинойского музея Холокоста (США), The Journey Back, использует технологии виртуальной реальности (VR). Помимо VR-фильмов, рассказывающих истории переживших холокост, в музее действует голографический театр. Посетителей встречают голограммы, которые могут вести диалог с аудиторией, создавая эффект живого общения благодаря технологии распознавания голоса.

Узнать об этих проектах больше можно из полной версии статьи.

Время чтения: 7 минут

Системный Блокъ

23 Dec, 15:02


Нейросети и доисторические рисунки: как исследовать петроглифы с оленями

Петроглифы — небольшие древние наскальные изображения — часто сложно датировать и атрибутировать. Помимо интерпретации сюжетов, дающих нам представление о быте и поверьях северных охотников, о способах ловли оленей и медведей, ученых интересует атрибуция: когда и какими культурами были оставлены эти изображения. Рассказываем, как можно классифицировать произведения древних людей при помощи нейросети.

Кратко: о чем статья?

Признаки доисторических изображений делят на содержательные, отвечающие на вопрос «что изображено?», и стилистические — «как изображено?». Именно стиль позволяет объединять изображения по «манере», «школе» и атрибутировать их. 

Особенно удобно изучать особенности стиля, сравнивая, как нарисованы одни и те же объекты. Например, Н.Н. Диков в 1971-м году предложил целую классификацию для сотен оленей, высеченных на скалах у чукотской реки Пегтымель древними жителями этих берегов (обязательно на них взгляните!). Диков выделял более реалистичных и схематичных оленей по пропорциям и стилю изображения 

Сегодня на помощь исследователям приходят нейросети. В 2017 году Йельский центр Digital Humanities создал открытый инструмент Pixplot для классификации и визуализации больших массивов изображений. А в 2020-2021 студенты магистратуры Digital Humanities в Вышке кластеризовали с его помощью петроглифы с чукотскими оленями. 

Полученная благодаря нейросетям визуализация отразила распределение петроглифов по технике исполнения: грубая и редкая или плавная и полная. Этот признак был связан с инструментом нанесения рисунка. Изображения, выполненные камнем, отличаются грубым исполнением, а сделанные с помощью металлического орудия — более четкими очертаниями. Причем и те, и другие кластеры изображений включали в себя как реалистичные, так и схематичные рисунки, так что деление, предложенное в 1970-е оказалось скорее субъективным и потому не вполне актуальным.

Узнать больше о кластеризации петроглифов и о том, какие промежуточные этапы предполагало исследование, сможете благодаря полной версии статьи.

Время чтения: 15 минут

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

21 Dec, 13:02


Возраст несчастья: когда он наступает?

В новом материале «Системный Блокъ» рассказывает о состоянии несчастья с опорой на исследование Unhappiness and age. Изучаем компоненты неблагополучия, исследуем график невзгод и, конечно, показываем статистику, которая поможет разобраться в особенностях этого состояния.

Кратко: о чем статья?


Несчастье — это особое состояние человека, которое противопоставляется состоянию счастья и считается в первую очередь проблемой, связанной с ментальным здоровьем. Исследователь по фамилии Бланчфлауэр вывел переменные несчастья, которые можно разделить на четыре группы: связанные с психическим здоровьем, социальным взаимодействием, физическим самочувствием и национальным благополучием.

Изучение этих факторов показало, что кривая неблагополучия всегда представляет собой холм с пиком в возрасте 45–54 лет в среднем. По всему миру люди 45–54 лет чаще других испытывают тревогу и проблемы со сном, начинают жаловаться на хронические боли. Во многих странах на этот же возраст приходится максимальное количество самоубийств и смертей от передозировки наркотическими веществами или злоупотребления алкоголем.

Исследование Unhappiness and age дополняет другую работу, Is happiness U-shaped everywhere?, про уровень счастья и его график. Оказалось, что кривые счастья и несчастья зеркально отражают друг друга. Их минимум и максимум приходятся на промежуток 45–50 лет соответственно.

Посмотреть на визуализацию статистики и увидеть, на какой возраст приходится пик счастья и в какой момент графики сходятся в одной точке, можно благодаря полной версии статьи.

Время чтения: 6,5 минут

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

20 Dec, 17:01


Пробей крепостную стену: как понять науку через симуляторы

Хотите смоделировать процесс эволюции или работу человеческого глаза? Не можете разобраться в баллистике? Тогда воспользуйтесь интерактивным симулятором. Мы собрали самые интересные и рассказали, как они делают науку понятней и ближе.

👾 Что за симуляторы?

Интерактивные симуляторы — это цифровые инструменты, моделирующие реальные научные ситуации. Например, вы хотите провести эксперимент и увидеть, как двигаются молекулы и атомы, или какое воздействие на вещество оказывает тепло, но у вас нет лаборатории и инструментов. В таком случае используются виртуальные симуляторы. 

Интерактивные симуляторы возникли вместе с развитием систем электронного обучения. Со временем они стали доступны не только в виде программного обеспечения, но и в браузерах, а сегодня можно делиться ими в соцсетях и встраивать в собственные сайты.

🕺🏻 Травольтаж

Все желающие разобраться в физических законах могут изучить электростатику и электрическое напряжение в симуляторе «Травольтаж» (John Travoltage). Для этого совсем необязательно разбираться в физике — симуляторы очень понятны и наглядны, поэтому, играя, вы одновременно понимаете сложные вещи. В «Травольтаже», например, можно наэлектризовать об ковёр ногу Джона Траволты (отсюда и название: соединение английского voltage и фамилии актёра) и увидеть, как электрический заряд передается металлической дверной ручке.

🦎 Эволюция: 10,000

Если вас интересует вопрос, почему в ходе эволюции одни виды выжили, а другие нет, обратитесь к симулятору Evolution: 10,000, с помощью которого можно проследить эволюцию вымышленной популяции за 10 тыс. лет. После каждой тысячи лет ресурс будет сообщать о произошедших изменениях.

👁️ Наследственность: цвет глаз и ушные раковины

Чтобы узнать, почему у вас один цвет глаз, а у вашего знакомого другой, смоделируйте наследственность в симуляторе Heredity IV: Eye Color and Pinna. Вы можете тестировать один признак за раз или оба — цвет глаз и наличие ушной раковины. В последнем случае можно смоделировать дигибридное скрещивание.

О других симуляторах, которые помогают лучше понять физику, химию, биологию и другие науки — в том числе создавая собственные метательные аппараты и пробивая крепостные стены — мы рассказали в полной версии статьи.

Время чтения: 16 минут

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

19 Dec, 13:50


От Роулинг до Лермонтова: как провести анализ тональности текста

Анализ тональности текста (Sentiment Analysis) — это процесс автоматического определения эмоциональной окраски содержания текста. Но как зафиксировать тонкие и динамичные изменения не в коммуникации, а в больших произведениях? Как формально визуализировать эмоциональное содержание текста, превратив его в график? Рассказываем в нашем новом материале!

📕 К истории сентимент-анализа

Первые задачи анализа тональности решались с использованием заранее размеченных словарей, например, таких как kartaslovsent, где каждому слову соответствовала определённая эмоциональная оценка. С развитием технологий нейронных сетей появились более точные методы, основанные на эмбеддингах. Современные модели используют предобученные нейросети-энкодеры, такие как BERT, которые способны учитывать контекст и взаимосвязь между словами.

📗 Гарри Поттер и кривая эмоциональной тональности

Эндрю Рейган и его коллеги из Вермонтского университета создали одну из первых работ, описывающих изменение эмоциональной тональности на практике. Их исследование было посвящено книге «Гарри Поттер и Дары Смерти», самая счастливая точка которой приходится на первую четверть книги.

📘 Герой нашего времени

Мы решили повторить эксперимент Рейгана, но на примере романа М. Ю. Лермонтова. Для этого мы обратились к нейросети RuBERT и разбили текст на атомарные единицы. В случае книг для этого лучше всего использовать предложения – они  достаточно маленькие по размеру, но выражают законченную мысль.

Высшей точкой нашей кривой эмоциональной тональности оказалась глава о княжне Мэри, а низшей – дуэль с Грушницким. Правда, путь к красивому графику оказался тернистым. 

Если вы хотите узнать о сложностях, с которыми мы столкнулись, визуализируя эмоции в тексте Лермонтова, или изучить, как меняется эмоциональная окраска в вашем любимом (или нелюбимом!) тексте, переходите к нашему гайду.

Время чтения: 13 минут.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

18 Dec, 09:01


Бешеный принтер 2020–2022: как плодятся «чрезвычайные» законы

Чрезвычайные события, такие как пандемия или военные действия, порождают ограничительные законы. При этом многие законодательные изменения, изначально принимавшиеся как «чрезвычайные», оказываются долгосрочными и становятся нормой. Рассказываем, как статистика законотворчества позволяет проследить за этим трендом на примере массива законопроектов, рассматривавшихся и принимавшихся Государственной Думой в период весенней сессии 2020, 2021 и 2022 гг.

Кратко: что выяснилось?

Первое, что мы увидели – повышение так называемой «законотворческой эффективности» парламента во время кризиса. При сравнительно одинаковом количестве внесённых на рассмотрение законопроектов увеличивается число принятых законов и скорость их рассмотрения.

Помимо тренда на ускорение законотворческого процесса в РФ, заметна «регионализация» — расширение полномочий глав субъектов РФ. Для преодоления чрезвычайных ситуаций также создаются отдельные координационные структуры внутри государственной машины.  Например, в период пандемии ключевым органомом принятия решений стал Координационный совет при Правительстве РФ, чьи решения определяли основные ограничительные меры.

Наконец, исследование показало, что структуры, создаваемые для «ручного контроля» за чрезвычайными ситуациями, стремятся к превращению в регулярно действующие. Для них окончание действия чрезвычайной ситуации означает их собственное исчезновение. 

Узнать подробнее о тенденциях, связанных с «чрезвычайными» законами последних лет, можно из полной версии статьи.

Время чтения: 6,5 минут


🤖 «Системный Блокъ» @sysblok

Системный Блокъ

16 Dec, 13:02


Новинки от OpenAI, новая LLM от Google, модель для генерации изображений от лаборатории Маска

Рассказываем, что произошло в мире ИИ за последнее время.

Адвент-календарь от OpenAI

С 5 декабря OpenAI ежедневно по будням анонсирует новые разработки и обновления своих продуктов.

Первым стал анонс подписки ChatGPT Pro стоимостью $200 в месяц. Она предоставляет неограниченный доступ ко всем языковым моделям компании, включая o1-pro (версия модели o1, которая рассуждает больше обычной версии), а также содержит все опции базовой подписки ChatGPT Plus за $20 в месяц.

Наиболее значимым событием стал публичный запуск Sora — модели для генерации видео (мы писали о ней ранее). Пользователи с подпиской Plus могут создавать до 50 видео в разрешении 480p или меньшее количество в 720p. Владельцам Pro-подписки доступно в 10 раз больше генераций.

Стала доступна интеграция ChatGPT с Apple Intelligence — системой искусственного интеллекта в последней версии iOS. Когда встроенный ассистент Siri не может ответить на запрос пользователя, система предлагает перенаправить его в ChatGPT.

OpenAI также представила возможность дообучать модель o1 на собственных данных, пока эта функция доступна ограниченному кругу пользователей.

Остальные обновления касаются сервисов компании:

- представлен новый режим Canvas для эффективной совместной работы над текстовыми документами и программным кодом. ChatGPT может предлагать правки, изменять стиль текста, комментировать код и помогать находить ошибки;

- в классическом интерфейсе ChatGPT добавлена возможность создавать проекты (папки) для группировки тематически связанных диалогов с общим контекстом;

- добавлена поддержка работы с видеопотоками: пользователи могут транслировать видео с камеры телефона и одновременно обсуждать происходящее с GPT голосом.

Крупное обновление языковой модели Google

Корпорация Google представила обновлённую версию своей языковой модели — Gemini 2 Flash. По результатам основных тестов новая модель превосходит предыдущую флагманскую версию и работает в полтора раза быстрее.

Gemini 2 Flash способна не только обрабатывать аудио, видео и изображения, но и генерировать их в качестве ответа. Например, при игре в крестики-нолики пользователь может отправить фотографию своего хода, а нейросеть ответит, добавив свой ход прямо на полученное изображение, то есть ответом будет не текст, а изображение.

В обновлении особое внимание уделено развитию агентных способностей модели — возможности выполнять различные задачи в разных средах (например, забронировать столик в ресторане или работать с компьютерными программами). Gemini 2 Flash демонстрирует улучшенные навыки планирования действий и запоминания истории взаимодействий. Кроме того, модель может эффективно работать с внешними инструментами, такими как Google Поиск и Google Maps.

Нейросеть для генерации изображений от xAI

Лаборатория xAI, принадлежащая Илону Маску, представила новую модель Aurora для генерации изображений на основе текстовых описаний.

В отличие от существующих решений, таких как Midjourney, Stable Diffusion и DALL-E, Aurora использует принципиально иной подход к созданию изображений. Она работает подобно языковым моделям, в то время как механизм генерации других систем построен совершенно иначе: как именно, можно прочитать в нашем материале.

Благодаря схожести с языковыми моделями, Aurora может использовать все существующие методы их оптимизации, однако уже для ускорения генерации изображений. Кроме того, модель демонстрирует более высокое качество работы с текстом, особенно при редактировании существующих изображений на основе текстовых инструкций.

Aurora доступна для тестирования в социальной сети X, но только для пользователей из ограниченного числа стран.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

14 Dec, 11:02


A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok

Системный Блокъ

11 Dec, 11:30


Косинусная близость: как компьютер сравнивает объекты

Рассказываем, как онлайн-кинотеатры определяют, какой фильм вам порекомендовать, маркетплейсы — какой похожий товар предложить, а интернет-поисковики находят темы, которые отвечают теме запроса. И всё это — с помощью косинуса угла между векторами.

Кратко: о чем статья?

Прежде чем сравнивать объекты, компьютер должен представить их в виде векторов — упорядоченных наборов чисел, которые формализуют свойства каждого объекта. Каждое число вектора характеризует какой-то признак объекта, например, цвет и размер товара, тональность текста, жанр и длительность фильма. Чем больше признаков у объекта, тем больше чисел в векторе (эти числа называют координатами вектора).

Между двумя векторами можно измерять расстояние и угол. Чтобы не измерять угол в градусах, его удобнее выражать через косинус. Косинус — это одна из тригонометрических функций, которая на вход принимает угол и сопоставляет ему число из диапазона от -1 до 1. Чем меньше угол между векторами, тем более схожи соответствующие объекты, и наоборот. Поэтому косинус между векторами также называют косинусной близостью.

Например, объекты, у которых соответствующие им векторы направлены одинаково (угол между ними 0 градусов), имеют с точки зрения косинуса максимальную близость, равную единице. A объекты, векторы которых указывают в противоположные направления (угол между ними 180 градусов), максимально удалены — у них косинус равен -1. Так, если на плоскости изобразить векторы, соответствующие трем рюкзакам (при этом их объем и количество отделений будут координатами по горизонтали и вертикали соответственно), то при подсчете косинусной близости между ними выяснится, что рюкзак объемом 2 литра с 6 отделениями более схож с рюкзаком объемом 1 литр и с 2 отделениями, нежели чем с рюкзаком, объем которого — 4 литра, а количество отделений — 2 штуки.

Чтобы узнать о том, как рассчитать косинус с помощью математических формул или компьютера, а также найти ссылку на проект в Google Colab, где вы можете попробовать рассчитать косинусную близость между разными словами, читайте полную версию статьи.

Время чтения: 7 минут

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

10 Dec, 13:00


Новый журнал про цифровые гуманитарные науки на русском языке

В Институте русской литературы РАН будет дважды в год выходить журнал «Цифровые гуманитарные исследования». В ноябре 2024 года вышел его первый номер. Кроме научных статей, в журнале будут публиковать рецензии, обзоры конференций и дискуссионные статьи.

Исследования, представленные в первом номере, посвящены стилометрии древнегреческих текстов, поэтике романа «Что делать?» и цифровым коллекциям культурно-значимых данных. В номере также опубликована дискуссионная статья Бориса Орехова и Андрея Володина, которая является ответом на «некролог» российским Digital Humanities от Даниила Скоринкина (Digital Humanities in Russia Was Forever, Until It Was No More: The Story of Russian Digital Humanities in 2011–2022), опубликованный весной 2023 года.

Кроме того, журнал акцентирует внимание на ключевых событиях и значимых публикациях в области цифровых гуманитарных исследований. Среди материалов — статья Динары Гагариной с обзором круглого стола «Digital Humanities в Центральной Азии» и рецензия Дарьи Артемьевой на монографию Джулии Томпсон Кляйн, где освещается проблема разграничения областей знания в Digital Humanities.

Учредителем и издателем журнала является Институт русской литературы (Пушкинский Дом) РАН. Его главный редактор — Борис Орехов. Ознакомиться с первым номером, как и с последующими, можно бесплатно на сайте Пушкинского Дома. Там же можно узнать про условия отправки материалов.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

09 Dec, 16:36


ChatGPT — 2 года!

Два года назад состоялся релиз ChatGPT — модели, о которой вы точно слышали, даже если не интересуетесь нейросетями и никогда не читали наши дайджесты новостей из мира искусственного интеллекта. А если всё-таки не слышали — загляните в наш каталог, где мы ультракратко просуммировали главную информацию. Вспоминаем наши материалы о чат-боте и разбираемся, как он изменил нашу жизнь (если вообще изменил).

ChatGPT и писатели


В 2023 году мы провели эксперимент, чтобы разобраться, как и чем будут различаться тексты ChatGPT и реального писателя по одному запросу (спойлер: тексты модели намного более консервативны). А ещё выяснили, что нейросети неплохо подражают стилю разных авторов, но допускают грамматические ошибки.

Пока мы писали эти материалы и общались с нейросетью, японская писательница Риэ Кудан не только написала роман с помощью ChatGPT, но и получила за него престижную литературную премию. Если вы тоже так хотите, мы собрали для вас инструкцию!

ChatGPT и фантазии

Ещё одна проблема ChatGPT – галлюцинации. Модель легко приписывает Толстому роман «Отцы и дети» и убеждает пользователя, что в фильме «Любовь и голуби» сыграла Эмили Блант. И хотя на английском бот отвечает чуть точнее, ошибок и выдумок всё равно много.

ChatGPT и новые версии

Модель периодически обновляется, но пользователи не всегда остаются довольны новыми версиями. О том, как улучшения показателей в некоторых типах задач могут помешать качественному выполнению привычных функций, мы рассказали здесь.


ChatGPT и вы

А что о ChatGPT думаете вы? Пользуетесь ли им ежедневно или никогда не взаимодействовали с нейросетью? Голосуйте в нашем опросе или расскажите о своем опыте работы с чат-ботом в комментариях под этим постом!

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

08 Dec, 15:10


Позвони мне, позвони: как мобильные данные помогают изучать неравенство

У социального неравенства в разных странах есть множество причин и особенностей. Как есть и множество инструментов — в том числе цифровых — для изучения этой проблемы. Ученые из Сингапура, например, измерили городскую сегрегацию с помощью мобильных данных. Рассказываем о том, как социально-экономические группы оказались разделены не только в физическом, но и виртуальном пространстве города.

Кратко: о чём статья?

Обычно сегрегацию измеряют по месту жительства (residential segregation), высчитывая различные индексы сегрегации: самые популярные это индекс непохожести (index of dissimilarity), индекс энтропии (Theil’s entropy index) и индекс изоляции (isolation index). Для этого используют перепись населения и социально-экономические показатели, такие как уровень дохода.

Однако исследователи из MIT решили учесть не только место жительства, но и те места, которые люди посещают ежедневно, обратившись к мобильным данным. Они разделили город на более и менее дорогие ареалы вокруг каждого пользователя мобильной связи и распределили людей по категориям в зависимости от их места жительства: сделали шкалу из статусных кластеров. После этого ученые подсчитали индекс коммуникационной сегрегации для каждого пользователя сотовой сети. 

Это позволило убедиться, что люди с самым лучшим социально-экономическим положением являются самой сегрегированной частью населения и общаются в основном с себе подобными.
 
Помимо этого ученые измерили индекс физической сегрегации, который в зависимости от времени суток показывает, насколько активно человек взаимодействует с людьми из других статусных кластеров (спойлер: центр города становится более интегрированным во время обеда).

Узнать больше о городской сегрегаци, результатах исследования и посмотреть на (очень эффектную) карту коммуникаций Сингапура можно в статье на сайте.

Время чтения: 6,5 минут.

Системный Блокъ

05 Dec, 15:02


Ресурсы для цифровых стиховедов: поэтические корпуса

Сегодня двойной поэтический день рождения: 5 декабря с разницей в 17 лет родились два выдающихся русских поэта — сначала Фёдор Тютчев в 1803 году, а затем Афанасий Фет в 1820-м. В связи с такой важной для поэзии датой предлагаем вспомнить, какие поэтические корпуса будут полезны тем, кто хочет отличать Фета от Тютчева исследовать поэтическое наследие — русское и не только.

Поэтический подкорпус НКРЯ

Первый в истории поэтический корпус, доступный с 2006 года, сегодня он насчитывает 101 521 текст. В стихотворениях размечены метр, строфика и другие параметры, указаны автор, дата создания и жанры. По всем этим признакам можно искать информацию и задавать подкорпус. 

Башкирский поэтический корпус

Вторым поэтическим корпусом в мире стал Башкирский, созданный в октябре 2013 года Борисом Ореховым. Коллекция текстов корпуса состоит из произведений 103 башкирских поэтов XX и начала XXI века. Благодаря нему можно узнать не только о башкирском стихе, но и о башкирском языке в целом. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам.

Персидский поэтический корпус

Персидский поэтический корпус был опубликован весной 2020 года. Он содержит тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии).

Мультиязычный корпус поэзии PoeTree

Проект PoeTree, опубликованный в 2023 году, включает более 330 000 стихотворений на десяти языках (чешский, английский, французский, немецкий, венгерский, итальянский, португальский, русский, словенский и испанский). Каждый корпус был очищен от дубликатов, снабжен морфосинтаксической разметкой в формате Universal Dependencies и снабжен метаданными. Тексты и метаднные доступны в виде унифицированных JSON-файлов.
 
Поэтические корпуса — это культурное достояние и важный источник, содержащий информацию о национальной поэзии и языке конкретного временного периода. Если вы использовали для своих исследований (или других целей?) эти и другие поэтические корпуса, пожалуйста, расскажите о них в комментариях!

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

02 Dec, 15:03


Утечка доступа к Sora, открытые аналоги OpenAI o1, протокол общения между LLM и приложениями от Anthropic

Рассказываем, что произошло в мире ИИ за последние две недели.

Утечка доступа к Sora

Группа художников с ранним доступом к видеогенератору Sora выступила против условий тестирования OpenAI и опубликовала программу для работы с нейросетью.

Согласно правилам OpenAI, художники получают доступ к Sora для исследования её возможностей, поиска уязвимостей (включая генерацию нежелательного контента) и предоставления обратной связи разработчикам.

В открытом письме участники программы критикуют многомиллиардную компанию за использование их труда без справедливой компенсации. Авторы письма не против использования ИИ в искусстве, но не согласны с подходом OpenAI. Художники также опубликовали примеры работ Sora и программу с доступом к закрытому API, позволяющую любому экспериментировать с нейросетью.

В ответ OpenAI через три часа отключила доступ всем участникам тестирования. 

Нейросеть Sora была представлена ещё в марте. Затем несколько компаний представили аналоги, в том числе и открытые для использования, на которые ссылаются авторы письма.

Рассуждающие модели от китайских лабораторий

Две китайские лаборатории выпустили LLM, обученные генерировать цепочки размышлений перед ответом. Подобную технику улучшения качества ответа ранее представила компания OpenAI вместе с моделями o1.

Первая модель DeepSeek R1-Lite от лаборатории DeepSeek опережает o1-preview в задачах по математике и программированию, однако хуже нее в задачах на логические рассуждения. Качество ответов модели от DeepSeek растет с увеличением длины рассуждений (её можно варьировать). R1-Lite можно попробовать совершенно бесплатно. Релиз кода и весов модели, а также технический отчёт, по словам лаборатории, должен произойти в ближайшее время.

Вторая модель, QwQ-32B-Preview от лаборатории Qwen, по качеству также сопоставима с моделями o1 и доступна всем желающим. Она находится на ранней стадии разработки, и поэтому у неё есть ограничения и несовершенства.

Открытые данные о методах обучения рассуждающих моделей и доступ к ним позволят open-source сообществу сократить отставание от закрытых коммерческих компаний.

Открытый протокол для общения между LLM и пользовательскими приложениями

Компания Anthropic представила Model Context Protocol (MCP) — открытый протокол, позволяющий языковым моделям взаимодействовать с данными и функциями сторонних приложений. MCP упрощает интеграцию языковых моделей в различные продукты.

Протокол работает по классической клиент-серверной архитектуре, где клиентом выступает приложение с языковой моделью, а MCP-сервер обеспечивает доступ к внешним данным и функциям.

Рассмотрим пример: разработчики приложения для хранения заметок хотят дать пользователям возможность анализировать свои записи через приложение ChatGPT. Пользователь пишет: «Сделай выжимку из моих заметок о планируемом отпуске». И чат-бот обобщает заметки. Для этого разработчики создают MCP-сервер — программу, которая обрабатывает запросы от приложения ChatGPT и передаёт необходимые данные из базы приложения заметок. В контексте примера запрос включает идентификатор пользователя и тип запрашиваемой информации (заметки). Полученные от сервера заметки позволяют ChatGPT сгенерировать выжимку.

MСP-сервер также может предоставлять доступ к функциям приложения. Например, разрешить добавление новых заметок в аккаунт. Если пользователь просит ChatGPT сохранить полученную выжимку как новую заметку, бот запрашивает у сервера список доступных функций, находит нужную и отправляет запрос с её названием и параметрами (заголовком и содержанием заметки). Получив этот запрос, сервер создаёт новую заметку с указанными данными.

Вместе со спецификацией протокола Anthropic выложила код MCP-серверов для популярных приложений (Github, Google Drive, Slack, Google Maps и других), которые позволяют интегрировать их с приложением для общения с Claude (моделью от Anthropic), а также сервер для взаимодействия с локальной файловой системой пользователя.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

30 Nov, 16:30


ЕГЭ, ОГЭ и современные тексты: школьный канон сегодня

В рамках дата-исследования «Системного Блока» о школьном каноне, мы уже рассказывали о судьбе русских и зарубежных авторов, и даже текстах народов СССР в школьной программе. Сегодня фокусируемся на современных произведениях и экзаменах, которые определяют содержание уроков литературы.

🌞 Кого читают?

С 2016 года в списки произведений вошел большой пласт современной литературы: школьникам предлагалось изучить тексты Василия Аксенова, Светланы Алексиевич, Бориса Акунина*, Дмитрия Быкова*, Виктора Пелевина, Мариам Петросян, Людмилы Петрушевской, Захара Прилепина, Людмилы Улицкой*. После 2023 года из этого списка остался лишь Прилепин.

🔫 «Застывает» ли школьный канон?

Мы поговорили с Михаилом Павловцом, доктором филологических наук и преподавателем лицея НИУ ВШЭ, чтобы понять, как меняется список чтения сегодня. Согласно его комментарию, сейчас мы «переживаем этап “замораживания” канона: в основном если в него и вводятся какие-то произведения — они в него возвращаются из позднесоветских программ по литературе (вроде романов Островского или Фадеева), а редкие исключения — как публицистическая книга митрополита Тихона (Шевкунова) — безусловно скорее историософский манифест, чем художественное или серьезное научное произведение».

🪓 Как связаны ЕГЭ и школьная программа?

Кодификаторы ЕГЭ содержат обязательный минимум, необходимый для сдачи экзамена. Эти нормативные документы меняются редко, однако их состав отличается от примерных программ по литературе. Например, в 2006 году там не было Ломоносова, Карамзина, Крылова и многих других авторов. К 2009 году это изменилось, но затем кодификатор не менялся до 2021.

В 2021 году программа ЕГЭ стала объемнее (в первую очередь за счет своей необязательной части), в 2022 – продолжила расширяться, а в 2024 снова обновилась. В этот раз в неё вошли «Что делать?» Николая Чернышевского, «Как закалялась сталь» Николая Островского и историко-публицистическое исследование митрополита Тихона (Шевкунова) «Гибель империи. Российский урок».

Узнать больше об этих и других изменениях в школьной программе за последние 100 лет, а также о том, когда в список для ОГЭ вошли «Поучение» Владимира Мономаха и «Домострой», можно из полной версии материала.

🤖 «Системный Блокъ» @sysblok

*признаны иностранными агентами в РФ

Системный Блокъ

27 Nov, 17:50


Антипапа, телеграф и RAR-архив: долгая жизнь кодовых книг

Как связан «Великий шифр» 17 века и формат архивирования RAR? Кодовые книги — инструмент преобразования информации, который появился еще в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации. Разбираемся с алгоритмами и кодовыми книгами вместе с Музеем криптографии.

📕 Как устроена кодовая книга?

Кодовая книга — своеобразный словарь, в котором собраны часто встречающиеся или тематически важные слова и выражения, а также отдельные буквы, цифры и символы. При шифровании все или часть слов сообщения заменяются на соответствующие им в книге кодовые слова или группы. Вместо книг могли использоваться кодовые таблицы — меньшие по объему и содержащие обозначения ключевых имен собственных (политических фигур, городов и т.п.).

📗 Какие кодовые книги были в средневековье?

Самый ранний известный пример — система, разработанная Габриэлем де Лавинде для Антипапы Клемента VII в 1379 году, а самый известный – «Великий шифр» Антуана Россиньоля. В нём было порядка шестисот кодовых групп для обозначения отдельных букв и слогов, а также слов и имен собственных. Он использовался вплоть до начала XIX века и считался невзламываемым до 1893 года.

📘 Что изменил телеграф?

С появлением телеграфа криптография перестала служить только целям секретности — чтобы хранить государственные, военные и коммерческие тайны. Теперь она понадобилась простым гражданам — для приватности. Правда, телеграфные кодовые книги обычно печатались большими тиражами и были доступны в широкой продаже и иногда использование шифрования жестко контролировалось государством. Но у этого шифра была и другая функция — сжатие объёма сообщений. Позже правила использования кодовых книг и тарификации закодированных и зашифрованных сообщений обсуждались и принимались на отдельных Телеграфных конференциях.

📙 Что стало с кодовыми книгами?

С развитием систем телекоммуникации телеграфная связь подешевела, и кодовые книги потеряли свою актуальность. А для защиты приватности появились более надежные механические и электромеханические шифраторы. Однако у кодовых книг осталось огромное наследие. Например, метод сжатия RAR. Данные разбиваются на небольшие блоки — «слова», и для наиболее частотных «слов» назначаются более короткие кодовые обозначения.

Узнать о связи «Великого шифра» с «Человеком в железной маске», взломе телеграммы, повлиявшем на ход мировой истории, и послании про семьдесят обезьян можно из полной версии текста.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

24 Nov, 09:30


Советские учебники: возрождение в цифре

Согласно статистике «Яндекс Вордстат» интерес к советским учебникам стабильно сохраняется на протяжении всего учебного года и падает во время летних каникул. Значит ли это, что учителя или родители используют эту литературу? Зачем? Мы обратились к бесплатным ресурсам и проанализировали их: пользуясь рубрикатором или открытой статистикой, посмотрели предметный состав архивов, а также обратили внимание на комментарии составителей.

1️⃣ Библиотека Ушинского

Электронная библиотека «Школьные учебники» — основной ресурс старых оцифрованных учебников, где представлено 90 учебников, 101 исследование и 300 авторов. Все издания вычитаны и оцифрованы, так что пользователи могут свободно перемещаться по структуре издания и производить поиск по тексту. Особенно много здесь учебников по русскому, но встречаются и другие дисциплины – вплоть до церковнославянского.

2️⃣ Любительский цифровой архив советских учебников

Сайт «Советские учебники» — это самостоятельный ресурс, который поддерживается одним человеком. Здесь можно найти .pdf и .djvu версии не только учебников по языкам и математике, но и, например, по овощеводству, стенографии и… плаванию!

3️⃣ Цифровой музей советской эпохи

Учебникам посвящен целый раздел сайта «Советское время». В этом архиве, к примеру, есть книга «Физика и музыка» (1962 г.), в 11-й главе которой рассказывается о том, как сочиняют музыку «электронные композиторы» — кибернетические машины.

Кто занимается оцифровкой и публикацией?

Мы почитали обсуждение советских учебников в соцсетях и поговорили с авторами ресурсов и учителями. Оказалось, что большинство любительских ресурсов с учебниками в открытом доступе созданы энтузиастами, которые считают советское образование лучшим в мире и хотят сохранить наследие этой эпохи.

Узнать подробнее об отношении родителей и учителей к советским учебникам и их цифровым версиям, а также о других ресурсах, где можно найти нужные пособия, можно из полной версии материала.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

21 Nov, 15:01


Смерть на улице: как бездомность сокращает жизнь и что об этом знает статистика

Потеря человеком постоянного места жительства приводит к невозможности получать постоянную и полноценную медицинскую помощь. В результате бездомные теряют 19 лет жизни, умирая намного раньше остальных россиян. «Системный Блок» вместе с благотворительной организацией «Ночлежка» @nochlezhka, Благотворительной больницей @charityhospital и платформой «Если быть точным» @tochno_st изучил данные о причинах смертности бездомных женщин и мужчин.

Мужчины и женщины


За 2023 год в России умерли 57,5 тыс. бездомных людей, 73% из которых — мужчины, 27% — женщины. Такая диспропорция объясняется тем, что мужчины чаще оказываются на улице. При этом «женщины чаще находятся в ситуации скрытой бездомности. Например, соглашаются на ужасные условия проживания хоть где-то. При этом им приходится терпеть неприятное отношение, физическое или сексуализированное насилие», — объясняет специалист «Ночлежки» по социальной работе Ксения Ершова.

Причины смерти

Как посчитали в «Если быть точным», бездомные чаще остальных россиян умирают от внешних причин (шанс умереть в 3,6 раза выше). Выше и риск смерти от инфекционных болезней и заболеваний пищеварения и дыхания. При этом 68% смертей от инфекционных и паразитарных заболеваний — это смерти от ВИЧ, ещё 24% — от туберкулеза, 4% — от гепатита.

Медицинская помощь

Бездомные люди, если у них нет документов (паспорт РФ и полис ОМС), могут получить бесплатно только экстренную медицинскую помощь. Лечить хронические болезни, которые часто развиваются у бездомных, без паспорта или регистрации затруднительно. По закону человек без документов может находиться в больнице до двух недель. Дальше, по усмотрению врача, его могут оставить в стационаре, но часто людей выписывают.

Подробнее о том, как проживание на улице сокращает жизнь, и о том, как «Ночлежка» и другие организации помогают бездомным, узнаете из полной версии материала.

Время чтения: 11 минут.


🤖 «Системный Блокъ» @sysblok

Системный Блокъ

18 Nov, 15:02


Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода

Рассказываем, что произошло в мире ИИ за последнее время.

ИИ-лаборатории ищут новые пути развития

Сотрудники компаний, занимающихся разработкой LLM, таких как OpenAI и Anthropic, отмечают, что существующий метод улучшения моделей перестал приносить значительные результаты. До недавнего времени качество языковых моделей повышалось за счёт увеличения вычислительных ресурсов, направленных на рост их размеров (размер GPT вырос в 1000 раз за пять лет) и объёмов данных для обучения.

При этом улучшение моделей предсказуемо зависит от объёма использованных ресурсов. Однако сейчас компании столкнулись с тем, что дополнительные затраты на ресурсы больше не приводят к существенным улучшениям.

Недавно OpenAI представила модель o1 с принципиально другой схемой работы: масштабирование вычислений происходит не во время обучения, а при её использовании. Модель o1 использует разный объём вычислений в зависимости от сложности пользовательского запроса.

Другие компании также ищут альтернативные выходы из ситуации. Об этом в том числе заявил бывший топ-исследователь OpenAI Илья Суцкевер, основавший свою компанию Safe Super Intelligence Inc.

AlphaFold3 стала доступна для исследователей


Лаборатория Google DeepMind опубликовала модель AlphaFold3 в открытый доступ. Ранее доступ к модели осуществлялся через API с ограничением в 20 запросов в день. Теперь исследователи могут запускать и использовать её самостоятельно. Лицензия модели запрещает коммерческое использование.

AlphaFold3 — третья версия системы для предсказания трёхмерной структуры белков. За разработку AlphaFold исследователи Google DeepMind получили в этом году нобелевскую премию по химии.

Qwen2.5-Coder — новая лучшая открытая модель для кода


Компания Alibaba Group (владелица AliExpress, Taobao и ряда других площадок) выпустила серию моделей, генерирующих программный код, Qwen2.5-Coder.

Модель доступна в четырёх размерах — 0.5 / 3 / 14 / 32 млрд параметров. Самая большая версия стала лидером среди открытых моделей по качеству написания кода и сравнялась с GPT-4o. Модель поддерживает 40 языков программирования. Все версии, кроме модели с 3 млрд параметров, доступны для использования в исследовательских и коммерческих целях.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

11 Nov, 16:46


Достоевский и цифровые технологии

Сегодня День рождения Федора Михайловича Достоевского. В этот день мы предлагаем вспомнить три материала «Системного Блока»: о судьбе Достоевского в школьных списках чтения, о том, как мы обучали нейросеть генерировать тексты в его стиле и о самых частых словах в его произведениях.

Достоевский и школьная программа


Недавно мы рассказывали, что только 16 произведений встречались в 90% всех советских и современных программ. Ни одного текста Достоевского среди них нет.

Хотя сегодня представить список чтения без «Преступления и наказания» может быть сложно, несколько поколений советских школьников его творчество не изучали. Из-за резко консервативных антиреволюционных взглядов (вспомните роман «Бесы» или публицистический цикл «Дневник писателя») Достоевского исключили из программы в конце 1930-х и вернули только в 1967. 

Подробнее о Достоевском и других писателях в школьной программе узнаете из нашего спецпроекта.

Достоевский и языковая модель

Для туторила по fine-tuning (способу улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок) мы выбрали маленькую версию русскоязычной модели ruGPT3 и готовый корпус произведений Достоевского. Подстраиваясь под стиль писателя, модель сгенерировала, например, фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…».

Узнать о дообучении нейросетей и этом эксперименте больше, можно здесь.

Достоевский, Россия, женщины и дети

Не обошелся без Достоевского и двухчастный гайд «Системного Блока» по Voyant Tools. Этот инструмент помогает, например, с поиском коллокаций (слов, которые чаще всего встречаются рядом с заданным). По корпусу Достоевского, например, мы определили, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики. А ещё выяснили, кто встречается в текстах писателя чаще — ребенок, женщина или старик (спойлер: ребенок!).

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

10 Nov, 12:01


Как анализ данных предсказывает успех художника?

Портрет «Мужчина в золотом шлеме», который считался считался жемчужиной Берлинской картинной галереи, долгое время приписывали Рембрандту. Когда выяснилось, что он написан кем-то другим, стоимость картины снизилась в разы — как и поток туристов, желающих на нее посмотреть.

Это показательная история о том, что на ценность картины влияют факторы, не связанные с ее художественными достоинствами напрямую. Например, имя автора. Или престиж художественного направления, в котором этот автор работал. Или даже просто попадание в престижный музей.

На основе данных о 767 473 выставках и 127 208 аукционах исследователи построили сеть из 16002 галерей и 7568 музеев и выявили большое и плотно связанное сообщество музеев, которые имеют доступ к богатейшим коллекциями и активно обмениваются ими друг с другом. Изучив данные из 143 стран за 36 лет, ученые выдвинули гипотезу о том, что предопределяет успех художника.

Анализ данных показал, например, что попадание в престижный музей на раннем этапе карьеры с большой вероятностью определит дальнейшую карьеру творца. Работы тех авторов, которые с самого начала выставлялись в престижных местах, продаются в среднем в 4.7 раз чаще и стоят в 5.2 раз дороже, чем у тех, кто изначально оказался в непрестижных музеях и галереях. Более того, из тех художников, кто начинал выставляться в малопрестижных местах, лишь чуть больше 10% пробились в престижные музеи к концу жизни.

Подробнее об исследовании можете прочитать в нашей статье, а в комментариях предлагаем вам поделиться мнениями о том, где здесь причина, а где – следствие. Это престижные музеи хорошо умеют отбирать талантливых художников? Или талантливыми признаются те художники, которые были отобраны престижными музеями?

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

09 Nov, 12:02


Как найти в геноме проблему? Базы данных и секвенирование здоровых людей

Секвенирование генома — это способ «прочитать» ДНК человека, который преобразил генетику и уже стал частью рутинных исследований. Но зачем читать геномы здоровых людей? Почему важно, чтобы в базах данных были представлены разные популяции? Как вопросы секвенирования решают в России? Рассказывает Нина Андреева, медицинский биоинформатик, исследовательница Лаборатории мультиомики Центра живых систем МФТИ.

Кратко: о чем статья?

Секвенирование — это метод, который используется для исследования ДНК и РНК и входящих в них белков. Первый геном человека был секвенирован в 2001 году. На это ушло более 10 лет исследований и около 3 млрд долларов. А сегодня секвенирование генома — достаточно рядовой анализ, хотя и не самый дешёвый: его стоимость составляет около 1000 долларов. Миллионы образцов человеческих геномов уже отсеквенированы.

Одна из важнейших целей секвенирования — уточнить диагноз у людей, которые страдают от генетических заболеваний, но сбор данных о геномах условно здоровых людей не менее важен – он помогает различать опасные и безопасные варианты.

Если вариант ДНК встречается в базах данных с геномами здоровых людей часто, то он, скорее всего, безопасен. Для проверки редких патогенных вариантов (тех, что могут вызвать болезни), используются международные базы данных. Например, GnomAD — самая крупная бесплатная база, содержащая сведения о геномах разных популяций. 

В базе GnomAD отдельно вынесены популяции финнов, амишей и евреев Ашкенази, но этого явно недостаточно, и огромное количество популяций в мире все еще остается непредставленными. Эта проблема актуальна и для России. 

В октябре 2024 года появилась «База данных популяционных частот генетических вариантов населения Российской Федерации», которая помогает отсекать распространенные в российской популяции варианты и более точно находить причину заболеваний. Правда, в ней нет деления на более мелкие популяции, которые стоило бы исследовать отдельно, ведь геном жителя Кавказа будет отличаться от генома жителя Якутии.

Узнать подробнее о том, как базы данных помогают выявлять причины моногенных и полигенных заболеваний, а также о процессе изучения генетических заболеваний, можно из полной версии статьи.

Время чтения: 8 минут.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

08 Nov, 08:20


Между Пушкиным и Цоем: дата-анализ отечественной литературы в школьной программе 

В третьей части нашего дата-исследования школьной программы мы рассказываем об отечественной литературе. В первой разбирались с литературой зарубежной, а во второй – с текстами народов СССР.

Кратко: о чем третья часть?

На протяжении XX и XXI веков школьные программы по литературе сильно изменились, мы обнаружили всего 16 текстов, которые встречаются в 90% из них. Это, например, «Вишнёвый сад», «Война и мир» и «Горе от ума». В остальном список литературы оказался менее стабилен.  

Самые ранние программы в нашем корпусе относятся к 1919 и 1922 годам, когда список чтения ещё не слишком изменился после революции. Тогда в школе было больше произведений XVIII века и много античных авторов — читали Гомера, Софокла и Аристофана. 

В полном смысле советский литературный канон сформировался ближе к 1930-м годам, но был не слишком стабильным. Если в начале 1930-х школьники изучали творчество Анны Ахматовой, Федора Достоевского и расстрелянного в 1921 году Николая Гумилёва, то к 1940-м их произведения были исключены. Зато появились «Сказание о Сталине» и «Плач о Ленине».

В 1950-х и 1960-х изменения продолжились: меньше стало Горького с Лермонтовым, исчезли Жуковский и Короленко. Их место заняли современные писатели-соцреалисты Твардовский, Кочетов и Федин (спойлер: сейчас соцреализм снова возвращается в школы).

После 1970-х годов программы менялись уже не столь радикально: 42 произведения встречаются во всех программах последних 50 лет. И всё-таки один важный для школьной программы год точно стоит отметить. В 1991 в список литературы возвращаются Булгаков, Ахматова и Гумилёв. Впервые появляются тексты Солженицына, Цветаевой, Пастернака, Мандельштама и Бродского. По выбору – Окуджавы и Цоя.

Узнать больше о судьбе разных писателей до Лимонова и Прилепина в школьной программе, текстах Горького, которые школьники читали в разные годы, и состоянии школьного канона сегодня, можно из полной версии материала.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

05 Nov, 08:58


Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newz — эйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnaya — Сиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_ML — gonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @rybolos_channel — Kali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @boris_again — Борис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @tech_priestess — Техножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAI — DealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblok — Системный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

Системный Блокъ

04 Nov, 15:12


Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

Рассказываем, что произошло в мире ИИ за последние две недели.

Новинки от Anthropic


Компания Anthropic, главный конкурент OpenAI, представила новые версии своей средней и малой моделей — Claude Sonnet и Haiku. Новый Claude Sonnet 3.5 в основных тестах показывает себя лучше своего предшественника. Особенно сильно улучшилась генерация кода — в ней модель стала новым лидером на рынке.

Миниатюрная Haiku 3.5 также показала заметный прогресс относительно прошлой версии и сравнима с GPT-4o mini, однако уступает недавно обновлённой Gemini Flash от Google.

Компания также показала новый сценарий использования своих языковых моделей — Computer use. В этом режиме пользователь ставит перед моделью задачу и предоставляет ей доступ к компьютеру. Модель поэтапно выполняет задание, ориентируясь по скриншотам и взаимодействуя с интерфейсом, как человек: кликая по элементам, вводя текст и так далее.

Computer use можно применять для автоматизации рутинных операций на компьютере, например, заполнения простых отчётов или тестирования программ на наличие ошибок. Подобное использование LLM исследовалось ранее, однако Anthropic стала первой компанией, которая представила готовое коммерческое решение.

Генерация видео для всех

Стали доступны две нейросети, способные генерировать видео по текстовым описаниям: Mochi 1 от компании Genmo и Allegro от Rhymes AI. Обе модели могут быть использованы как для исследовательских целей, так и для коммерческого использования.

Сегодня Mochi 1 — самая большая открытая моделью для генерации видео. Всего в ней 10 млрд параметров, она способна генерировать видео с качеством 480p длиной до 5,4 секунд, 30 кадров в секунду.

Allegro более компактная — более чем в три раза меньше Mochi 1. Модель может генерировать видео с качеством 720p длиной до шести секунд, 15 кадров в секунду.

Бум развития моделей для генерации видео произошёл после релиза модели Sora, представленной OpenAI ещё в марте. О том, как работает Sora, вы можете узнать в нашем материале. После выхода модели от OpenAI уже несколько компаний успели представить свои решения.

LLM + поиск = ?

OpenAI выпустила ChatGPT Search — поисковую систему, интегрированную с ChatGPT. ChatGPT Search ищет необходимую информацию в интернете и использует её, чтобы ответить на вопрос пользователя. Например, можно спросить у модели, где поужинать сегодня вечером, или попросить сделать сводку по определённой теме. Система не лишена недостатков обычного ChatGPT — она подвержена галлюцинациям.

Google также предоставила доступ к своей языковой модели Gemini, способной искать информацию в Google. Это позволит пользователям получать более актуальные и релевантные ответы на свои запросы.

Идея комбинации поисковых систем и языковых моделей не нова: Google уже пыталась встроить ИИ в поиск. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

03 Nov, 16:01


Перспективы искусственного интеллекта: прогнозы ученых

Как будет развиваться ИИ в ближайшем будущем? Перспективно ли пытаться научить компьютер думать, как человек? Может ли не хватить данных для обучения искусственного интеллекта? Попробуем ответить на эти вопросы.

Невыученный урок

Недавно мы рассказывали о том, что для создания качественного машинного перевода и языковых моделей, нужен совсем не тот же подход, который лингвисты применяют к естественному языку. А как обстоят дела с мышлением? Нужно ли моделировать в компьютере человеческие представления о мире, чтобы усовершенствовать ИИ?

Короткий ответ: тоже нет 

Ричард Саттон, признанный ученый в области искусственного интеллекта, ещё в 2019 году пришел к выводу, что долгосрочный прогресс в ИИ был возможен благодаря методам, которые опирались на рост вычислительных мощностей и увеличение доступных вычислительных ресурсов, не пытаясь воссоздать процесс человеческого мышления.

Примеры из прошлого

В 1997 году компьютер Deep Blue победил в шахматах чемпиона мира. Deep Blue играл с помощью brute force поиска — поиска оптимального шага путём перебора большого количества вариантов. Никакого человеческого понимания игры.

Подобная история повторилась в 2016 году с го — игрой, более сложной с точки зрения количества комбинаций. В области компьютерного зрения человеческие знания тоже проиграли статистическому подходу.

Вычисления и данные

Для повышения качества моделей важны не только вычисления, но и данные, на которых обучают модель, причем прежде всего – высокого качества. В случае языковых моделей, например, научные публикации и новости важнее форумов и блогов. Ежегодно количество данных высокого качества растет на 4–5%, а низкого – на 6–17.5%.

Что нас ждет

В случае текстовых данных высокого качества исследователи прогнозируют, что при сохранении текущих трендов их общий запас исчерпается до 2027 года. К счастью, динамика может измениться, да и появление принципиально нового источника данных, например, VR и AR устройств, не стоит исключать.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

01 Nov, 18:41


Михаил Гельфанд возвращается в РАН

Известного биоинформатика и борца с фальшивыми диссертациями Михаила Гельфанда, уволенного из Института проблем передачи информации РАН после прихода туда нового начальства, восстановили в должности по суду. Мы поздравляем Михаила Гельфанда и вспоминаем интервью, которое «Системный Блокъ» взял у ученого в 2023 году. Из него вы узнаете, как работают фабрики по производству диссертаций, можно ли отловить купленные научные работы и в каких научных дисциплинах больше всего фальсификаций.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

01 Nov, 16:02


Машинное обучение и японская уличная мода: как возникают и распространяются стили

Как женский костюм отражает экономическое состояние страны? Можно ли изучить моду отдельной улицы? И как в этом помогает кластеризация? На примере японского цифрового архива моды CAT STREET рассказываем об исследованиях на стыке антропологии и машинного обучения.

👒 Зачем ученым мода?

Модные тренды интересуют не только стилистов. Собирая базы данных, ученые разрабатывают алгоритмы, которые могли бы предсказывать будущие тенденции, и изучают моду как социальное явление. При этом можно изучать не только отдельные эпохи, но и отдельные… территории. Ведь иногда в разных кварталах города группируются сообщества, которые имеют свои характерные стили.

👗 Что такое CAT STREET?

База CAT STREET (в открытом доступе её, увы, нет) работает именно с этим феноменом, концентрируясь на моде торговых улиц Токио. Сегодня в ней собрано 14 688 изображений, отражающих повседневную моду женщин с 1970 и 2017 год. Чтобы изучить её эффективнее, ученые применили модель кластеризации, которую уже проверяли на другой базе – FashionStyle14. Это помогло создать список наиболее характерных стилей.

👜 Что мы узнали благодаря базе?

Теперь CAT STREET стал удобным инструментом для изучения моды. Например, благодаря нему ученые выявили, что женщины чаще выбирают стиль консервативный стиль в одежде, когда экономика растет. А еще – что стили на знаковых торговых улицах Харадзюку и Сибуя заметно отличаются, хоть улицы и находятся поблизости. Более того, на одной из них стиль мог появиться и вскоре исчезнуть, а на другой – сохраниться.

Узнать подробнее об этих и других исследованиях моды с применением цифровых технологий, а также о стилях Gal, Fairy и Kawaii-kei можно из полной версии статьи.

Время чтения: 18 минут.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

30 Oct, 13:02


Большие данные Большого террора

Сегодня день памяти жертв политических репрессий. Репрессивная система СССР опиралась на массивную бюрократию, поэтому память о жертвах репрессий хранят расстрельные списки, архивы с уголовными делами, посмертные справки о реабилитации. Теперь эта память стала цифровой — и открытой для исследований. Вспоминаем, какие базы жертв репрессий существуют.

Жертвы политического террора

Сбором и оцифровкой данных о репрессиях занимается «Международный Мемориал»*: cегодня их база содержит более 3 миллионов записей с информацией о дате и месте рождения, месте проживания и работы, дате ареста и приговоре. 

Это прямо здесь

География репрессий волнует многих исследователей, поэтому на основе данных «Мемориала» созданы несколько ресурсов с геопривязкой. Самый известный — московский «Это прямо здесь». Здесь можно обнаружить места массовых расстрелов, здания тюрем, лагерей и лагпунктов, захоронения расстрелянных. Всего — свыше 830 объектов.

Не только жертвы, не только репрессий

Информация есть не только о жертвах системы, но и о тех, кто в ней работал – в отдельной базе данных собрано почти 50 тысяч имен сотрудников органов государственной безопасности СССР с 1935 по 1939 годы.

Еще одна крупная база посвящена остарбайтерам — жителям оккупированных территорий СССР, перемещенных для работы в Германию и возвратившихся после войны.
Узнать подробнее об этих базах данных и о том, какие сложности возникают при их создании и дальнейшей стандартизацией информации, можно из полной версии статьи. А если вы знаете о других проектах и базах данных, которые помогают изучать тему Большого террора — расскажите о них в комментариях.

🤖 «Системный Блокъ» @sysblok

*Международный Мемориал ликвидирован решением ВС РФ 28 февраля 2022 года

Системный Блокъ

28 Oct, 15:32


🌸Про ABBYY и будущее лингвистики🌸
#nlp #про_nlp

По тг разошёлся текст Системного Блока про ABBYY, да и правда, после истории массовых увольнений очень хотелось подвести какую-то черту. Напишу свои 5 копеек, потому что можно сказать, что вокруг ABBYY начиналась моя карьера.

ABBYY долгое время считалась самой лучшей компанией, куда мог бы устроиться лингвист.
Когда я только поступала на ОТиПЛ, туда шли работать лучшие выпускники. При этом ходило мнение, что вот, дескать, интеллектуальная эксплуатация — забирают лучших выпускников, которые могли бы быть успешными учёными, и фуллтайм заставляют писать правила на Compreno. (Ну и правда, в 2012 году там 40-60к платили, а в академии меньше.)

Помимо прочего, ABBYY оранизовывала самую большую NLP конференцию — Диалог, а также создала интернет-корпус русского языка, спонсировала кучу NLP-соревнований и shared tasks, которые распаляли многих проверить свои гипотезы на практике.

🟣Что же теперь делать лингвистике?
Лингвистика разберётся!
Я думаю, текущий вызов даже не самый серьёзный за историю существования кафедры. Да, последние годы приходилось работать под давлением общественного мнения, хайпом LLM...ну так он пройдёт.

Аналитическая, теоретическая лингвистика нужна самой себе и другим наукам:
— как понять и описать происхождение языка,
— как определить биологические ограничения, повлиявшие на язык
— как язык влияет на мышление и обратно,
— как смоделировать максимально общую теоретическую модель языка, описывающую процессы в языках мира,
— как проверить и описать, что находится в корпусе.

Все эти вопросы остаются нужны, и остаются ключевыми вопросами лингвистики.

А языковые модели и NLP потихоньку поглощают уже другие науки:
— OpenAI нанимает филдсевских лауреатов в т ч для составления SFT датасета по математике
— они же нанимают PhD в разных дисциплинах для разметки и валидации данных.

Так что в жернова ИИ пойдут уже выпускники других специальностей. А лингвистика будет заниматься делом.

Системный Блокъ

27 Oct, 07:54


Две правды и одна ложь: изучаем DH-портал

Digital Humanities (Цифровые методы в гуманитарных науках) — одна из главных тем для «Системного Блока». Мы часто рассказываем о том, как цифровые инструменты помогают в изучении истории, литературы и искусства. 

Чтобы вы могли узнать об этом больше и быстрее ориентироваться в гуманитарных исследованиях, в которых используются количественные методы, мы создали точку входа в DH

Там вы найдете блоги, глоссарий, наши статьи по теме и информацию о том, где можно обучаться DH. А ещё — ответ на вопрос ниже. Впрочем, можете, конечно, попробовать не искать, а просто угадать, какое из трех утверждений в викторине — ложное.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

26 Oct, 17:31


Анализ и визуализация данных: отслеживаем мировую историю

История, записанная в текстовом формате или при помощи обычных карт, может быть трудна для восприятия. «Системный Блокъ» рассказывает, как масштабный анализ архивных документов и инструменты визуализации помогают исследовать историю международных конгрессов — предшественников ключевых мировых организаций.

Кратко: о чем статья?

Международные конгрессы — движение, начавшееся еще в 1840-х, которое предшествовало ключевым международным организациям — Лиге Наций, ООН и ВТО. Вокруг съездов и конгрессов со временем сформировались контролирующие их деятельность организации, например, Союз Международных Ассоциаций (СМА). Целью проекта «Mapping a century of International Congresses» стала визуализация огромного количества информации о более чем 8000 международных конгрессах 1840-1960 годов на основе ежегодных данных и документации СМА.

Анализ документации СМА позволил составить несколько важных визуализаций. Например, гистограммы (столбчатые диаграммы) распределения конгрессов по городам позволили выделить 12 ведущих стран, в разное время принимавших конгрессы. Для более простой визуализации информации был также выбран вариант, близкий к тепловым картам, где значения документации отображаются при помощи цвета или тона. Так, «тепловая карта» позволяет оценить расположение конгрессов по городам — это, например, «космополитический треугольник» Париж, Лондон, Брюссель, где конгрессмены собирались чаще всего.

Более подробно о том, как анализ и визуализация данных помогли выяснить, почему конгрессы больше всего распространялись на европейском континенте, а также о том, как тепловые карты помогли определить «периферийные столицы», читайте в полной версии статьи.

Время чтения: 5,5 минут

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

25 Oct, 14:31


Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP 

Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более глубокой истории. Закат ABBYY — это фиксация проигрыша последней битвы лингвистов за автоматическую обработку языка. Мир Data Science победил. Главный редактор «Системного Блока» Даниил Скоринкин, работавший ABBYY в 2013–2017, подводит итоги и пытается сформулировать уроки из этой истории.

Что за ABBYY и при чем тут лингвисты и NLP?

История ABBYY началась в 1989 году, когда студент МФТИ Давид Ян решил сделать электронный словарь для подготовки к экзамену. Так появились Lingvo, а затем — система распознавания символов FineReader. Продукты ABBYY развивались, и компания стала глобальным лидером оптического распознавания в 1990-е и 2000-е. Затем ABBYY двинулась покорять машинный перевод. 

На вооружение они взяли идеи известных лингвистов — в первую очередь Модели «Смысл ⇔ Текст» (прочитать о ней можно в нашем интервью с И. А. Мельчуком). Амбиция была в том, чтобы разобрать человеческие языки как формальные структуры на базе семантической иерархии. Но естественный язык устроен противоречиво и постоянно изменяется, подход оказался негибким и немасштабируемым

Что пошло не так?

В 2006-м появилась первая версия Google Translate. Она была несовершенной, но главное, что в ней был другой — статистический — подход. И масштабируемость. Для её улучшения не нужны были сотни лингвистов, только еще больше примеров перевода. В 2010-х стало ясно, что никаких шансов тягаться с Google Translate у ABBYY не было. С перевода ABBYY переключилась на задачи информационного поиска и извлечения информации из текста, но и там столкнулась с теми же проблемами: описания языка на базе лингвистической теории оказались немасштабируемыми, а решения уступали подходам на основе чистого машинного обучения. 

C новой проблемой компания столкнулась весной 2022 – им пришлось выехать из России, чтобы сохранить зарубежных клиентов. Следующим ударом стали большие языковые модели, который научились выполнять те же задачи, что и классические системы распознавания от ABBYY. Сейчас от компании осталась только вывеска, действующие продукты и небольшое количество менеджеров и специалистов по продажам.

Какие уроки мы извлекаем?


За 70 лет исследований ИИ стало ясно, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных. А желание ABBYY сделать универсальную NLP-систему с опорой на лингвистическую теорию оказалось утопией. 

И всё-таки ABBYY успела сделать много важного: открывала кафедры на Физтехе и в РГГУ, оцифровывала наследия Льва Толстого и архива Большого театра. А еще благодаря ей появился «Системный Блокъ», ведь сооснователи издания познакомились именно там. И именно там вы сможете прочитать полную версию поста с мемами, фотографиями и более детальным описанием цифровой «Вавилонской башни», которую пыталась строить ABBYY.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

24 Oct, 11:02


«Системный Блокъ» объявляет осенний набор участников!

«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.

Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!

В посте — неполный перечень ролей, которые сейчас открыты, а в статье  — подробное описание задач и пожеланий к участникам.

1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»

Если вас заинтересовала одна из ролей – приглашаем
заполнить форму до 7 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!

upd. Продлили набор до 7 ноября

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

21 Oct, 09:01


Нобелевские премии за нейросети, ИИ-функции в приложениях Adobe, новые модели от Mistral

Рассказываем, что произошло в мире ИИ за последнее время.

Нобелевская премия за ИИ?

Сразу две нобелевские премии получили исследователи в области машинного обучения.

Премией по физике были награждены Джон Хопфилд и Джеффри Хинтон (его также называют крёстным отцом ИИ) за «фундаментальные открытия и изобретения, которые сделали возможным машинное обучение с использованием нейронных сетей». Оба учёных использовали концепции из физики при разработке своих моделей: сетей Хопфилда и машины Больцмана.

Лауреатами премии по химии стали Дэвид Бейкер за «вычислительный дизайн белков», а также Демис Хассабис, руководитель Google DeepMind, и Джон Джампер — за «предсказание структур белков». Дэвид Бейкер одним из первых разработал вычислительные методы для дизайна новых белков. Демис Хассабис и Джон Джампер являются авторами метода AlphaFold, который способен по последовательности аминокислот, соответствующей белку, предсказывать его 3D-структуру. Ранее мы писали о выходе AlphaFold 3, а также об устройстве самого метода.

Обе награды вызвали неоднозначную реакцию в научном сообществе из-за косвенной связи работ с научными областями, в которых были номинированы учёные, — физикой и химией.

Генеративный ИИ в продуктах Adobe

На недавней презентации Adobe Max компания представила новые функции на базе нейросетей.

Photoshop получил функции Generative Fill и Generative Expand, с помощью которых пользователь может «расширить» изображения: например, дорисовать по бокам фото пейзажа. Помимо этого появилась функция Distraction Removal, позволяющая автоматически находить и убирать визуальный шум вроде проводов или прохожих.

Пользователи, работающие с видео, теперь могут сгенерировать в Premiere Pro несколько кадров в произвольном месте записи. Это может быть полезным в ситуациях, когда фрагмент резко обрывается или когда видеоряд нужно выровнять с аудиопотоком.

Новинки от Mistral

Французская компания Mistral выпустила две новые миниатюрные языковые модели Ministral с 3 и 8 млрд параметров. Модели подходят для локального запуска на мобильных устройствах. По показателям в основных тестах обе версии Ministral существенно опережают модели, сопоставимых размеров от Google и Meta*. Ministral выложен в открытый доступ для исследовательских целей, а для коммерческого использования компания предлагает платный API.

Mistral была основана выходцами из Meta*, которые работали над первой версией LLama, и стала известна после релиза Mistral 7B. Эта языковая модель превосходила по качеству LLama и при этом была доступна для коммерческого использования бесплатно, чем привлекла интерес со стороны ИИ-сообщества.

​​*Компания Meta признана экстремистской, а её деятельность запрещена на территории РФ

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

20 Oct, 17:15


Еще 5 слов машинного обучения

Объясняем еще несколько терминов машинного обучения из глоссария «Системного Блока». Из материала узнаете о недообучении, переобучении и глубинном обучении, а также о галлюцинациях и эмбеддингах.

Недообучение

Недообучение модели — обучение, которое ограничено потенциалом модели, и/или обучающей выборки, и/или самой процедурой обучения. Оно приводит к плохому качеству модели как на обучающих данных, так и на тестовых. В таких случаях говорят, что модели не хватает выразительной способности.

Недообучение случается, когда модель слишком простая, чтобы аппроксимировать зависимость. Оно также может возникнуть, если объём данных слишком велик, и у модели не хватает параметров для их обработки. Или наоборот, если данных недостаточно для качественного обучения. Недообучение также может возникнуть при неверном подборе способа настройки параметров модели или недостаточном количестве шагов обучения.

Переобучение

Переобучением модели называют обучение модели, при котором итоговая модель хорошо работает на обучающих данных, но плохо — на тестовых. В таких случаях говорят, что модель обладает низкой обобщающей способностью.

Среди причин переобучения могут быть тип модели и количество её параметров, качество и объём обучающих данных, а также неправильная настройка процедуры обучения. Например, если обучающих данных значительно меньше, чем параметров модели, существует высокая вероятность, что модель «запишет» всю обучающую выборку в свои параметры, что приведёт к нулевой ошибке на обучающих данных, но высокой на тестовых.

Чтобы избежать переобучения, применяют техники регуляризации. Например, аугментацию данных — создание новых обучающих данных на основе исходных.

Глубинное обучение

Это подобласть машинного обучения, которая занимается изучением нейросетей с большим количеством параметров. Эти нейросети представляют особый интерес, так как увеличение числа параметров значительно улучшает качество их предсказаний и усиливает их способность к обобщению.

Галлюцинации

Галлюцинации — фактологические неверные ответы языковых моделей, ложность которых сложно распознать. Их важная черта — правдоподобность. Примеры галлюцинаций — это случаи, когда языковая модель говорит о несуществующем рассказе известного писателя, приводит ложную статистику об обороте компании, дает неверный совет.

Галлюцинации возникают из-за несовершенства большого массива обучающих данных, качество и достоверность которых могут значительно варьироваться. Кроме того, модель обучается на данных, собранных до определённого момента времени, поэтому она не способна отвечать на вопросы о событиях, произошедших после этого периода.

Для уменьшения количества галлюцинаций в моделях используется, например, метод Retrieval-Augmented Generation (RAG). ОН позволяет интегрировать внешние источники данных, такие как база с документацией компании, энциклопедии или интернет, в работу языковой модели, чтобы повысить точность ответов.

Эмбеддинги

Синоним эмбеддингов — векторное представление данных, которое обычно получают с помощью моделей машинного обучения. Это компактные наборы чисел фиксированной длины. Каждое число в таком наборе отвечает за определённую характеристику данных, а весь набор в целом описывает данные. Например, эмбеддинг слова может состоять из 128 чисел, где пятое число указывает на род слова, а 100-е — на принадлежность слова к категории, описывающей животных.

В виде эмбеддинга можно представить изображения, видео, тексты, аудио, а также более специфичные данные: профиль пользователя соцсети, товар в магазине или молекулы. Такие числовые наборы легко хранить в памяти компьютера, и он может оценивать степень их сходства. Благодаря этим свойствам эмбеддинги позволяют оперировать данными на уровне их смысла.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

20 Oct, 08:52


Проверяем знания по машинному обучению

Вновь предлагаем вам пройти небольшой тест. Как и в прошлый раз, в коротком описании мы заменили на Х один из терминов машинного обучения. Однако на этот раз задача посложнее: мы уже не используем базовые понятия, такие как «нейросеть» или «модель», а предлагаем проверить знания более глубокого уровня. Попробуйте догадаться, что скрывается под Х, а вечером мы расскажем не только об этом, но и о четырех новых терминах.

Описание:

Х — фактологические неверные ответы языковых моделей, ложность которых сложно распознать. Важная черта Х — правдоподобность.

Х может возникнуть из-за несовершенства обучающих данных, качество и достоверность которых могут значительно варьироваться.

Примеры Х: языковая модель может рассказать о несуществующем рассказе известного писателя, привести ложную статистику об обороте компании, дать неверный совет.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

16 Oct, 15:40


Тест: Угадайте произведение по частотным словам из Национального корпуса русского языка

С помощью НКРЯ можно выявить слова, которые чаще встречаются в каком-то одном произведении, чем во всём остальном корпусе. Некоторые из них могут быть совсем не примечательны (например, «улыбка» в «Войне и мире»), а некоторые сразу выдают текст (как «черномор» в «Руслане и Людмиле»). Мы постарались найти золотую середину и собрали для вас по пять слов из текстов школьной программы. Благодаря тесту вспомните (или узнаете):

🎁 где часто встречались «дар» и «друг»;

🪆 кто писал про «Русь» и «дрянь»;

🐸 какой классический текст можно определить по слову «лягушка»;

📚 и многое другое!

Пройти тест

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

14 Oct, 16:31


Гендерное неравенство в литературе: от персонажей до писательниц

Проблема гендерного неравенства заметна во всех сферах общества — в том числе в литературе. Писательниц было традиционно меньше, чем писателей, сюжетные линии между персонажами разного пола представлены неравномерно, а гендерные стереотипы касаются и героев, и героинь произведений.

В подборке материалов «Системного Блока» мы рассказываем о роли женщин в литературном процессе и о том, почему представители обоих полов по-разному воспринимаются как авторами, так и читателями.

Толстой и Пушкин — сексисты? 

В первой части корпусного исследования мы изучали, есть ли гендерное неравенство в русской классической литературе. Вы узнаете, как описывали мужчин и женщин Толстой, Достоевский и Пушкин. Например, что женщины не только чаще «устают», но и чаще «исчезают». А еще женщины и мужчины в русской лиетратуре зачастую по-разному говорят и любят: это помогли понять прилагательные и глаголы. Подробнее – здесь

Кстати, в этом исследовании мы не рассматривали «Повести покойного Ивана Петровича Белкина» и «Капитанскую дочка», но написали про них отдельный материал.

Набоков и Булгаков — сексисты? 

Это вторая часть корпусного исследования русской классики, но более поздней: в неё вошли тексты Владимира Набокова и Михаила Булгакова. Прочитав статью, вы узнаете, насколько сильно изменилось описание мужчин и женщин в русской литературе за столетие. К примеру, мужчины у Набокова стали более эмоциональными, а женщины в романах Булгакова чаще говорят и действуют. Это что, проблески равноправия?

А что в английской литературе?

В XX веке шла усиленная борьба за права женщин, и, казалось бы, за ней должны были последовать изменения и в литературном процессе: увеличение количества авторов-женщин и более достоверная репрезентация женщин в произведениях. Однако исследователи, применив методы машинного обучения на материале английской литературы, доказали обратное. О том, всегда ли были такие тенденции в книгах на английском языке, читайте в нашем материале.

Автор или авторка: влияет ли пол автора на восприятие произведения?

Важен ли пол автора для читателя? Оказывается, да! Чем отличаются произведения авторов-женщин от произведений авторов-мужчин? Как пол читателя влияет на оценку книг, написанных женщинами? Мы кратко описали эксперименты и результаты исследования Корнелии Кулен, автора (авторки?) книги Reading beyond the female: The relationship between perception of author gender and literary quality.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

13 Oct, 15:45


5 слов машинного обучения

Объясняем основные термины машинного обучения из глоссария «Системного Блока». Из первой части материала узнаете о языковых моделях, нейросетях и выборках, на которых их обучают.

Машинное обучение 

Машинное обучение — это набор методов, которые позволяют компьютеру решать задачи, не используя заранее заданный человеком алгоритм решения. Например, машинное обучение позволяет обучить компьютер отличать кошек от собак на фотографиях, хотя у компьютера нет конкретных инструкций, вроде «если есть острые уши и усы, то это кошка».

Вместо инструкций и правил компьютеру «показывают» много разных примеров с ответами. В случае с классификацией животных образцом будет изображение кошки или собаки с правильным названием объекта.

Когда компьютеру показывают примеры, он обучается извлекать из них не только все необходимые закономерности, но и информацию о том, как использовать эти закономерности для решения задачи. Машинное обучение изучает методы обучения. Набор примеров образует выборку, а результатом процесса обучения является обученная модель.

Модель

Модель — это математическое описание зависимости между входными данными и выходными. В задаче классификации кошек и собак входные данные — это изображение, а выходные данные — название животного на изображении. Другой пример: входные данные — дата, выходные данные — температура воздуха в этот день. 

Есть много способов описывать зависимости математически. Каждый способ имеет определённые свойства и подходит под определённый вид зависимости. Например, в экономике зачастую используют линейные модели, которые описывают пропорциональное изменение выходной величины (количество товара) при изменении входной величины (цены/спроса и т. д.).

Примеры других популярных моделей, помимо линейных: деревья решений, случайный лес, нейросети.

Выборка

Выборка — это набор данных, который используется для обучения или анализа модели. Она содержит входные данные и — опционально — выходные данные, которые модель должна предсказать. В случае, когда выходные данные присутствуют, их называют разметкой, а саму выборку — размеченной. 

Примеры выборок с разметкой: изображения цветов и их названия, песни и их жанры, аудиодорожки и их расшифровки.

Примеры выборок без разметки: списки просмотренных видео пользователей YouTube, набор текстов одного писателя.

Существует и более широкое определение выборки, о котором можно прочитать в другом нашем материале.

Нейросеть

Нейросеть — это один из видов моделей машинного обучения. Её отличительная черта — способность описывать самые разные зависимости, за счёт чего нейросети можно использовать в большом количестве задач.

Ещё нейросети можно дообучать на новых данных. Например, модель, которая умеет определять вид растений, можно относительно легно обучить распознавать новый вид.

Наконец, нейросети хорошо масштабируются: при правильном увеличении количества параметров и обучающих данных качество нейросети растёт.

Языковая модель

Языковая модель — модель машинного обучения, которая при данном ей контексте предсказывает для каждого слова в языке вероятность того, что оно является продолжением данного контекста. Простейший пример такой модели — это набор текста в смартфонах. 

Современные языковые модели (вроде GPT) могут не только оценивать вероятность продолжений, но и следовать инструкциям пользователя, например, кратко пересказывать текст и оценивать его эмоциональную окраску. Такие способности у модели появляются за счёт дополнительного дообучения на выборке из инструкций и соответствующих ответах. Такое обучение называют инструктивным.

Благодаря выразительной способности языка и инструктивному обучению языковые модели могут выполнять широкий спектр задач. Подробнее об этом можно узнать в нашем материале.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

13 Oct, 07:58


Знаете ли вы термины машинного обучения?

Проверяем вместе с сегодняшним опросом. В коротком описании мы заменили на Х один из ключевых терминов машинного обучения. Постарайтесь догадаться, что мы здесь зашифровали, а вечером мы расскажем не только об Х, но и о четырех других важных понятиях.

Описание:


Х — это набор данных, который используется для обучения или анализа модели. Х содержит входные данные и — опционально — выходные данные, которые модель должна предсказать. В случае, когда выходные данные присутствуют, их называют разметкой, а саму Х — размеченной. 

Примеры Х с разметкой: изображения цветов и их названия, песни и их жанры, аудиодорожки и их расшифровки.

Примеры Х без разметки: списки просмотренных видео пользователей YouTube, набор текстов одного писателя.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

12 Oct, 17:01


Что изучают антропологи в интернете? Подборка материалов «Системного Блока»

Развитие интернета и цифровых технологий открыло новое поле исследований для антропологов. Учёные осознали, что в онлайн-среде формируются уникальные сообщества, культуры и практики, которые можно и нужно изучать. 

Публикуем подборку наших материалов о цифровой антропологии. Из неё вы узнаете, какие методы можно применить к исследованию интернет-пространства, как за последние 40 лет изменились интернет-интерфейсы и зачем собирать слухи в соцсетях?

Этнография в цифровую эпоху: от полей к потокам, от описаний к воздействию

Для начала погрузимся в общие проблемы цифровой антропологии и этнографии и почитаем статью профессора информационных наук Аннет Маркхам. Она специализируется на изучении цифровых пространств и предлагает исследователям новые понятия и методы для работы с онлайн-средой. Несмотря на доступность больших данных и популярность количественных исследований, она подчеркивает важность качественных методов и объясняет, как важно сохранить чувствительность к человеческим голосам и культурам в условиях цифровизации. Мы наблюдаем новые перспективы в цифровой этнографии, где традиционные подходы переплетаются с инновационными методами исследования, пишет Маркхам.

Интернет как способ существования и Big Data как угроза

Во второй части статьи профессор Аннет Маркхам углубляется в опасности, которые несет «датафикация» человеческого опыта. Хотя большие данные и полезны для анализа сложных социальных процессов, важно помнить о культурных и локализованных смыслах, которые могут ускользнуть при чрезмерном увлечении цифрами. Маркхам призывает учёных к социальной ответственности, особенно в тех случаях, когда исследователи консультируют индустрию IT. Ведь технологии могут не только улучшать, но и ограничивать нашу жизнь.

«Цифровой антрополог отличается от Data Scientist’а вниманием к деталям»


В интервью «Системному Блоку» заместитель руководителя Центра городской антропологии КБ «Стрелка» Дарья Радченко рассказывает, как пандемия COVID-19 изменила повседневные практики людей и оставила свои следы в цифровом пространстве. Используя данные из соцсетей, она показывает, как люди заново открыли для себя свои спальные районы во время самоизоляции, и размышляет над ограничениями Data Science в социальных исследованиях. 

Зачем фольклористы и социальные антропологи собирают слухи и считают репосты

В завершение подборки — интервью Александры Архиповой (признана иноагентом в РФ), в котором она раскрывает ещё одну грань цифровой антропологии — сбор слухов и исследование конспирологических теорий. Архипова объясняет, как цифровые базы данных помогают в исследовании фольклора и почему важно учитывать как количественные, так и качественные методы. Она приводит примеры из повседневной жизни: лозунги митингующих, народные рецепты лечения COVID-19 — и подчеркивает, насколько многослойными могут быть цифровые и социальные феномены. Этот материал позволяет взглянуть на антропологию через призму современной культуры и социальных изменений.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

10 Oct, 16:01


Как делать большую науку в бесконечном бегстве: Роман Якобсон vs XX век

Сегодня день рождения Романа Якобсона — человека невероятной судьбы, одного из главных русских лингвистов XX века и настоящего гражданина мира. Постоянная вынужденная миграция не помешала Якобсону развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи и создавать работы, которые окажут влияние на Леви-Стросса. Вспоминаем его биографию в нашей статье.

Кратко: о чем статья?

Якобсон родился в 1896 году и уже в 19 лет стал сооснователем Московского лингвистического кружка. В нём обсуждали проблемы теории и истории литературы, теории и истории языка, следили за всеми достижениями западноевропейской лингвистики.

В 1920-х годах Якобсон эмигрировал в Прагу и продолжил заниматься наукой там. В конце 1930-х, когда город был оккупирован нацистами, Якобсон пытался получить документы на выезд в Данию и писал, что хотел бы использовать месяцы в Копенгагене, чтобы закончить свою книгу о структуре и классификации фонем. В 1941 добрался до Нью-Йорка, где стал соучредителем… Нью-Йоркского лингвистического кружка. А затем преподавал в Гарвардском университете и Массачусетском технологическом институте.

Якобсон продолжал работать над исследованиями независимо от своего местоположения и проблем, которые ему преподносила история XX века. Подробнее о его работе и её обстоятельствах узнаете из полного текста материала.

Время чтения: 13 минут.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

10 Oct, 06:00


Все художественные тексты похожи друг на друга: как сюжетные тенденции выражаются на уровне слов 

Герой покидает дом в поисках чего-то ценного. Герой находит большую любовь в конце истории или, наоборот, трагически погибает. Таинственный незнакомец приносит вести, становящиеся фундаментом для завязки сюжета. Вы наверняка встречали такие ходы во множестве сюжетов. А как выглядит «усреднённая» история? Существуют ли слова, которые наиболее характерны для завязки или финала книги? Попробуем разобраться, используя методы цифровой гуманитаристики!

Кратко: о чем статья?

Вы наверняка слышали о формуле волшебной сказки от Владимира Проппа, четырех типах сюжетов Хорхе Борхеса или 36-ти драматических ситуациях Жоржа Польти. Все они изучали сходства сюжетов художественных произведений. 

Современные исследователи, Бен Шмидт и Дэвид Макклюр, задавались похожими вопросами, но применяли методы цифровой гуманитаристики. Мы решили последовать их примеру и изучить корпус русскоязычной художественной литературы, собранный в рамках проекта СОЦИОЛИТ, в котором можно найти тексты от Карамзина до Солженицына. 

Оказалось, что русскоязычные и англоязычные тексты очень во многом похожи: и те, и другие произведения чаще всего начинаются с описания «характеристик» героев, семейных обстоятельств и места жительства. Зато вероятность найти любовь или погибнуть заметно возрастает к концу текста. Удивительно, но даже на месте очень частотного русскоязычного «гостя» возникает англоязычный stranger. Это выглядит так, что в европейском лингвокультурном коде есть единое понимание того, что может являться завязкой сюжета и наиболее интересно читателю, а что тяготеет к драматичному финалу или развязке произведения.

Проследить за ходом исследования и посмотреть, в какой части текста чаще встречается «лошадь», а в какой – «Россия», можно благодаря полной версии материала.

Время чтения: 10 минут.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

08 Oct, 10:51


Пионеры нейросетей и глубинного обучения получили Нобелевскую премию по физике

Нобелевский комитет в Стокгольме объявил лауреатов Нобелевской премии 2024 года по физике. Ими стали «крестный отец диплернинга» Джеффри Хинтон и Джон Хопфилд, создатель нейронных «сетей Хопфилда». Оба исследователя занимались нейронными сетями с 1980-х годов. При этом нейросетевые алгоритмы десятилетиями оставались маргинальной областью машинного обучения, многие считали их тупиковым и бесперспективным направлением. Благодаря деятельности таких ученых, как Хинтон и Хопфилд, исследования нейросетей продолжались и привели к расцвету LLM в наши дни.

Хотя заслуги обоих исследователей в области искусственного интеллекта и компьютерных наук не вызывают сомнений, в научном сообществе уже идут горячие споры о том, уместно ли вручать за эти заслуги Нобелевскую премию по физике. Вероятно, решение комитета продиктовано тем, что исторически Нобелевская премия не имеет математической номинации, и физика была единственной номинацией, с которой получилось связать работу Хинтона и Хопфилда. В любом случае, мы как энтузиасты развития машинного обучения и искусственного интеллекта поздравляем всю эту область с таким признанием.

А если вам интересно, за что вообще дают “нобелевки”, где нужно родиться, в каком университете работать и до скольких лет ждать, чтобы получить признание Нобелевского комитета, то можете перечитать наше прошлогоднее дата-исследование:

https://sysblok.ru/visual/recept-nobelevskoj-premii-issleduem-otkrytye-dannye-o-laureatah/

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

07 Oct, 15:01


Большие изменения в OpenAI, долгожданное обновление голосового режима GPT, новые LLama

Рассказываем, что произошло за последнее время в мире ИИ.

Исход людей из OpenAI продолжается

25 сентября Мира Мурати, техническая директриса OpenAI, сообщила о своём увольнении. Этот пост Мира занимала шесть с половиной лет, а уход объяснила стремлением разобраться в собственных желаниях и целях.

1 октября один из сооснователей OpenAI Дёрк Кингма рассказал, что присоединился к Anthropic, главному конкуренту OpenAI. Ранее мы также писали об уходе ключевых сотрудников из компании. Таким образом, из четырёх главных лиц компании в штате остался только генеральный директор — Сэм Альтман.

Новый голосовой режим GPT и другие обновления от OpenAI

На недавней презентации для разработчиков компания объявила о запуске обновления голосового режима, благодаря которому GPT может проявлять эмоции, смеяться и петь во время беседы. Релиз обновления состоялся ещё в мае, однако из-за сложностей с правами на голос Скарлетт Йоханссон и мер безопасности обновление стало доступно только сейчас в США и Великобритании. Пользователи из Европейского союза не смогут протестировать нововведения из-за законов, регулирующих ИИ.

Также на презентации OpenAI рассказала о нескольких новых сервисах: Realtime API, который позволит генерировать аудиоответы GPT на текстовые/голосовые вопросы пользователей в реальном времени; возможность дообучать GPT на изображениях (раньше можно было только на текстах), а также дообучать их модели, используя другие (например, обучать маленькую GPT на ответах большой версии).

Новые LLama

Компания Meta* пополнила семейство моделей LLama. Теперь пользователям доступны две компактные LLM: с 1 и 3 млрд параметров. Обе модели были обучены для работы с текстами на разных языках и по качеству несущественно уступают большим версиям LLama. Благодаря своим компактным размерам модели можно использовать на мобильных устройствах.

Помимо этого были представлены две LLM, способные работать не только с текстами, но и с изображениями, в размерах 11 и 90 млрд параметров. По показателям в основных тестах модели сопоставимы с конкурентами.

Все модели доступны для скачивания и коммерческого использования, однако официально модели недоступны на территории Европейского союза.

Google обновила свои LLM

Компания Google обновила свою флагманскую LLM Gemini Pro и компактную модель Gemini Flash. Обе языковые модели теперь могут работать с более длинными текстами: Gemini Pro поддерживает 2 миллиона входных токенов против миллиона у предыдущей версии (токен — единица измерения текста), а Gemini Flash — 32 тысячи против восьми тысяч предшественника. Обновлённые модели существенно лучше в понимании текстов и изображений, а Flash стала ещё быстрее.

*Компания Meta признана экстремистской, а её деятельность запрещена на территории РФ


🤖 «Системный Блокъ» @sysblok

Системный Блокъ

05 Oct, 09:00


Подборка материалов «Системного Блока» ко Дню учителя

5 октября в России и других странах отмечают профессиональный праздник — День учителя (World Teachers' Day). Ко Дню учителя  «Системный Блокъ» сделал подборку статей, которые будут полезны преподавателям. В этих материалах мы рассказываем о тенденциях в современном образовании и конкретных профессиональных инструментах. 

Гендерный дисбаланс в школьном образовании

По данным Министерства просвещения РФ, больше всего мужчин среди учителей ОБЖ, а самые «женские» дисциплины — русский язык и литература. Если не считать педагогов начальной школы: там учителей-мужчин всего 0,7%. О том, как эта ситуация различается в частных и государственных школах и в каких регионах преподавателей-мужчин аномально много, узнаете из нашего поста.

Цифровые технологии помогают преодолеть образовательное неравенство

По данным ООН, закрытие школ во время пандемии, сокращение и автоматизация рабочих мест негативно повлияли на равноправие женщин и мужчин. В статье мы рассказываем о том, как онлайн-образование сокращает этот разрыв. Например, цифровые технологии помогают вовлекать девочек в STEM (новый подход, в котором естественные науки, техника, инженерия и математика объединены в одну систему). А работа в EdTech (от англ. Education Technology — технологии в образовании)  становится одним из самых открытых для женщин карьерных направлений в IT.

Мотивирует ли учеников виртуальная валюта?

Геймификация — одна из тенденций современного образования. Школы и преподаватели заимствуют у игровой индустрии разные способы мотивации учащихся. Среди них — внедрение виртуальной валюты, которую ученики получают за выполнение заданий. О том, как она влияет на образовательные результаты, узнаете из нашего поста

Цифровые технологии делают образование более доступным

Каждый человек имеет право на образование, но не всем легко его получить.  Несмотря на то, что в России, как и в Европе, инклюзивное образование начало развиваться с 1960-х годов, до сих пор полностью решить проблему доступности обучения для людей с физическими или ментальными особенностями здоровья пока не удалось. Цифровые технологии позволяют ещё на один шаг приблизиться к этой цели. 
В нашем материале вы найдёте примеры успешного применения инклюзивных технологий в школах и университетах России и других стран. А ещё узнаете об адаптивных технологиях, которые подстраиваются к уровню знаний и способностей ученика. 

Как использовать дипфейки в образовании?

Ещё один инструмент для увеличения вовлечённости на занятиях — дипфейки. Это технология создания реалистичных аудио, фото и видео на основе искусственного интеллекта. При помощи дипфейков можно, например, «оживить» персонажа обсуждаемой книги или создать обучающий курс с меньшими затратами со стороны учителя. Способами применения дипфейков в образовании делимся здесь

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

04 Oct, 14:02


Горизонтальный перенос генов: ловим бактерию на плагиате

Живые организмы «списывают» друг у друга прямо из генетического кода — этот процесс улучшает их шансы на выживание и адаптацию. «Системный Блокъ» рассказывает о горизонтальном переносе генов и его роли в эволюции, а также о том, какие компьютерные алгоритмы используют биологи для поиска заимствованных фрагментов ДНК.

Кратко: о чем статья?

Обычно закодированный в ДНК план организма, геном, наследуется «по вертикали» — от предков. Однако можно получить и гены неродственных, иногда очень непохожих организмов. Такой процесс называется horizontal gene transfer (горизонтальный перенос генов, HGT) и это еще один двигатель эволюции: так распространяются полезные умения и возникают новые адаптации. Например, бактерии в стрессовых условиях могут целенаправленно захватывать чужую ДНК, чтобы найти там что-то спасительное. Растения когда-то переняли у почвенных бактерий и грибов гены для синтеза лигнина — полимера, который придает растениям прочность и формирует проводящую систему. Без него на суше не вырасти выше мха.

Биоинформатики исследуют HGT, чтобы изучить происхождение древних генов или современную эволюцию патогенов. Чтобы проанализировать горизонтальный перенос и найти плагиат, ученые используют два типа методов. Филогенетические методы сравнивают эволюционные истории разных генов, а параметрические — ищут гены, которые отличаются от остального генома частотами нуклеотидов («букв», из которых состоят ДНК и РНК) или их сочетаний.

Самый простой филогенетический метод можно реализовать с помощью инструмента BLAST: он находит в базе все похожие фрагменты и для каждой находки указывает, насколько совпадение близкое и насколько оно статистически значимо. С помощью таких подходов исследователи обнаружили, например, что бактерии в кишечнике японцев позаимствовали у морских бактерий гены для переваривания водорослей нори.

Подробнее о том, чем полезен и опасен горизонтальный перенос генов, а также о методах его изучения и их схожести с NLP, читайте в полной версии статьи.

Время чтения: 16 минут.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

02 Oct, 15:01


Тест: Паскуда, олух, шваль… что можно узнать о ругательствах в НКРЯ

В 2024 году Национальному корпусу русского языка исполнилось 20 лет. Им пользуются исследователи, педагоги, школьники и все те, кому интересен русский язык в самых разных видах и проявлениях. Например, благодаря НКРЯ можно посмотреть, где появляется слово: в газетах, в русской классике, в устной речи и т. д. А ещё — проследить, как менялись его значение и частота употребления от года к году.

Из нашего нового теста узнаете:

🤪 когда «конченый» стало употребляться как ругательство;

🥸 кто из русских писателей – рекордсмен по использованию слова «паскуда»;

🤡 как часто в детской литературе встречаются «дураки» (спойлер: в одном из сегментов – целых 168 раз на 11 текстов).

Пройти тест

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

01 Oct, 16:01


Запрограммированная сюита: взлёт и падение механического пианино на перфоленте

Продолжаем рассказывать о перфолентах. Обычно они ассоциируются с телеграммами, однако применялись и в автоматических музыкальных инструментах. Историк и сотрудник Центра непрерывного образования НИУ ВШЭ Антон Басов изучил, как появилось механическое фортепиано и при чем тут перфолента

Кратко: о чем статья?

Попытки создать автоматический музыкальный инструмент были еще в IX веке. Тогда главным компонентом таких устройств был валик с выступами, и хотя они позволяли слушать музыку без музыканта, длительность произведений была ограничена, а механизм — дорог. Перфолента позволяла решить обе эти проблемы: она могла быть достаточно длинной, а ее производство было дешевым.

Идея автоматического музыкального инструмента с перфолентой стала развиваться в середине XIX века, а первое механическое фортепиано с перфолентой под названием Pianista было изобретено в 1863 году во Франции. Однако первый настоящий успех приобрели устройства американских изобретателей Мактаммани и Галли. Основанный на их наработках аппарат органетта был переходным этапом от музыкальных шкатулок XVIII века к более совершенным устройствам. Хотя и с ограниченным нотным диапазоном, органетты могли проигрывать довольно длинные музыкальные произведения и пользовались популярностью по всему миру.

Следующим важным этапом в истории автоматических музыкальных инструментов стало появление усовершенствованной механической фисгармонии.. В это же время ученые активно работали над созданием автоматического фортепиано. Эта идея была реализована в виде пианолы — приставки к любому пианино. Однако инструмент не был полностью автоматическим и нуждался в операторе, который, как утверждалось, должен был обучаться примерно три года.

К началу XX века приставки к фортепиано стали заменяться встроенными в корпус механизмами, а новый формат перфоленты наконец стал охватывать весь нотный диапазон — 88 клавиш. В этот период изобретатели старались создать инструмент, способный не просто играть мелодию, но и воспроизводить манеру игры музыканта. Таким устройством стало Welte-Mignon. Благодаря нему сегодня мы можем послушать, как играли Григ, Дебюсси, Скрябин и многие другие.

Какие еще музыкальные инструменты были автоматизированы? Почему быстрый взлет механической музыки сменился столь же быстрым падением? Какой современный инструмент способен записывать манеру исполнения? Более подробно обо всем этом и еще одном применении перфолент, читайте в полной версии статьи.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok

Системный Блокъ

26 Sep, 16:31


Тест: как найти свой восточный язык?

Иногда сложно понять, какой язык нам ближе и нужнее. Хочется и аниме, и корейские дорамы смотреть в оригинале без субтитров, а то и отправиться в Китай или подняться на верхний этаж небоскрёба в ОАЭ.

Если вы вдруг решили изучать восточную культуру и начать с языка, но никак не можете определиться, то этот тест для вас!

📜 Поймёте, готовы ли вы к множеству иероглифов и диалектов китайского и японского.

🌳 Узнаете, в каком языке, чтобы получилось слово «лес», надо просто трижды написать «дерево» (спойлер: в японском).

🍜 Наконец, выберете, что вам ближе – корейский «тосирак», что значит «обед из дома», или гостеприимство, выраженное арабским словом «дыйафа».

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

25 Sep, 07:01


Новые модели от OpenAI, Mistral делает ИИ доступнее и запаздывающий Apple Intelligence

Рассказываем, что произошло за последнее время в мире ИИ.

o1 — новая модель для рассуждений от OpenAI

Компания OpenAI представила новую модель o1. В отличие от моделей линейки GPT, o1 «думает» перед ответом. Подобные техники улучшения ответов посредством промежуточных рассуждений известны давно, подробнее мы рассказывали об этом в нашем материале про Chain of Thought. 

OpenAI усовершенствовала подход и специально обучила модель на цепочках рассуждений, которые ведут к правильным ответам c использованием обучения с подкреплением. По словам компании, о1 подходит для задач, в которых требуется большое количество промежуточных рассуждений, например, в задачах по математике или по программированию. Именно в них модель опережает практически всех конкурентов. OpenAI рекомендует использовать GPT и o1 в связке.

Цены за использование o1 и o1-mini (уменьшенная версия) в разы выше, чем за GPT-4o и GPT-4o mini, поскольку приходится платить за дополнительные выходные токены (токен — «единица» текста, за которую взимается плата). При этом пользователю показывается только упрощённая цепочка рассуждений, а не оригинальная, чтобы конкуренты не использовали эту информацию для улучшения своих моделей.

Выход o1 демонстрирует относительно новую парадигму развития языковых моделей. При традиционном подходе исследователи увеличивают сами модели и количество обучающих данных, то есть тратят всё больше и больше вычислений во время обучения. В случае o1 количество вычислений увеличивается во время использования обученной модели. Этот метод легче и дешевле масштабируется и обладает большей гибкостью. Например, можно генерировать сразу несколько цепочек рассуждений и в конце выбирать наиболее частотный ответ.

Это направление активно исследуется и другими крупными компаниями.

Доступный ИИ от Mistral

Французский стартап Mistral (мы уже рассказывали о нем ранее) представил бесплатный тариф с ограничениями на свои модели, а также существенно снизил цены в платных тарифах. Снижение составило от 30% до 80% в зависимости от модели.

Также стартап представил обновление своей компактной языковой модели Mistral Small и новую мультимодальную модель Pixtral, способную работать с изображения. По качеству в основных тестах обе новинки сопоставимы или опережают конкурентов.

Mistral, основанная бывшими сотрудниками Meta, завоевала известность благодаря разработке языковых моделей, сопоставимых по качеству с лидерами рынка. Отличительная особенность Mistral — предоставление большинства своих моделей бесплатно для некоммерческого использования.

Apple Intelligence задерживается

Летом 2024 года Apple анонсировала систему Apple Intelligence для своих устройств, которая включает в себя усовершенствованную версию голосового ассистента Siri, генерацию и редактирование текстов посредством ИИ, генерацию изображений и многие другие функции на базе машинного обучения.

На недавней презентации iPhone 16 компания Apple объявила о поэтапном запуске этих нововведений, изначально планировавшихся для iOS 18. Американские пользователи получат доступ к обновлениям в октябре, жители других стран — в декабре, а некоторые — только в 2025 году. Причиной задержки стали различия в требованиях государственных регуляторов к системам, использующим ИИ и персональные данные.

Это отставание ставит Apple в невыгодное положение по сравнению с конкурентами на рынке мобильных устройств, уже внедрившими функции на базе AI от Google.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

22 Sep, 17:55


Перфолента: от телеграфа до компьютера

Переходим от перфокарт к перфолентам. Историк и сотрудник Центра непрерывного образования НИУ ВШЭ Антон Басов рассказывает о всемирной истории перфорированных лент: они улучшили телеграф и компьютерные интерфейсы.

Кратко: о чем статья?

Перфолента — носитель информации в виде ленты из гибкого материала (часто бумаги), на котором данные записаны при помощи отверстий, пробитых в определенных местах. Как и перфокарты, она была представлена в 1851 году на Всемирной выставке в Лондоне, а появилась даже раньше них — в 1725 году. Просто нашла применение лишь спустя сто лет. В 1846 году Александр Бейн создал телеграф, использующий перфорированную ленту и работающий с большой для того времени скоростью: он мог передавать 20 000 слов в час. Передатчик Бейна работал так: в бумажной ленте пробивались отверстия, соответствующие по длине точкам и тире телеграфной азбуки. В передатчике лента проходила между двух электродов, замыкая цепь на более или менее короткие промежутки времени. В приемнике эти сигналы разной длительности записывались как точки и тире.

В 1905 году новозеландец Дональд Мюррей создал телеграф, использующий пятибитный код. Эта система, кстати, больше всего применялась в России. Начиная с 1905 года, его аппараты работали на линиях, соединявших Санкт-Петербург с Омском, Москвой и даже Берлином.

Следующим крупным событием в истории автоматических передатчиков стало создание телетайпа — телеграфного аппарата, действующего по принципу пишущей машинки и не требующего от оператора специальных знаний. Долгое время именно телетайп с перфолентой предлагал наиболее практичный интерфейс, обогнав перфокарты.

Какое наследие оставила после себя перфолента? Сегодня, когда вы читаете или пишете текст с применением Unicode, то есть любой текст на цифровом носителе, вы используете технологию кодирования, восходящую к автоматическому телеграфу Александра Бэйна 1846 года.

Более подробную историю перфолент найдете в полной версии материала.

Время чтения: 12,5 минут.

🤖 «Системный Блокъ» @sysblok

Системный Блокъ

19 Sep, 16:31


«Предсказание революций и землетрясений мало чем отличаются»: интервью с Андреем Коротаевым о смертности в 90-е, клиодинамике и прогнозировании социальных взрывов 

Можно ли моделировать исторические процессы при помощи баз данных и математических инструментов? Почему после распада СССР смертность в России и Эстонии была гораздо выше, чем в Грузии, Армении или Узбекистане? Какие факторы позволяют предсказать социальный взрыв и почему повышение качества жизни может привести к революции? Об этом в интервью «Системному Блоку» рассказал доктор исторических наук Андрей Коротаев.

Количественные методы до компьютеров

Андрей Коротаев стал интересоваться ​​использованием количественных методов уже давно. Таблицы, карточки и калькулятор позволили ему убедиться, что главный экономический фактор появления государства и стратифицированного общества — это не производительность труда, а производительность земли. А ещё с их помощью удалось изучить и выявить закономерности в древнейеменских надписях.

Клиодинамика

Клиодинамика — это междисциплинарная область исследований, стремящаяся применить естественнонаучные методы к анализу исторических событий и преобразовывать существующие гипотезы исторического процесса в математические модели. 

Хотя исторические процессы моделируются очень сложно, выяснилась общая закономерность: чем глобальнее процесс, чем больше народу и чем крупнее временной отрезок он охватывает, тем легче он моделируется. 

Алкогольная смертность и 90-e

Резкий рост смертности в 90-е многие объясняли экономическим спадом на фоне развала страны, обнищанием населения. С помощью клиодинамических моделей Коротаеву и его коллеге Дарье Халтуриной удалось привести убедительные аргументы в пользу другой гипотезы – алкогольной. 

Они показали, что в России и Эстонии в этот период демографический спад был, а в Грузии, Армении и Узбекистане — не было. При этом в Грузии прошла гражданская война, и экономика обвалилась больше, чем вполовину. Ереван был зимой занесён снегом, который никто не убирал, не было электричества. Однако на смертности это сказалось не так сильно, как в РФ.

По версии историков, причина в том, что Россия и Эстония — страны «водочной», а не «винной» культуры.  В 90-е в них хлынул доступный алкоголь, произошел колоссальный рост его потребления и такой же колоссальный рост смертности. 

Подробнее об этом исследовании, а также о предсказании революций с помощью метрик и эффекте мальтузианской ловушки читайте в полной версии интервью.

🤖 «Системный Блокъ» @sysblok