Искусственный интеллект – Пифия современности
#ai
Публикация: Savcisens, G., Eliassi-Rad, T., Hansen, L. K., Mortensen, L. H., Lilleholt, L., Rogers, A., ... & Lehmann, S. (2023). Using sequences of life-events to predict human lives. Nature Computational Science, 1-14.
На пятый день после наступления нового года, когда беспечность настоящего постепенно угасает, неизбежно задумываешься о будущем... В долгосрочной перспективе оно кажется неосязаемым и туманным – по крайней мере, для нас. Но не для искусственного интеллекта!
Недавно в Nature Computational Science была представлена модель life2vec, предсказывающая жизнь людей. Модель опиралась на данные жителей Дании от 25 до 70 лет с 2008 по 2016 года. Эти данные представляли собой детализированную последовательность событий в сферах труда и здоровья: получение зарплаты или стипендии, устройство на работу, посещение врачей, постановку диагнозов и т. д. Используя эти данные, расположенные в хронологическом порядке, модель оценивала каждое событие как изолированно, так и в контексте всей последовательности жизни человека целиком. Это и позволяло осуществить предсказание на ближайшие четыре года.
С технической точки зрения важно подчеркнуть, что в модели не использовались традиционные методы предсказания временных рядов, поскольку события жизни человека характеризуются многомерными признаками и не регистрируются через равные промежутки времени. Наконец, само понятие времени в данном случае усложняется, так как представлено и датой события, и возрастом конкретного человека. С учётом всех сложностей была использована архитектура трансформера. Все категории событий жизни человека составили синтетический "вокабуляр", и последовательность событий жизни рассматривались как "предложения", состоящие из элементов этого вокабуляра. Если упрощать, то задача предсказания следующих событий жизни человека сводилась к задаче предсказания следующих "слов" по аналогии с тем, как это делают ИИ-чатботы.
Что именно может предсказывать модель? Концептуально ограничений нет, поскольку для каждого типа предсказаний на основе сырых данных формируется новое пространство векторов, специфичных для этого типа. То есть каждое событие жизни может быть по-разному представлено в контексте типа предсказания. Это и делает модель в чём-то универсальной. С её помощью удалось предсказать как раннюю смертность для выборки людей от 35 до 65 лет, так и психологически тонкие показатели, связанные с десятью личностными характеристиками экстраверсии. Интересно, что life2vec превзошла модели (рекуррентные нейронные сети), натренированные на данных, относящихся исключительно к предсказываемой переменной.
Представляет интерес пример (см. Рис.) двумерной проекции жизней людей для случая с предсказанием смертности. Выделенные на изображении (d) регионы 1 и 2 соответствуют высокой вероятности выживания и смерти соответственно. Примечательно, что в немалая часть региона 2 представлена молодыми людьми (f), которые в действительности умерли (см. красные точки), что указывает на сложный характер предсказаний, с которыми справилась модель. Реальные смерти, близкие к региону 1 (высокая вероятность выживания) и соответствующие ложно-отрицательному результату, объяснялись несчастными случаями, возникновениями новообразований или инфарктом, что действительно сложнее предсказать на основе имеющихся данных.
Из ограничений модели следует отметить использование лишь небольшого промежутка времени длиной в 8 лет, а также возможные социодемографические искажения, связанные с отсутствием данных тех, кто не получает зарплату или не посещает медицинские учреждения. Впрочем, ничто не мешает в дальнейшем использовать и иные источники данных – например, социальные сети.
Этические сомнения также возникают, но они настолько очевидны, что не требуют пояснений.
P. S. Отдельная благодарность подписчице канала Алине за наводку на статью. И для заинтересованных – по этой ссылке можно найти репозиторий с исходным кодом.