https://www.1x.tech/discover/introducing-neo-gamma
DL in NLP Telegram Gönderileri

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь: @dropout05 (рекламы нет)
Связь: @dropout05 (рекламы нет)
12,690 Abone
547 Fotoğraf
13 Video
Son Güncelleme 11.03.2025 07:47
Benzer Kanallar

36,670 Abone

21,332 Abone

8,186 Abone
DL in NLP tarafından Telegram'da paylaşılan en son içerikler
https://www.youtube.com/watch?v=uVcBa6NXAbk
https://www.1x.tech/discover/introducing-neo-gamma
https://www.1x.tech/discover/introducing-neo-gamma
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
Всем приветики. Давно не было постов, тк становится всё сложнее вести канал. Не буду обещать что исправлюсь, но буду постить когда есть что-то о чём другие каналы не говорят достаточно.
И сегодня будут не новости (о ChatGPT Operator можете прочитать где угодно), а открытая позиция на PhD студента в моей старой лабе в UMass Lowell - Text Machine Lab.
Это NLPшная позиция с довольно широким спектром того чем можно заниматься: от interpretability и prompting до alignment, мультимодальных моделей, low-rank training, PEFT итд. Глава лабы - Prof. Anna Rumshisky исследователь в UMass Lowell, MIT и в Amazon Alexa AI/Amazon AGI. Например, она один из авторов Amazon Nova
Требования: релевантный бакалавриат+магристратура/специалитет, хорошее понимание линейной алгебры, анализа, вероятности, базовые знания Deep Learning и NLP. Большим плюсом будут опубликованные статьи (включая воркшопы), но строгого требования на них нет.
Позиция fully funded - ваше обучение будет покрыто полностью и вам будут платить стипендию которой достаточно для проживания в Массачусеттсе.
Для подачи высылайте ваше CV и короткое cover letter на [email protected]. Для попадания в поток 2025 надо сделать это до 15 февраля
Если хотите прочитать про мою историю поступления и первые дни в США, я в 2019 писал об этом серию постов и вот первый: telegra.ph/CHast-1-Postuplenie-08-24
И сегодня будут не новости (о ChatGPT Operator можете прочитать где угодно), а открытая позиция на PhD студента в моей старой лабе в UMass Lowell - Text Machine Lab.
Это NLPшная позиция с довольно широким спектром того чем можно заниматься: от interpretability и prompting до alignment, мультимодальных моделей, low-rank training, PEFT итд. Глава лабы - Prof. Anna Rumshisky исследователь в UMass Lowell, MIT и в Amazon Alexa AI/Amazon AGI. Например, она один из авторов Amazon Nova
Требования: релевантный бакалавриат+магристратура/специалитет, хорошее понимание линейной алгебры, анализа, вероятности, базовые знания Deep Learning и NLP. Большим плюсом будут опубликованные статьи (включая воркшопы), но строгого требования на них нет.
Позиция fully funded - ваше обучение будет покрыто полностью и вам будут платить стипендию которой достаточно для проживания в Массачусеттсе.
Для подачи высылайте ваше CV и короткое cover letter на [email protected]. Для попадания в поток 2025 надо сделать это до 15 февраля
Если хотите прочитать про мою историю поступления и первые дни в США, я в 2019 писал об этом серию постов и вот первый: telegra.ph/CHast-1-Postuplenie-08-24
Programming Massively Parallel Processors
https://a.co/d/6QEiuCq
Наткнулся на книгу которая кажется весьма известна в мире GPU-программирования. Она довольно детально погружается в Nvidia GPU и CUDA. В четвертом издании (2022 года) ещё и добавили современные архитектуры: Ampere (A100) и Hopper (H100). Это важно тк архитектуры довольно сильно изменились с 2016 года.
Очень надеюсь просмотреть хотя бы по-диагонали и найти что-то полезное для себя, но вообще выглядит что если хотите низкоуровнево прогать на GPU это must read.
Если погуглить четвертое издание то можно найти и более бесплатные альтернативы амазону
https://a.co/d/6QEiuCq
Наткнулся на книгу которая кажется весьма известна в мире GPU-программирования. Она довольно детально погружается в Nvidia GPU и CUDA. В четвертом издании (2022 года) ещё и добавили современные архитектуры: Ampere (A100) и Hopper (H100). Это важно тк архитектуры довольно сильно изменились с 2016 года.
Очень надеюсь просмотреть хотя бы по-диагонали и найти что-то полезное для себя, но вообще выглядит что если хотите низкоуровнево прогать на GPU это must read.
Если погуглить четвертое издание то можно найти и более бесплатные альтернативы амазону
Почему не стоит верить nvidia-smi “GPU utilization”
arthurchiao.github.io/blog/understanding-gpu-performance/
Nvidia использует очень особый способ определения утилизации GPU. 100% означают не что девайс загружен на 100%, а что хотя бы одно ядро было использовано хотя бы чуть-чуть 100% времени за последние N (мили)секунд
Очень яркий пример это примитивы синхронизации: когда вы вызываете torch.barrier GPU Utilization становится 100% при том что на самом деле железо просто «активно ждет».
Для реальной оценки загруженности GPU лучше использовать SM Occupancy которая показывает средний процент загрузки ядер GPU (то что я бы изначально ожидал увидеть от utilization честно говоря).
Для этого рекомендуют использовать dcgm-exporter
arthurchiao.github.io/blog/understanding-gpu-performance/
Nvidia использует очень особый способ определения утилизации GPU. 100% означают не что девайс загружен на 100%, а что хотя бы одно ядро было использовано хотя бы чуть-чуть 100% времени за последние N (мили)секунд
Очень яркий пример это примитивы синхронизации: когда вы вызываете torch.barrier GPU Utilization становится 100% при том что на самом деле железо просто «активно ждет».
Для реальной оценки загруженности GPU лучше использовать SM Occupancy которая показывает средний процент загрузки ядер GPU (то что я бы изначально ожидал увидеть от utilization честно говоря).
Для этого рекомендуют использовать dcgm-exporter
Soumith Chintala (создатель pytorch) выдаёт базу о том как тренироваться на 10К GPU
x.com/soumithchintala/status/1841498799652708712
Оч короткий TL;DR (всем рекомендую прочитать оригинал, он не длинный)
1. Maximize batch size and GPU utilization: 3D parallelism + gradient checkpointing
1. Overlap communication, e.g. while N-1th layer is computing backward, all GPUs with an Nth layer can all-reduce
1. Optimize for your GPU cluster network topology
1. Failure recovery, at 10k GPU scale, things fail all the time -- GPUs, NICs, cables, etc
1. At 10K scale bit flips actually become a problem and can cause loss explosions. Save your model state as frequently and as quickly as you can. To speed it up save it in shards and to CPU memory first and then in a seaprate thread write to disk
x.com/soumithchintala/status/1841498799652708712
Оч короткий TL;DR (всем рекомендую прочитать оригинал, он не длинный)
1. Maximize batch size and GPU utilization: 3D parallelism + gradient checkpointing
1. Overlap communication, e.g. while N-1th layer is computing backward, all GPUs with an Nth layer can all-reduce
1. Optimize for your GPU cluster network topology
1. Failure recovery, at 10k GPU scale, things fail all the time -- GPUs, NICs, cables, etc
1. At 10K scale bit flips actually become a problem and can cause loss explosions. Save your model state as frequently and as quickly as you can. To speed it up save it in shards and to CPU memory first and then in a seaprate thread write to disk
https://x.com/hughbzhang/status/1838288923656941860?s=12&t=QgBLS4SmhE8cqdYBmhrqJA
O1 mini inference scaling experiments
Прикольное саммари экспериментов одного чела. Коротко: если убедить модель дольше думать (что пока что непросто) pass@1 реально будет расти лог-линейно. При этом это скорее всего не majority voting или self consistency тк эти методы упираются в потолок
Прикольное саммари экспериментов одного чела. Коротко: если убедить модель дольше думать (что пока что непросто) pass@1 реально будет расти лог-линейно. При этом это скорее всего не majority voting или self consistency тк эти методы упираются в потолок