Dernières publications de DL in NLP (@dlinnlp) sur Telegram

Publications du canal DL in NLP

DL in NLP
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
12,690 abonnés
547 photos
13 vidéos
Dernière mise à jour 11.03.2025 07:47

Canaux similaires

Kantor.AI
11,081 abonnés
ODS Events
7,428 abonnés
grokaem себя
2,305 abonnés

Le dernier contenu partagé par DL in NLP sur Telegram

DL in NLP

21 Feb, 19:52

4,005

https://www.youtube.com/watch?v=uVcBa6NXAbk

https://www.1x.tech/discover/introducing-neo-gamma
DL in NLP

27 Jan, 21:38

6,566

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
DL in NLP

23 Jan, 21:40

12,188

Всем приветики. Давно не было постов, тк становится всё сложнее вести канал. Не буду обещать что исправлюсь, но буду постить когда есть что-то о чём другие каналы не говорят достаточно.

И сегодня будут не новости (о ChatGPT Operator можете прочитать где угодно), а открытая позиция на PhD студента в моей старой лабе в UMass Lowell - Text Machine Lab.

Это NLPшная позиция с довольно широким спектром того чем можно заниматься: от interpretability и prompting до alignment, мультимодальных моделей, low-rank training, PEFT итд. Глава лабы - Prof. Anna Rumshisky исследователь в UMass Lowell, MIT и в Amazon Alexa AI/Amazon AGI. Например, она один из авторов Amazon Nova

Требования: релевантный бакалавриат+магристратура/специалитет, хорошее понимание линейной алгебры, анализа, вероятности, базовые знания Deep Learning и NLP. Большим плюсом будут опубликованные статьи (включая воркшопы), но строгого требования на них нет.

Позиция fully funded - ваше обучение будет покрыто полностью и вам будут платить стипендию которой достаточно для проживания в Массачусеттсе.

Для подачи высылайте ваше CV и короткое cover letter на [email protected]. Для попадания в поток 2025 надо сделать это до 15 февраля

Если хотите прочитать про мою историю поступления и первые дни в США, я в 2019 писал об этом серию постов и вот первый: telegra.ph/CHast-1-Postuplenie-08-24
DL in NLP

23 Nov, 23:16

11,175

Programming Massively Parallel Processors
https://a.co/d/6QEiuCq

Наткнулся на книгу которая кажется весьма известна в мире GPU-программирования. Она довольно детально погружается в Nvidia GPU и CUDA. В четвертом издании (2022 года) ещё и добавили современные архитектуры: Ampere (A100) и Hopper (H100). Это важно тк архитектуры довольно сильно изменились с 2016 года.

Очень надеюсь просмотреть хотя бы по-диагонали и найти что-то полезное для себя, но вообще выглядит что если хотите низкоуровнево прогать на GPU это must read.

Если погуглить четвертое издание то можно найти и более бесплатные альтернативы амазону
DL in NLP

10 Oct, 18:51

14,792

Но дадут ли нобелевку по литературе за Deep Learning Book
DL in NLP

08 Oct, 16:08

17,938

Почему не стоит верить nvidia-smi “GPU utilization”
arthurchiao.github.io/blog/understanding-gpu-performance/

Nvidia использует очень особый способ определения утилизации GPU. 100% означают не что девайс загружен на 100%, а что хотя бы одно ядро было использовано хотя бы чуть-чуть 100% времени за последние N (мили)секунд

Очень яркий пример это примитивы синхронизации: когда вы вызываете torch.barrier GPU Utilization становится 100% при том что на самом деле железо просто «активно ждет».

Для реальной оценки загруженности GPU лучше использовать SM Occupancy которая показывает средний процент загрузки ядер GPU (то что я бы изначально ожидал увидеть от utilization честно говоря).

Для этого рекомендуют использовать dcgm-exporter
DL in NLP

02 Oct, 16:46

12,244

Soumith Chintala (создатель pytorch) выдаёт базу о том как тренироваться на 10К GPU
x.com/soumithchintala/status/1841498799652708712

Оч короткий TL;DR (всем рекомендую прочитать оригинал, он не длинный)

1. Maximize batch size and GPU utilization: 3D parallelism + gradient checkpointing
1. Overlap communication, e.g. while N-1th layer is computing backward, all GPUs with an Nth layer can all-reduce
1. Optimize for your GPU cluster network topology

1. Failure recovery, at 10k GPU scale, things fail all the time -- GPUs, NICs, cables, etc
1. At 10K scale bit flips actually become a problem and can cause loss explosions. Save your model state as frequently and as quickly as you can. To speed it up save it in shards and to CPU memory first and then in a seaprate thread write to disk
DL in NLP

25 Sep, 08:09

10,824

https://x.com/hughbzhang/status/1838288923656941860?s=12&t=QgBLS4SmhE8cqdYBmhrqJA
DL in NLP

25 Sep, 08:09

12,218

O1 mini inference scaling experiments

Прикольное саммари экспериментов одного чела. Коротко: если убедить модель дольше думать (что пока что непросто) pass@1 реально будет расти лог-линейно. При этом это скорее всего не majority voting или self consistency тк эти методы упираются в потолок
DL in NLP

17 Sep, 03:42

12,932

OpenDuck - очень классный проект по опенсорсной (хард+софт) реимплементации диснеевского робота

https://github.com/apirrone/Open_Duck_Mini

Очень мило. Буду следить за ними. А вот тут они уже умеют стоять: https://x.com/antoinepirrone/status/1835679313506562502