1. نوع Attention: مطابق با دادههای ارائهشده در مقاله، از سال 2022 تا 2024، استفاده از Multi-Head Attention (MHA) بهتدریج کاهش پیدا کرده و مکانیزم Group-Query Attention (GQA) جایگزین اون شده.
2. نوع Feed-Forward Neural Network (FFN): استفاده از Standard FFN کاهش یافته و Gated FFN به دلیل عملکرد بهتر و انعطافپذیری بیشتر جایگزین اون شده.
3. تابع فعالسازی در FFN: در سال 2022، ReLU بیشترین استفاده رو داشت. در سال 2023، GELU و GELUtanh به تدریج جایگزین ReLU شدن. در سال 2024، SiLU به عنوان تابع غالب مورد استفاده قرار گرفته.
4. نوع لایه نرمالیزیشن: در سال 2022، LayerNorm انتخاب غالب بود. اما، در سالهای 2023 و 2024، RMSNorm بهتدریج جایگزین LayerNorm شد.
@pytorch_howsam