Лінейная (аг | рэг) рэсія (@linearaggression) Kanalının Son Gönderileri

Лінейная (аг | рэг) рэсія Telegram Gönderileri

Лінейная (аг | рэг) рэсія
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
Ці ў тг: @shurackapalieski
1,245 Abone
86 Fotoğraf
3 Video
Son Güncelleme 10.03.2025 04:09

Лінейная (аг | рэг) рэсія tarafından Telegram'da paylaşılan en son içerikler

Лінейная (аг | рэг) рэсія

01 May, 08:12

1,546

Пра што сёння пісаць як не пра рынак працы

Год таму я распавядаў, што ў Швецыі IQ, замераны ў арміі, даволі лінейна прадказвае заробак у 34-45 год: чым вышэй IQ, тым больш заробак пазней у жыцці

Нядаўна гэты вынік паспяхова паўтарылі ў Фінляндыі і Нарвегіі (каля 450.000 чалавек для кожнай краіны). Прачытаем графікі разам на прыкладзе Фінляндыі: калі ў вас медыянны IQ (0 па вертыкалі), у вас медыянны заробак (50% па гарызанталі); Калі IQ у вас вышэй, чым у ~85% насельніцтва (1 стандартная дэвіяцыя па вертыкалі), вы ўваходзіце ў топ ~5% па заробку (95% па гарызанталі). І г.д.

Аўтары кажуць, што варыяцыя IQ у вышэйшых працэнтылях менш, чым у ніжэйшых. Кажучы проста, сярод тых, хто зарабляе мала, хапае людзей з высокім IQ. Людзей з нізкім IQ сярод ультразараблятараў заўважна менш

Таму калі любіце паплакацца, што былі надзвычай разумным дзіцёнкам, але лёс абыйшоўся з вамі несправядліва — можаце цяпер гэта рабіць і з дапамогай даных
Лінейная (аг | рэг) рэсія

27 Apr, 09:29

1,694

Назіраю за цікавым срачам дыскусіяй пра ўкраінскую мову і метадалогію

На днях выйшаў артыкул "Першокласники Києва не розуміють 40% почутого на уроках, бо майже не знають української". Метадалогію даследавання раскрытыкавалі (напрыклад тут), аўтар паспрабаваў адбіцца (напрыклад тут)

Сутнасць даследавання:

1. Памералі слоўнікавы запас украінскай. Там шматступенная працэдура, але актыўны запас вымяраецца так: паказваюць прадмет, просяць яго назваць, замяраюць % адказаў украінскай ("стеля" vs "потолок")
2. Распавялі дзецям гісторыю
3. Паразмаўлялі з дзецьмі пра яе і замералі, % які дзеці зразумелі (уяўляю, што можна вельмі па-рознаму гэта замераць)
4. Памералі карэляцыі паміж, напрыклад, актыўным слоўнікавым запасам і % зразумелага

Сутнасць спрэчкі:

1. У выбарцы 34 дзіцёнкі. Аўтар адказвае, што яны не ўсё расшыфравалі і будзе 60. Margin of error 13-17%, што шмат, але не робіць аналіз цалкам невалідным
2. Аўтар кажа, што яны правялі падобнае даследаванне ў кіеўскіх садках і там выбарка была ў 220 дзяцей. 85% з якіх назвалі менш 33% прадметаў па-украінску. І гэты факт прастымуляваў іх правесці даследаванне ў першых класах
3. Класічнае "карэляцыі не ёсць прычынна-следчая сувязь!". Па мне, прэтэнзія неасэнсаваная — паспрабуйце ўявіць сусвет, дзе памер слоўнікавага запасу не паўплывае на разуменне мовы
4. Памер карэляцый. Ён 0.72. Тобок, 0.72^2 = 52% варыяцыі ў разуменні ўкраінскай можа быць "патлумачана" памерам слоўнікавага запасу. Наколькі гэта мапіцца ў фразу "...бо майже не знають української" — тое яшчэ пытанне. "Часткова праз тое" было б лепшай фармулёўкай

Маё асабістае стаўленне: а) выбаркі ў 34 назіранні — заўсёды дрэнна б) лепшае валоданне мовай натуральна вядзе да лепшага засваення матэрыялу в) таму не разумею метафізчнай значнасці таго, які там канкрэтна каэф дэтэрмінацыі. Ёсць праблема, яе трэба выпраўляць

У каменты кіну спіс словаў, праз якія замяралі. Можаце сябе праверыць. Я ведаю ўсе, апроч аднаго. Як гэта, быць лепшым за больш чым 85% 5-гадовых дзяцей у Кіеве? Адказваю: прыемна
Лінейная (аг | рэг) рэсія

24 Apr, 13:31

1,475

На мінулым тыдні выйшаў артыкул, які ўзбудзіў некалькіх маіх знаёмых і навуковую супольнасць агулам

12 - 5 тысяч год таму 7 розных папуляцый на планеце незалежна перайшлі ад качэўніцтва і збіральніцтва да сельскай гаспадаркі. Мы дрэнна разумеем чаму. Аўтар артыкулу сцвярджае, што вінаваты ў гэтым ішапланецяне пазаземныя сілы

Аргумент будуецца ад таго, што існуюць аседлыя плямёны без сельскай гаспадаркі. Іх аб'ядноўвае сезоннасць асноўнай крыніцы калорый. Напрыклад, патэрны міграцыі рыбы: ловім, спажываем, рэшту сушым/солім/вэндзім, перажываем год да наступнай міграцыі, нікуды не рухаемся. А ад аседлага ладу жыцця да сельскай гаспадаркі рукой падаць

Што магло такога здарыцца 10-12 тысяч год таму, каб у розных рэгіёнах планеты ўзнікла патрэба захоўваць ежу? Адказ аўтара ў тым, што пасля апошняга ледніковага перыяду павялічылася сезоннасць клімату ў межах 30-40 градусаў шыраты. У гэтага ёсць некалькі астранамічных прычын, напрыклад прыцяжэнне Юпітэра (гл. таксама тут)

Гэта прывяло да даволі цёплага лета і зацяжнай, халоднай зімы. На шырокіх тэрыторыях, ад якой качэўніцтвам не ўцекчы. Што вымусіла люзей ад качэўніцтва адмовіцца і пачаць захоўваць ежу, каб зіму перажыць

Кожны дадатковы градус розніцы ў тэмпературах паміж сезонамі карэлюе з узнікненнем сельскай гаспадаркі на 150-200 год раней. На скрыншоце два графікі, дзе ўзнікненне сельскай гаспадаркі (па гарызанталі) супастаўляецца з тэмпературнай сезоннасцю і сезоннасцю асадкаў

Наколькі гэта слушная папера я не ведаю. Што захапляльная, гэта дакладна. Вось шыкоўны твітар-трэд з падрабязным тлумачэннем ад аўтара, вось прэпрынт артыкула ў вольным доступе
Лінейная (аг | рэг) рэсія

17 Apr, 15:50

2,197

Апошнія гады McKinsey рэгулярна публікуе даследаванні пра тое, як diversity паляпшае фінансавыя паказчыкі кампаній

У адным з іх, яны памералі ступень этнічнай разнастайнасці кіраўніцтва кампаній, узялі найбольш разнастайныя 25%, найменш разнастайныя 25%, параўналі іх і прыйшлі да высновы, што "Diversity Wins"

Народ спрабаваў атрымаць даныя, каб пераправерыць аналіз, але McKinsey даныя публікаваць адмовіліся і нават не назвалі фірмы, якія ў аналіз трапілі

У адказ гэтыя рабяты сабралі свой датасэт, дзе ёсць інфармацыя па кожнай з 500 кампаній з S&P500 і паўтарылі аналіз McKinsey

Высновы? Да ладна, нібыты вы першы дзень мой канал чытаеце — нічога паўтарыць не атрымалася, канешне ж. Усе метрыкі статыстычна нязначныя, а адзіная значная, рост вырукчкі, наадварот лепей у найменш этнічна разнастайных 25%

Класіка класічная, нефільтраваная
Лінейная (аг | рэг) рэсія

15 Apr, 10:57

1,708

Накацілі панядзелкавую каву?

Тады паразмаўляем пра яе (каву) і ментальнае здароўе. Дакладней, пра даследаванне, якое спрабавалі рэкламаваць у твітары месяц таму і чаму прыйшлося рэкламу выдаліць

Зрабілі наступнае: узялі 150 тысяч брытанцаў, задавалі ім пытанні пра тое, колькі і якой кавы яны спажываюць, аналагічна апытвалі пра ментальнае здароўе і потым будавалі графік (гл. скрыншот). З якога зрабілі выснову, што трэба рэкамендаваць шырокай публіцы піць 2-3 кубкі кавы ў дзень. Бо на графіках пабачылі т.з. J-крывую: у тых, хто не п'е каву і ў тых, хто п'еш больш чым 2-3 кубкі вышэйшая рызыка мець праблемы з менталачкай

"Карэляцыя не роўная прычынна-следчай сувязі", "self-selection bias", "не эксперымент а даныя назірання!" — гэта думкі, якія павінныя з'яўляцца пасля прачытання папярэдняга абзацу. Натуральна, частка людзей не п'е каву праз праблемы са здароўем, у тым ліку ментальным — каб не адчуваць павышанай турботы. Яшчэ натуральней, што людзі, якія спажываюць 10 кубкаў у дзень, маюць павышаную рызыку

Але мая праблема з графікам не толькі ў гэтым. Па-першае, "зніжэнне" рызыкі банальна цяжкавата разглядзець на графіку — яно, выглядае, каля 10%. Па-другое, нават тыя весельчакі, якія гасяцца 10-12 кубкамі, маюць толькі ў ~1.5 - 2 разоў павышаную рызыку. Кажучы проста, карэляцыйны ўплыў кавы не настолькі вялікі, каб раптам пераходзіць на 2-3 кубкі ў дзень, калі вы каву да гэтага не пілі

Забаўна, што такія рэкамендацыі праходзяць фільтр медыцынскіх публікацый, але не праходзяць у твітары: у рэплаі набягае мільён эканамістаў, дата сайцністаў, медыкаў з іншых галін і агулам людзей, знаёмых са статыстыкай і пачынаюць над аўтарамі ўгараць
Лінейная (аг | рэг) рэсія

25 Mar, 12:42

1,858

Гэты пост не пра змену клімата. Не пра якасць гэтых даных. Не пра палітычныя дэбаты вакол. Ён пра візуалізацую, візуалізацыю даных

Педра Дамінгас, вядомы спец пра штучным інтэлекце, выклаў у твітар графік з наступным подпісам: "калі ўсярэдніць тэмпературу па месяцах, ідэя т.з. кліматычнага крызісу адразу выглядае як жарт". І прымацаваў графікі месячнай тэмпературы з 1940 па 2024 у ЗША, Швецыі, Аўстраліі і Кітаі

Ягоны мэсэдж, выглядае, у тым, што "натуральная" (чытай сезонная) варыяцыя тэмпературы настолькі вялікая, што візуальна ніякага росту тэмпературы на графіках не бачна. І таму кліматычныя алармісты агрэгуюць даныя па гадах і такім чынам хаваюць ад нас праўду

Я з усім згодны, апроч высновы. Уявім, што па нейкай прычыне нас цікавяць змены ў доўгатэрміновым трэндзе памерам у 1-2 пункты. Але ў даных высокая варыяцыя на адзінку часу, прыкладна ў 30 пунктаў. Натуральна, што разглядзець трэнд такога памеру на такой візуалізацыі будзе цяжка. Для гэтага людзі і прыдумалі тэхнікі а-ля moving average

Як жартавалі ў рэплаях: "калі ўсярэдніць кардыяграму па мілісекундах, ідэя т.з. цыркуляцыі адразу выглядае як жарт"
Лінейная (аг | рэг) рэсія

19 Mar, 13:00

2,025

У твітары заўважылі, што ў перыяд з 1994 па ~2009 у ЗША заўважна знізілася колькасць суіцыдаў сярод моладзі

Тлумачэнне, з якім я згодны на 100% — пік папулярнасці nu metal'а. Чакаю даследаванне з параўнаннем АД супраць альбому Korn на рэпіце

Калі вам менш 30 і вы не разумееце, пра што гаворка, можаце схадзіць і падацца на Belarus Future Leadership Award 2024, які арганізоўваюць мае сябры. На гэтым канале павінна быць шмат таргетавай аўдыторыі

Добрага ўсім працоўнага тыдню
Лінейная (аг | рэг) рэсія

01 Mar, 11:29

2,170

І яшчэ пра дэпрэсію

На днях выйшаў мета-аналіз 218 эксперыментаў пра тое, як фізічныя практыкаванні дапамагаюць ад дэпрэсіі. 218 эксперыментаў, 14.000 удзельнікаў — выглядае салідна. Выснова аўтараў: практыкаванні як мінімум настолькі ж эфектыўныя, як АД, а часта і больш эфектыўныя

Праблема толькі ў тым, што такія даследаванні часта дрэннай якасці. Там можна неіранічна сустрэць выбаркі у 5-7 удзельнікаў. Ці артыкулы са статыстыкай, якая матэматычна не б'ецца. Частка з гэтых даследаванняў, я падазраю, выдуманая (што здараецца даволі часта)

Але больш за ўсё мне спабадалася наступнае. Калі глянуць, у якім з 218 эксперыментаў была самая вялікая карысць ад практыкаванняў, то памер эфекту там у 11.2 SMD. Калі вам яшчэ не смешна, то зараз будзе

SMD — гэта такая статыстыка, якая дазваляе параўноўваць даследаванні на розных шкалах: кілаграмы, сантыметры, змены ў дэпрэсіі і г.д. 11 SMD — гэта 11 стандартных дэвіяцый розніцы паміж эксперыментальнай і кантрольнай групамі. Для прыкладу, калі б мы даследавалі рост людзей, тады б эфект у 11 SMD адпавядаў ~67 см розніцы. Гэта больш, чым розніца ў сярэднім росце карлікаў і гульцоў НБА

Кажучы проста, гэта абсурд і такіх эфектаў не бывае ў прыродзе. Калі б можна было папрыгаць-пабегаць і настолькі палепшыць дэпрэсію, дэпрэсіі як феномену б проста не існавала

І такога там шмат. Праблема з мета-аналізамі ў тым, што калі на ўваход туды напіхаць трэшаніны, на выхадзе таксама атрымаецца трэшаніна. Няма статыстычных метадаў, з дапамогай якіх можна было б даследаванні нізкай якасці пераўтварыць у нешта карыснае праз агрэгацыю

Канешне, нейкія фізічныя практыкаванні для нейкіх людзей у нейкіх сітуацыях дапамагаюць ад нейкіх дэпрэсій лепш, чым нейкія АД. Гэта выцякае проста з нізкай агульнай эфектыўнасці АД. Што выцякае з гэта мета-аналізу асабіста мне не зразумела
Лінейная (аг | рэг) рэсія

23 Feb, 14:00

2,242

Другі год сачу за сагай пра дэпрэсію і сератанін

У 2022 быў праведзены масіўны аналіз літаратуры пра “сератанінавую гіпотэзу” — ідэю, што дэпрэсія звязаная, прычынна-следчым чынам, з паніжаным узроўнем ці ступенню актывацыі сератаніна ў мозгу. Таксама вядомая як “chemical imbalance theory”

Вынікі? Няма ўстойлівай карэляцыі паміж дэпрэсіяй і ўзроўнем сератаніну ці ступенню ягонай актывацыі ці генетычнымі мутацыямі, якія на сератанін паўплываюць. Эксперыменты па штучным паніжэнні сератаніну не прыводзяць да дэпрэсіі

Тым не меней, да 80% насельніцтва ў гэтую тэорыю вераць, а вера гэтая павышае шанцы пачаць прымаць антыдэпрэсанты, зніжае імавернасць з іх саскочыць, а таксама вядзе да больш песімістычнай ацэнкі сваіх шанцаў на папраўку

Чаму тады антыдэпрэсанты працуюць? У аўтараў тры адказы: 1) працуюць яны не нашмат лепш, чым плацэба 2) яны могуць праваць праз іншыя, чым сератанін, механізмы — напрыклад праз тое, што яны называюць numbing effect, тобок прытупленне ўсяго спектру эмоцый 3) любы лек, які паўплывае на працу мозга, хоць стымулянты, прыводзіць у клінічных даследаваннях да эфектаў, супаставімых з эфектам антыдэпрэсантаў

Калі лянота чытаць акадэмічную паперу, тут у аўтараў ёсць навукова-папулярнае падсумаванне іх працы. Крытыка працы таксама прысутнічае, можна пачытаць па першай спасылцы ў гэтым пасце
Лінейная (аг | рэг) рэсія

21 Feb, 12:49

1,916

У гэтую дажджлівую сераду паразмаўляем пра нешта спакойнае, палітычна ненагружанае, несупярэчлівае — pay gap ака разрыў у аплаце працы

Усім ведомы стэрыятып пра белых мужчын як самую высокааплатную групу. Але напрыклад у ЗША гэта даўно не так — на першым месцы там ўпэўнена мужчыны-азіяты. Прыкладна ў 2020 годзе (залежыць як лічыць) белых мужчын адкінулі яшчэ раз — з другога на трэцяе месца. Зрабілі гэта жанчыны-азіяткі

Так, у апошнім квартале 2023 медыянны заробак азіятак быў на 9% больш, чым белых мужчын

Пры тым, што азіяты ў ЗША не толькі часта выключаныя з квотаў для меншасцяў, але і церпяць ад прамой дыскрымінацыі — напрыклад, іх спрабуюць не пускаць у элітныя амерыканскія ўніверсітэты

Атрымліваецца, што калі быць групай з найменшым працэнтам разводаў ці няпоўных сем’яў і адначасова групай з найбольшым працэнтам людзей з вышэйшай адукацыяй ці найлепшымі тэставымі баламі для прыёму ў ВНУ, ёсць шанец, што ні патрыярхат, ні расавая дыскрымінацыя, ні квоты вас, як групу, не спыняць. Прынамсі ў рынкавых эканоміках першага свету

Нечакана