Tuesday 17 October 2017

R glm förutspå binära alternativ


När du har förutsagda sannolikheter är det upp till dig vilken tröskel du vill använda. Du kan välja tröskeln för att optimera känslighet, specificitet eller vad som helst som mäter det viktigaste i samband med applikationen. En del ytterligare information skulle vara till hjälp här för en mer specifikt svar Du kanske vill titta på ROC-kurvor och andra åtgärder relaterade till optimal klassificering. För att förtydliga detta svar kommer jag att ge ett exempel. Det verkliga svaret är att den optimala cutoffen beror på vilka egenskaper klassificeringsenheten är viktig i Ansökans sammanhang Låt Y vara det sanna värdet för observation jag, och hatten är den förutspådda klassen Några gemensamma prestationsåtgärder är. 1 Känslighet P hat i 1 Yi 1 - Andelen 1 s som korrekt identifieras som så. 2 Specificitet P hat i 0 Yi 0 - andelen 0 s som korrekt identifieras som så. 3 Korrekt klassificeringsfrekvens P yi hat i - Andelen förutsägelser som var korrekta. Till exempel, om din klassificerare syftade till att utvärdera ett diagnostiskt test för en allvarlig sjukdom som har en relativt säker botemedel, är känsligheten mycket viktigare för att specificiteten I ett annat fall, om sjukdomen var relativt liten och behandlingen var riskabel, skulle specificitet vara viktigare att kontrollera. För generella klassificeringsproblem anses det bra att gemensamt optimera känsligheten och specifikationen - till exempel kan du använda klassificeringsenheten som minimerar Deras euklidiska avstånd från punkt 1,1. delta kan vägas eller modifieras på ett annat sätt för att återspegla en mer rimlig mått av avstånd från 1,1 i ansökans sammanhang - euklidiskt avstånd från 1,1 valdes här godtyckligt för illustrativa ändamål. Under alla omständigheter är alla dessa fyra åtgärder kan vara mest lämpligt beroende på ansökan. Längs är ett simulerat exempel med förutsägelse från en logistisk regressionsmodell för att klassificera Cutoff är varierad för att se vilken cutoff som ger den bästa klassificeringen under var och en av dessa tre åtgärder. I detta exempel kommer data från en logistisk regressionsmodell med tre prediktorer, se R-kod under diagrammet. Som du kan se från det här exemplet beror den optimala avklippningen på vilken av dessa åtgärder som är viktigast - det här är helt beroende av applikation. Element 2 P Yi 1 hatt i 1 och P Yi 0 hat jag 0, den sanna-positiva och sanna-negativa satsen noterar att dessa inte är samma som känslighet och specificitet kan också vara användbara prestationsåtgärder. Om du till exempel försökte designa en diagnostiskt för när ett sjukdomsutbrott skulle uppstå i framtiden skulle en hög sann positiv positiv vara mycket önskvärt, eftersom det skulle innebära att om ett utbrott kommer att inträffa är det mycket troligt att du kan förutse att man kommer att inträffa och du kan genomföra Lite ingrepp Koden kan modifieras för att beräkna dessa istället - jag lämnar det till dig. Generella linjära modeller i R, Del 3, Plotting Predicted Probabilities. by David Lillis, Ph D. I vår senaste artikel lärde vi oss om modell som passar i Generalized Linjära modeller på binär data med hjälp av GLM-kommandot Vi fortsätter med samma glm på mtcars dataset som regresserar vs-variabeln på vikt och motorförskjutning. Nu vill vi plotta vår modell tillsammans med observerade data. Trots att vi körde en modell med flera prediktorer kan det hjälpa tolkning att plotta den förutsagda sannolikheten att vs vs 1 mot varje prediktor separat Så först passar vi en glm för endast en av våra prediktorer, vt. För att plotta vår modell behöver vi en rad viktvärden För att producera monterade värden. Det här värdet kan vi fastställa från det faktiska värdet av wt. En mängd viktvärden mellan 0 och 6 skulle vara idealisk. Så skapar vi en sekvens av värden mellan 0 och 6 i steg om 0 01 Att ansluta ett så stort antal tätt placerade punkter kommer att ge ett smidigt utseende till vår modell. Nu använder vi prediktionsfunktionen för att skapa modellen för alla värden av xweight. We kan göra samma för förskjutning. Vi kan se det för båda prediktorer, det finns ett negativt förhållande mellan sannolikheten att vs 1 och prediktorvariabeln När predictorn ökar minskar sannolikheten. Det var inte så svårt I vår nästa artikel kommer vi att titta på andra tillämpningar av glm-funktionen. Om författaren David Lillis har lärt R till många forskare och statistiker Hans företag, Sigma Statistics and Research Limited tillhandahåller både online-instruktion och ansikte mot ansikte workshops på R, och kodningstjänster i R David har doktorsexamen i tillämpat statistik ics. Want att lära sig R s GLM-funktion I denna sex timmars verkstad lär du dig att använda glm för att specificera logistik. Varianternas längd skiljer sig åt, och när jag ser i min regression, finansierar jag att 4366 observationer raderas på grund av missingnes och jag har 5156 observation, så hur kan jag lägga till de anpassade värdena till mydata cordially. Coefficients i en polynomial glm med familjen binomial och passa en kurva för att sprida plot. Jag har använt glm med quasibinomialfel för att titta på effekten av produktivitet och initialtäthet på proportion Av insektsutvandring Produktiviteten hade ingen effekt och jag nådde till följande slutmodell Model5 glm y. NF NF2, kvasibinomial Jag behöver använda denna modell för att passa en kurva till min scatterplot för att visa den kvadratiska effekten av initialtäthet på proportion Emigrerande Det jag läste var att använda koefficienterna från sammanfattande tabell för denna modell för att göra linjen Koefficienter Beräkning Std Fel t-värde Pr t Avbryt 1 47047 0 89089 1 651 0 1104 NF -0 87076 0 41867 -2 080 0 047 2 NF2 0 06405 0 03056 2 096 0 0456.Jag tittade på det här exemplet du gav på din sida och jag undrade hur du kan plotta kurvan på scatterplot när du har kvadratisk effekt av samma variabel i mitt fall NF2 När jag försöker Följ vad du gjorde för ditt exempel Jag fortsätter att få följande fel xy - predict model5, lista NF x, typ respons Fel i newdata, xlev objekt xlevels variabla längder skiljer sig från NF2. När jag använder koefficienterna och gör denna ekvation ProEmig 1 470466 - 0 870759NF 0 064054NF2 det passar inte in i mina data korrekt. NF - seq 0, 12, med 0 1 linjer NF, 1 470466- 0 870759NF 0 064054NF 2 diagram NF, ProEmig, huvudpolynom modell, xlab NF, ylab ProEmig. Jag läste något om att omvandla koefficienterna, men jag är inte säker på om orsaken till att jag inte får rätt linje är att jag behöver omvandlingen och om ja hur jag ska göra det är jag verkligen förvirrad att göra linjen och jag uppskattar någon hjälp och förslag tack. Tack för ditt stöd jag behöver en lösning Om jag vill överväga två variabler i min modell, hur kan jag göra diagrammet jag har dipendent happiness predictors vänner income. As kan ses, har vart och ett av de fem första valen en associerad variansfunktion för binomial binomialvarianen m 1- M och ett eller flera val av länkfunktioner för binomialen logit, probit eller komplementär logglog. Så länge du vill ha standardlänken, är allt du behöver ange familjenamn. Om du vill ha en alternativ länk måste du lägga till Ett länkargument Till exempel för att göra probits du använder. Den sista familjen på listan är kvasi där för att tillåta anpassning av användardefinierade modeller med högsta sannolikhet.5 2 Logistisk regression. Vi kommer att illustrera passande logistiska regressionsmodeller med användning av preventivmedel data som visas nedan. Uppgifterna är tillgängliga från datasetavsnittet på webbplatsen för min generaliserade linjära modellkurs. Besök för att läsa en kort beskrivning och följ länken till. Naturligtvis kan data laddas ner direkt från RI specificerade huvudparametern som TRUE, för annars hade det inte varit uppenbart att den första raden i filen har variabelnamnen. Det finns inga radenamn angivna, så raderna kommer numreras från 1 till 16 Utskriftskod för att se till att du har data i okej Gör det så som standarddataset. Låt oss först försöka med en enkel tillsatsmodell där användning av preventivmedel beror på ålder, utbildning och önskningar. Det finns några saker att förklara här. Först kallas funktionen glm och jag har tilldelat sitt värde till en Objekt som heter lrfit för logistisk regressionspassning Funktionens första argument är en modellformel som definierar svaret och den linjära predikanten. Med binomialdata kan svaret vara antingen en vektor eller en matris med två kolumner. Om svaret är en vektor det kan vara numerisk med 0 för fel och 1 för framgång eller en faktor med första nivån som representerar fel och alla andra som representerar framgång I dessa fall genererar R en vektor av de som representerar binomialbenämningarna. svarande kan svaret vara en matris där den första kolumnen är antalet framgångar och den andra kolumnen är antalet fel. I detta fall lägger R de två kolumnerna samman för att producera den rätta binomialnämnaren. Eftersom den senare tillvägagångssättet klart är rätt en för oss Jag använde funktionsklyftorna för att skapa en matris genom att binda kolumnvektorerna som innehåller siffrorna med och inte använda preventivmedel. Följande speciella symbol. som skiljer svaret från prediktorerna har vi en standard Wilkinson-Rogers-modellformel I detta Fallet när vi specificerar huvudeffekter av ålder, utbildning och önskemålMer Eftersom alla tre prediktorer är kategoriska variabler, behandlas de automatiskt som faktorer, vilket du kan se genom att inspektera resultaten. Av det att R sorterar nivåerna av en faktor i alfabetisk ordning Eftersom ålder På samma sätt är hög referenscellen för utbildning, eftersom hög kommer före låg. Slutligen valde R ingen som bas för vill. Mer om du är missnöjd med dessa Val du kan 1 använda relevel för att ändra baskategori eller 2 definiera dina egna indikatorvariabler Jag kommer att använda den senare metoden genom att definiera indikatorer för kvinnor med hög utbildning och kvinnor som inte vill ha fler barn. Nu försöker modellen igen. Återstående avvikelse av 29 92 på 10 df är mycket signifikant. Vi behöver en bättre modell En av mina favoriter introducerar en växelverkan mellan ålder och önskan om inga fler barn. Notera hur R byggde interaktionsvillkoren automatiskt och till och med kom med förnuftiga etiketter för dem Modellen s avvikelse på 12 63 på 7 df är inte signifikant på den konventionella fem procenten, så vi har inga bevis mot denna modell. För att få mer detaljerad information om detta passar, försök sammanfattningsfunktionen. R följer den populära anpassningen av flaggning signifikanta koefficienter med en, två eller tre stjärnor beroende på deras p-värden Försök plot lrfit Du får samma plotter som i en linjär modell men anpassad till en generaliserad linjär modell till exempel resterna plottade är avvikelseresidenter kvadratroten av ett observatörs bidrag till avvikelsen, med samma tecken som den råa resterande. De funktioner som kan användas för att extrahera resultat från passformen inkluderar residualer eller residualer för avvikelsens residualer. De beräknade sannolikheterna för beräknade värden. Förutspås för de linjära prediktorns beräknade logits. it eller koefficienterna för koefficienterna och förskjutningen för avvikelsen. Vissa av dessa funktioner har valfria argument, till exempel kan du extrahera fem olika typer av rester, som kallas avvikelse, Pearson, svarsvar - inpassat värde, arbetar den arbetsberoende beroende variabeln i IRLS-algoritmen - linjär prediktor och delvis en matris av arbetsrester som bildas genom att utelämna varje term i modellen Du anger den du vill använda typargumentet, t. ex. residualer Lrfit, typ pearson.5 3 Uppdatera Modeller. Om du vill ändra en modell kan du överväga att använda specialfunktionsuppdateringen. Till exempel för att släppa åldersnorm E-interaktion i vår modell som man kan använda. Det första argumentet är resultatet av en passform, och den andra en uppdateringsformel. Platshållaren. Separerar svaret från prediktorerna och punkten refererar till den högra sidan av den ursprungliga formeln, så Här avlägsnar vi helt enkelt åldersnor. Alternativt kan man ge en ny formel som det andra argumentet. Uppdateringsfunktionen kan användas för att passa samma modell till olika dataset, genom att använda argumentdata för att ange en ny dataram En annan användbar argument är delmängd Anpassa modellen till ett annat subsample Denna funktion fungerar med linjära modeller samt generella linjära modeller. Om du planerar att passa en sekvens av modeller hittar du anovafunktionen användbar. Med en serie nestade modeller kommer den att beräkna förändringen i avvikelse mellan dem Try. Adding interaktionen har minskat avvikelsen med 17 288 på bekostnad av 3 d f. Om argumentet till anova är en enda modell, kommer funktionen att visa förändringen i avvikelse erhållen genom att lägga till var och en av E-termer i den ordning som anges i modellformeln, precis som den gjorde för linjära modeller. Eftersom det behövs anpassning av så många modeller som det finns termer i formeln kan funktionen ta ett tag för att slutföra sina beräkningar. Anova-funktionen låter dig ange Ett valfritt test De vanliga valen kommer att vara F för linjära modeller och Chisq för generella linjära modeller Lägga till parametertestet Chisq lägger till p-värden bredvid deviances I vårt fall. Vi kan se att alla termer var mycket signifikanta när de introducerades i model.5 4 Modellval. Ett mycket kraftfullt verktyg i R är en funktion för stegvis regression som har tre anmärkningsvärda funktioner. Den fungerar med generaliserade linjära modeller, så det kommer att göra stegvis logistisk regression eller stegvis Poisson regression. Det förstår om hierarkiska modeller , Så det kommer bara att överväga att lägga till interaktioner först efter att ha inkluderat motsvarande huvudeffekter i modellerna, och. Det förstår villkor som involverar mer än en grad av frihet, så det vill Jag håller samman dummyvariabler som representerar effekterna av en faktor. Grundtanken för proceduren är att starta från en given modell som kan vara nollmodellen och ta en rad steg genom att antingen radera en term som redan finns i modellen eller lägga till en termen från en lista över kandidater för inkludering, kallas sökans räckvidd och definieras givetvis av en modellformel. Val av villkor för radering eller inkludering baseras på Akaike s informationskriterium AIC R definierar AIC som.2 maximerad loggfil sannolikhet 2 antal parametrar. S-Plus definierar det som avvikelsen minus två gånger antalet parametrar i modellen De två definitionerna skiljer sig med en konstant, så skillnaderna i AIC är desamma i de två miljöerna. Proceduren stannar när AIC-kriteriet inte kan förbättras. In R alla Av detta arbete görs genom att ringa ett par funktioner, add1 och drop1 som överväger att lägga till eller släppa en term från en modell. Dessa funktioner kan vara mycket användbara vid modellval och båda accepterar ett testargument precis som anova. Consider första drop1 För vår logistiska regressionsmodell. Självklart kan vi inte släppa någon av dessa termer. Observera att R anser att det saknar huvud effekten av utbildning och åldern genom att inte vilja ha mer interaktion, men undersökte inte de viktigaste effekterna av ålder eller vill inte ha mer, eftersom en Skulle inte släppa dessa huvudeffekter samtidigt som interaktionen behålls. Systerfunktionen add1 kräver ett utrymme för att definiera de ytterligare termer som ska beaktas. I vårt exempel kommer vi att överväga alla möjliga tvåfaktorer. Vi ser det Ingen av de saknade tvåfaktorinteraktionerna är signifikanta i sig själv vid den konventionella femprocentnivån. Men det råkar vara gemensamt viktigt. Notera att modellen med åldern genom utbildningssamverkan har en lägre AIC än vår startmodell. Stegfunktionen kommer att göra En automatisk sökning Här låt vi leta efter det i ett omfattning som definieras av alla tvåfaktorer. Stegfunktionen producerar detaljerad spårproduktion som vi har undertryckt. Det returnerade objektet innehåller emellertid en anova-komponent som sammanfattar sökningen. Som du kan se, Den automatiserade proceduren introducerades en efter en, alla tre återstående tvåfaktorinteraktionerna, för att ge en slutlig AIC på 99 9 Detta är ett exempel där AIC, genom att kräva en avvikelseförbättring av endast 2 per parameter, kan ha lett till överfitting av data . Några analytiker föredrar en högre straff per parameter I synnerhet använder man log n istället för 2 som multiplikatorns utbyte BIC, Bayesian Information Criterion I vårt exempel logg 1607 7 38, så skulle vi kräva Ea avviksminskning av 7 38 per ytterligare parameter Stegfunktionen accepterar k som ett argument med standard 2 Du kan verifiera att specifikationen k log 1607 leder till en mycket enklare modell. Inte bara införs några nya interaktioner, men utbildningens huvudsakliga effekt är Dropp trots att den är signifikant.2017 Germ n Rodr guez, Princeton University. Generalized Linear Models. Se hjälp för andra modelleringsalternativ. Se hjälpfamiljen för andra tillåtna länkfunktioner för varje familj. Tre undertyper av generella linjära modeller kommer att omfattas här logistisk regression , Poissonregression och överlevnadsanalys. Logistisk regression. Logistisk regression är användbar när du förutspår ett binärt resultat från en uppsättning kontinuerliga prediktorvariabler. Det är ofta föredragen över diskriminerande funktionsanalys på grund av dess mindre restriktiva antaganden. Logistisk regression där F är en binär faktor och x1-x3 är kontinuerliga prediktorer passar - glm F. x1 x2 x3, data mydata, familj binomial sammanfattning passande displayresultat confint passform 95 CI för koefficienterna exp coef fit exponentierad koefficienter exp confint passform 95 CI För exponentierade koefficienter förutsäga passform, typ svar förutsägda värden residualer passar, typ deviance residuals. x, data mydata kommer att visa den villkorliga densitet plot av binär utfallet F på kontinuerlig x variabel. Poisson Regression. Poisson regression är användbar när man förutsäger en resultatvariabel Representerar räkningar från en uppsättning kontinuerliga prediktorvariabler. Poisson Regression där räkningen är en räkning och x1-x3 är kontinuerliga prediktorer passar - glm count. x1 x2 x3, data mydata, familjen poisson sammanfattning passande visningsresultat Om du har överdispersion se om resterande avvikelse är mycket större än grader av frihet, kan du vill använda quasipoisson istället för poisson. Survival Analysis. Survival analys som också kallas händelsehistoria analys eller pålitlighet analys omfattar en uppsättning tekniker för att modellera tiden till en händelse Data kan vara korrekt censurerade - händelsen kanske inte har uppstått vid slutet av studera eller vi kan ha ofullständig information om en observation men vet att upp till en viss tid händelsen inte hade inträffat t ex deltagaren släpptes ur studien i vecka 10 men levde vid den tiden. Samtidigt analyseras generella linjära modeller med hjälp av glm Funktion, överlevnadsanalys utförs typiskt med hjälp av funktioner från överlevnadspaketet. Överlevnadspaketet kan hantera ett och två provproblem, parametrisk accelerationsfelläge Ls och Cox proportional hazards model. Data anges typiskt i formatet starttid stopptid och status 1 händelse inträffade, 0 händelse inträffade inte Alternativt kan data vara i formatet tid till händelse och status 1 händelse inträffade, 0 Händelse inträffade inte En status 0 indikerar att observationen är korrekt cencored Data samlas in i ett Surv-objekt via Surv-funktionen före ytterligare analyser. Surffit används för att uppskatta en överlevnadsfördelning för en eller flera grupper överviktstester för skillnader i överlevnadsfördelningar Mellan två eller flera grupper coxph modellerar riskfunktionen på en uppsättning av prediktorvariabler. Mayo Clinic Lungcancer Data bibliotek överlevnad. lära sig om datasethjälpen. Skapa ett Surv objekt survobj - med lunga, Surv tid, status. Plot överlevnad fördelning av det totala provet Kaplan-Meier estimat fit0 - survfit survobj.1, data lung sammanfattning fit0 plot fit0, xlab överlevnadstid i dagar, ylab Överlevnad, yscale 100, huvudsakliga överlevnadsfördelning totalt. Jämför överlevnadsfördelningen hos män och kvinnor fit1 - survfit survobj. Plot överlevnadsfördelningarna enligt könskiktet fit1, xlab Överlevnadstid i dagar, ylab Överlevnad, yscale 100, col c röd, blå, huvudöverlevnadsfördelningar enligt könlegenden upprätt, titel Kön, c Kvinna, Kvinna, fyll cr, blå. Test för skillnad mellan man och kvinna överlevnadskurvor logrank test survdiff survobj. Förutsäga manlig överlevnad från ålder och medicinska betyg MaleMod - coxph survobj. Datalunga, undergruppsex 1. visa resultat MaleMod. Utvärdera proportionella risker antagandet. Se Thomas Lumley s R nyhetsartikel om överlevnadspaketet för mer information Andra bra källor inkluderar Mai Zhou s Använd R Software för att göra Survival Analysis and Simulation och M J Crawley s kapitel om Survival Analysis. To Practice. - vilken klass förutsäger det. Jag har en fråga om logistisk regression i R. Villagt att jag har en liten lista över proteiner P1, P2, P3 som förutsäger ett tvåklassigt mål T, säg cancercancer. Dessutom säger jag att jag kan Bygga en enkel logistisk regressionsmodell i R. data df Y, familj binomial Y är datasetet för proteinerna. Detta fungerar bra T är en fakturerad vektor med nivåer cancer, icke-cancer Proteiner är numeriska. Nu vill jag använda för att förutsäga en ny data. predict-modellen, newdata-testprover, typresponsprov är en liten uppsättning nya prover. Resultatet är en vektor av probabiliterna för varje prov i testprov. Men sannolikheten VAD för att tillhöra den första nivån i T Att tillhöra andra nivån i T. Is denna fallowing expression factor predict model, newdata test samples, typ respons 0 5 TRUE, när det nya provet klassificeras till cancer eller när det är klassificerat till Noncancer Och varför inte tvärtom. On 10 juli 2009 kl 9 46 AM skrev Peter Schffler. Hi, jag har en fråga abo ut logistisk regression i R Anta att jag har en liten lista över proteiner P1, P2, P3 som förutsäger ett tvåklassigt mål T, säg cancercancer. Dessutom säger jag att jag kan bygga en enkel logistisk regressionsmodell i R-modellen - glm T. data df Y, familjen binomial Y är datasetet för proteinerna Det fungerar fint T är en fakturerad vektor med nivåer cancer, icke-cancer Proteiner är numeriska Nu vill jag använda för att förutsäga en ny data-prediktionsmodell, testdata för newdata, typ responsprov är en liten uppsättning nya prover Resultatet är en vektor av probabiliterna för varje prov i provprover Men sannolikheten HUR att Höra till den första nivån i T Att tillhöra andra nivån i T Är den här fallowing expressionsfaktor förutsäga modellen, newdata testprover, Typ svar 0 5 SANT, när det nya provet klassificeras till cancer eller när det är klassificerat till Noncancer Och varför inte tvärtom Tack, Peter. As per detaljerna avsnittet av glm. A typisk prediktor har formresponsen. var svaret E är den numeriska svarsvektorn och termerna är en serie termer som anger en linjär prediktorrespons. För binomial - och kvasibinomialfamiljer kan svaret också anges som en faktor när den första nivån betecknar misslyckande och alla andra framgångar eller som en tvåkolonnematris Med kolumnerna som ger antalet framgångar och misslyckanden En termer specifikation av formuläret första sekund anger alla termer i först tillsammans med alla termer i sekund med några duplikat borttagna. Så, med tanke på din beskrivning ovan, förutspår du icke-cancer som är, du förutspår sannolikheten för den andra nivån av faktorens framgång, givet covariaten. Om du vill förutsäga cancer, ändra faktornivåerna thusly. T - faktor T, nivåer c noncancer, cancer. Som standard kommer R att alfa sortera faktor nivåer, så cancer skulle vara första. Tänk på det när det gäller att använda en 0,1 heltalskod för frånvaro, närvaro där du förutsäger sannolikheten för en 1 eller närvaron av händelsen eller charmen Acteristic of interest. BTW, med hjälp av T som namnet på svarsvektorn är inte en bra vana. T är stenografi för den inbyggda i R-konstanten. SÄRSKILIG R är generellt smart för att känna skillnaden, men det är bättre att undvika att komma i trubbel genom att inte använda det. I svar på detta inlägg av Peter Schffler-2. skrev Peter Schffler. Hi , Jag har en fråga om logistisk regression i R Antag att jag har en liten lista över proteiner P1, P2, P3 som förutsäger ett tvåklassigt mål T, säg cancercancer. Dessutom säger jag att jag kan bygga en enkel logistisk regressionsmodell i R - modellen - glm T. data df Y, familjen binomial Y är datasetet för proteinerna Det fungerar fint T är en fakturerad vektor med nivåer cancer, icke-cancer Proteiner är numeriska Nu vill jag använda för att förutsäga en ny dataförutsägbar modell, newdata testprover, typresponsprov är en liten uppsättning nya prover Resultatet är en vektor av probabiliterna för varje prov i testprover Men sannolikhet VAD för att tillhöra den första nivån i T Att tillhöra andra nivån i T modell, newdata testprover, Typ svar 0 5 SANT, när det nya provet klassificeras till cancer eller när det är klassificerat till Noncancer Och varför inte tvärtom. Det är sannolikheten för den andra nivån av ett faktorsvar som betecknas framgång i dokumentationen, även när din Modellerar sannolikheten för sjukdom eller död, precis som vid tolkning av den logistiska regressionen själv. Jag tycker det är lättast att sortera ut denna typ av problem genom experiment i förenklade situationer. E gx - prov c A, B, 10, ersätt TRUE x 1 BABBABBABA-tabellen Xx AB 4 6. märka att den relativa frekvensen av B är 0 6.1, binomial Fel i eval expr, envir, enclos y värden måste vara 0 y 1 Dessutom Varningsmeddelande I mf, kontrasterar variabel x omvandlas till en faktor. OK, så det gick inte att gå utan omvandling till faktor. Det här är en bra sak. Kalla glm formelfaktor x.1, familj binomial. Coefficients Intercept 0 4055. Frihetsgrader 9 Totalt dvs Null 9 Återstående Null Deviance 13 46 Återstående Avvikelse 13 46 AIC 15 46. Avlyssningen är positiv, vilket motsvarar loggodds för en sannolikhet 0 5 dvs måste vara att B 0 4055 logg 6 4.1, binomial 1 2 3 4 5 6 7 8 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 0 4054651 0 4054651 9 10 0 4054651 0 4054651 förutsäga glm-faktor x.1, binomial, typsvar 1 2 3 4 5 6 7 8 9 10 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6.Varför varför det inte är tvärtom, ja, om det hade varit så kunde du ha ställt samma fråga. - O ---- Peter Dalgaard ster Farimagsgade 5, Entré B c --- Avdelning av Biostatistik PO Box 2099, 1014 Cph K - Københavns Universitet Danmark Ph 45 35327918.Peter Schffler skrev Hej, jag har en fråga om logistisk regression i R Antag att jag har en liten lista över proteiner P1, P2, P3 som förutsäger Ett tvåklassigt mål T, säg cancercancer. Dessutom säger jag att jag kan bygga en enkel logistisk regressionsmodell i R-modellen. Glm T. data df Y, familjen binomial Y är datasetet för proteinerna. Det fungerar bra. T är en Fakturerad vektor med nivåer cancer, icke-cancer Proteiner är numeriska Nu vill jag använda för att förutsäga en ny data förutsägbar modell, newdata testprover, typ respons testprover är en liten uppsättning nya prover Resultatet är en vektor av probabiliterna för varje prov i testprover Men sannolikhet VAD för att höra till den första nivån i T Att tillhöra andra nivån i T Är denna fallande uttrycksfaktor förutsäga modell, newdata testprover, skriv respons 0 5 SANT när det nya provet klassificeras till cancer eller när det klassificeras till Noncancer Och varför inte tvärtom Det är sannolikheten för den andra nivån av ett faktorrespons som betecknas framgång i dokumentationen, även när du modellerar sannolikheten för sjukdom eller död, precis som vid tolkning av logistiken Ssion själv Jag tycker det är lättast att sortera ut den här typen av problem genom experiment i förenklade situationer. E gx - prov c A, B, 10, ersätt TRUE x 1 BABBABBABA tabell xx AB 4 6 märker att den relativa frekvensen av B är 0 6 glm X.1, binomial Fel i eval expr, envir, enclos y värden måste vara 0 y 1 Dessutom Varningsmeddelande I mf, kontrasterar variabel x omvandlas till en faktor OK, så det vann t gå utan omvandling till faktor Det här är en bra sak Glm-faktor x.1, binomial Call glm formelfaktor x.1, familj binomialkoefficienter Avskilj 0 4055 Frihetsgrader 9 Totalt dvs Null 9 Återstående Null Deviance 13 46 Återstående Avvikelse 13 46 AIC 15 46 Avlyssningen är positiv, vilket motsvarar loggodds För en sannolikhet 0 5 dvs måste vara att B 0 4055 log 6 4 förutsäga glm-faktor x.1, binomial 1 2 3 4 5 6 7 8 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 9 10 0 4054651 0 4054651 förutsäga glm-faktor x.1, binomial, typsvar 1 2 3 4 5 6 7 8 9 10 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 Varför är det inte tvärtom, ja, om det hade varit, så kunde du ha ställt samma fråga. Eller mer specifikt. responsfaktor c cancer, Noncancer, noncancer, noncancer mod - glm resp.1, familjen binomial förutsäga mod, typ respons 1 2 3 4 0 75 0 75 0 75 0 75. och eftersom icke-cancer uppträder 75 av tiden i provet tydligt det förutsäger sannolikheten för icke-cancer .

No comments:

Post a Comment