Resultater NM 2012

Såvidt jeg skjønner er sekvens 2 fra semifinalene, ja. Jeg veit ikke om det ble benyttet dommerskjemaer på finalebedømmingen i Kanonhallen.
 
Litt på sia av den pågående diskusjonen:

Kommer det en detaljert oversikt over alle plasseringer?
Jeg er førstereisgutt i år, og meldte kun på ett øl som jeg er spent på hvordan det gikk med.
Det var i klassen lys ale, og der var det vel over 80 (?) påmeldte.
 
Hei igjen,

Takk for svar Martin E. Det var veldig belysende.

Du spør om jeg har noen forslag. Det vil jeg få lov til å komme tilbake til. Jeg synes imidlertid forslaget til Beant var fornuftig, og det er nyanser i hans forslag som ikke ligger inne i dagens ordning (ut i fra hva Martin E redegjorde for). Jeg avventer imidlertid et offisielt svar fra Norbrygg, da Martin E ga uttrykk for at han ikke kjente detaljert til hvordan årets bedømming var organisert og at det tilsynelatende kunne være forsjkellig praksis i Oslo og Trondheim.

Håper derfor at debatten går videre, og at noen kommer med gode forslag / innspill som Norbrygg kan jobbe videre med. jeg vil gjerne selv få komme med forslag når jeg har fått svar fra Norbrygg, og fått tenkt meg litt om (trenger litt tid for å være kreativ  :)).

PS: Til øvrige som tilsynelatende er redde for å komme med kritikk. Vær så snill å ikke vær redde for det. Hvordan skal man kunne utvikle noe til det bedre om man ikke kan komme med meningsutvekslinger? Som jeg skrev er jeg ikke ute etter bråk, men siden jeg bruker tid og penger på dette forventer jeg skikkelige forklaringer. Når jeg ikke får det, sier jeg i fra, og prøver å reise en debatt. Mine inspill har vært kritiske, ja, men jeg har samtidig forsøkt å være direkte og saklig. Det er ikke min hensikt å støte noen, men jeg mener at et forum som dette må brukes til mer enn å bare stryke hverandre med hårene.
 
Det er vel litt vanskelig å sette opp en fullstendig oversikt over plassering, fordi innledende dømming ble foretatt i "flights" med ulike dommere. Plassering totalt vil jo da være avhengig av om man ble vurdert av en gjeng med negative eller positive dommere. Men en oversikt over plassering og score internt i alle "flights" hadde vært flott! Da kan vi sammenligne sjøl.
 
La heller ikke meg svare på vegne av domkom, men jeg kan si litt om logistikken i dømmingen i Trondheim, dvs lys ale og IPA - og legge til noen kommentarer for egen regning.

Det ble i innledende runder dømt med tre dommerre og opp mot rundt 10 (tror jeg) øl hver kveld pr dommerteam. De fleste kveldene var det to dommerteam i sving. Fra hver slik flight ble det sendt videre 1-2 øl som skulle gå til mellomfinale (eller kategorifinale), basert på poengsum i den flighten. Under mellomfinale var det to team som tok hver sin klasse og de bedømte de ølene som ble sendt videre.

Noen observasjoner: På en kveld med sterke øl, ville det tredje sterkeste ølet ikke bli sendt videre selv om det kanskje ville smakt til det beste ølet påfølgende kveld med et svakere sett med øl. Det ble ikke gjort noe forsøk på å velge øl ut til mellomfinale basert på poengsummer på tvers av kveldene med innledende runder. De innledende rundene hadde typisk ulike sett med dommere - noe som delvis kom av at det var touch-and-go på å få tre kursede og eksaminserte dommere til å bedømme i hver flight og uten at flightene ble for store.

Noe av forskjellene i dømming mellom innledende runde og mellomfinale var variasjon i flasker, og for minst ett øl var mellomfinaleflaska defekt der flaska i innledende runde var helt fin. Det var nok også levert endel meget ferskt øl slik at noen øl hadde godt av litt ekstra modning. Noe av forskjellene kan nok også være personlige forkjeller mellom dommerne, og skjevheter som går på at et godt øl som smakes etter flere dårlig øl scores litt høyere enn om det smakes sammen med gode øl. Akkurat dette siste kan forklare litt av hvorfor ølene kan gjøre det bedre i innledende runder (der de rager godt over gjennomsnittet og mange øl med feil) enn i mellomfinale, der de konkurrerer med andre gode øl.

Når det er sagt, så er det selvfølgelig en svakhet at ølene som ikke gikk videre til mellomfinale ble rangert på resultatlista basert på data fra ulike flights som dermed ikke nødvendigvis er helt sammenlignbare. Jeg har ikke innsikt i motivasjonen for konkurransesystemet, men jeg antar at man ønsket å bruke den begrensede dommerkapasiteten til å dømme alle i innledende runde og de beste i en mellomfinale for å justere topplasseringene.

Når man sammenligner dommerskjema, må man huske at det er lettere konsistent å rangere tre øl i forhold til hverandre (1., 2. og 3. plass) enn å treffe samme poengsum i ulike omganger. Derfor tror jeg den gjennomførte dømmingen er det beste man kan få til med det antallet øldommer-gjerninger som var tilgengelig. Merk også at med tre innleverte flasker (hvorav én som evt skulle til finale), så var det heller ikke rom for å gå tilbake og dobbeltsjekke en ekstra flaske. Det var - og måtte være: Smak, Døm, Summér og Lag resultatliste.

Oversikt over flights ville vært interessant, ikke minst fordi man noen med bedre karakterer i statistikk kunne regnet på det og beregnet hvor mye som var flaks og hvor mye som var dommerkompetanse :)

Ideelt sett burde man kanskje vurdert alle tre flasker i hvert bidrag, der hver flaske var anonymisert og ble plassert i ny, random rekkefølge i hver flight, og med omstokking mellom flightene fra kveld til kveld, med best mulig spredning av dommere slik at færrest mulig dømmer samme øl to ganger. Deretter kunne man dytte dataene fra dommerskjemaene inn i en diger utregning og lage resultatliste. Jeg håper å gjøre dette med SMaSH-konkurransen (med innleveringsfrist til fredag, hint, hint) men det er en langt mindre konkurranse, og jeg tviler på at man hadde hatt kapasitet til å gjøre noe slikt for NM i Trondheim.
 
paalen skrev:
11631  4e  ?  ?  ?   21 18 22   (fantes kun skjemaer merket kategorifinale)

Nå ble jeg litt forvirret. Jeg skannet og prosesserte disse dataene, og jeg mener bestemt at de var med. Dataene for alle sammen ligger da også i den fila som Gustav sendte ut link til.Kan du sjekke en gang til hvorvidt du finner disse dataene?

Forøvrig har jeg sagt ja til å prosessere dommerskjemaene fra Oslo, slik at såsnart jeg får de innskannede versjonene, skal jeg få dem sortert etter deltakernummer og justert til passelig oppløsning og størrelse.
 
Anders Christensen skrev:
paalen skrev:
11631  4e  ?  ?  ?   21 18 22   (fantes kun skjemaer merket kategorifinale)

Nå ble jeg litt forvirret.

Ahhh ... forstår, det var dobbelt sett med dommerskjema fra kategorifinalen. jeg skal fikse.

Oppdatering: Korrigert fil er sendt og blir sikkert lagt ut av gustav temmelig så raskt etter at han ser den.
 
Jeg er litt usikker på hva du forventer av et offisielt svar, så jeg kan bare bekrefte at Martins svar er omtrent det samme som er konklusjonen fra diskusjoner i dommerkomiteen.

Poeng mellom ulike flights er vanskelig eller umulige å sammenligne direkte. For de som er involvert i bedømminga er det hverken overraskende eller problematisk. Normalt anses 5 poeng forskjell mellom dommerne som akseptabelt og normalt i samme flights. Da vil større forskjeller for samme øl mellom ulike flights være forventet. Legg til at vi også har mange nye dommere, så kan du nok også se større avvik enn dersom vi kun brukte erfarne dommere.

Ellers må jeg beklage at det har tatt tid å få ut komplette resultatlister. For å se effektene av ulike flights osv, kan du også se på fjorårets resultater.
 
I dommerkomiteen har vi hele tiden vært enige om at kvaliteten på dømmingen er veldig viktig. Derfor har vi brukt dommere som har gått på kurs.

Vi var klar over at vi kom til å få inn over 300 flasker, derfor valgte vi å fordele mengden flasker på tre byer.
Hvilke byer som fikk være med, valgte vi på grunnlag av hvem som hadde den høyeste kompetansen når det gjaldt dommere.

Vårt fokus har hele tiden vært at vi skal ta best mulig vare på flaskene som kommer inn og bedømme dem mest mulig rettferdig.

Vi skulle sitte igjen med to finaleflasker i Trondheim og to flasker i Kristiansand som skulle sendes til Oslo. I Oslo var det fire finaleflasker.

Det er flere måter å komme fram til resultatet på. Vi valgte å ha tre dommere på hver flaske.
IPA er en krevende øl å dømme, smaksløkene blir trøtte fortere, derfor varierte det litt om man drakk seks eller ni flasker per dømming.

Hvis tre øl skulle ha gått videre i hver klasse, så hadde det blitt altfor mange øl å drikke for finaledommerne.

Hvis din øl har høyere sum i de innledende rundene, men ikke kommer videre, så kommer det av at det er to øl i hver gruppe hver kveld som går videre.
Er det en kveld med bare dårlige øl, så går allikevel to øl videre. Har du en kveld med fem bra øl, så går bare to øl videre.
Skulle vi fått til dette på en annen måte, så måtte vi ha fem ganger så mange dommere.
Jeg mener bestemt at den rette måten å angripe problemet på, er å ha gode dommere, vi har kommet langt, men hiv dere på dommerkurs, vi trenger flere dommere.

Det neste dommerkurset blir i Bergen i løpet av året. Dato er ennå ikke satt.

Under finaledømmingen, så ble det fylt ut dommerskjemaer, men ikke med poeng. Dommerne drakk åtte øl, de hadde hele tiden mulighet til å sammenligne og diskutere seg i mellom. Uansett hvilken fremgangsmåte man velger, så synes jeg at kvaliteten på dommerne er viktigst.

Gratulerer til vinneren. Jeg smakte en slurk, den var kjempegod.

Beate
 
Det kan være fordelaktig å konsultere litteraturen for å finne gode måter å kombinere rangeringer på. For meg er det rimelig åpenbart at poengsummer mellom flights ikke er sammenlignbare, både pga. forskjellige dommere og forskjellige inntrykk mellom hver smaking for dommeren, og at en derfor må benytte seg av rangeringsbaserte metoder. Jeg har ikke sett på slikt tidligere, men det ser ut til at det finnes noe litteratur om emnet, f.eks:

Les gjerne: Fligner, M. A., & Verducci, J. S. (1988). Multistage ranking models. Journal of the American Statistical Association, 88, 892–901
Lebanon, G. and Lafferty, J. (2002) Combining rankings using conditional probability models on permutations
Cohen, W.W. and Schapire, R.E. and Singer, Y. (1999) Learning to order things. J Artif Intell Res.
Fagin, R. and Kumar, R. and Mahdian, M. and Sivakumar, D. and Vee, E. (2004) Comparing and aggregating rankings with ties

Jeg tror at for å få et mest mulig rettferdig system, må en ta i bruk varianter av teorien og algoritmene som blir diskutert her. Multistage ranking models ser ut til å være veldig relevant, men det krever at kompetente statistikere setter opp systemet og gjør beregningene som aggregerer rangeringene. Det blir muligens også mindre spennende rent publikumsmessig. Jeg mener likevel at dette er veien å gå årene fremover: Med flere og flere insendte øl, får du lett sterk bias i det endelige estimatet (vinneren) hvis en ikke tar høyde for dette i den statistiske modellen sin.

Jeg vet ikke om dommerkomitéen har brukt noe rangeringsstatistikk når de har satt opp systemet sitt, og hvis de har det, bør det refereres til, slik at alle kan være fortrolig med forutsetningene for konkuransen.
 
Takk for gode råd, det er ingenting som er fastlåst.
For å bli bedre må vi hele tiden være åpne for ulike måter å gjøre ting på.
Skal lese bøkene du anbefalte.
 
ErlendA skrev:
Jeg vet ikke om dommerkomitéen har brukt noe rangeringsstatistikk når de har satt opp systemet sitt, og hvis de har det, bør det refereres til, slik at alle kan være fortrolig med forutsetningene for konkuransen.

Nei, vi har ikke det. Konkurransen har vært bygd opp som en cup, der de beste fra innledende runde går videre til neste runde, som er helt uavhengig av forrige runde. Dommerne i andre runde får ingen informasjon om plassering i første runde. Å se på mer avanserte metoder for å regne ut plasseringene er noe vi har diskutert så vidt, uten at vi har konkludert.

Fordelen med opplegget som brukes nå er først og fremst at det er enkelt, både å gjennomføre og å forstå. Et opplegg som er mer rettferdig, men vanskeligere å forstå og etterprøeve for deltagerne, er ikke nødvendigvis bedre for konkurransen. Jeg antar, uansett, at vi kommer til å se testing av andre løsninger for å rangere deltagerne i mindre konkurranser, før det blir aktuelt i NM.
 
ErlendA skrev:
Det kan være fordelaktig å konsultere litteraturen for å finne gode måter å kombinere rangeringer på.

Takk for pekerne. Som andre har vært inne på er dette noe vi også har tenkt på. Ett problem er at ved en overgang fra cup med ca 80-90% utslag på hver runde til noe som sikrer bedre sammenlignbarhet mellom flights nedover på resultatlistene, så må vi sannsynligvis få gjennomført flere dommergjerninger, og det har vist seg å være en knapp ressurs også i år. Det kan bedre seg til neste år med mer dommerutdanning og det er også mulig å legge innleveringsfristen enda en uke tidligere for å gi mer tid til dømming, osv men  ...

Uansett, jeg er temmelig overbevist om at hvordan forbedre kvalitet og hvordan takle skalaen på arrangementet også kommende år blir sentrale diskusjonstema i dommerkomiteen, og inputen din går inn der.
 
Jeg vil bare understreke at jeg håper inderlig at alle i dommerkomiteen fortsetter å svare individuelt.
Det hadde vært tragisk hvis alle skulle ringe meg, eller at vi skulle ha et møte før vi utalte oss.

Det vil kanskje være oppklarende hvis jeg skriver litt om hvordan vi jobber i dommerkomiteen.

Vi tar for oss det vi kan gjøre noe med på kort sikt, i tillegg til at vi har en langsiktig plan.

I år kunne vi gjøre noe med dommersituasjonen, logistikken, fordelingen av arbeidsoppgavene og øltypedefinisjonene.

Det viktigste vi gjorde, var å bestemme oss for å gjøre det vi gjorde bra, bygge en bra grunnmur før vi gikk videre.

Neste skritt er å videreutdanne dommere, se på poengsystemet og øltypedefinisjonene.
Det er noe jeg ser for meg kommer til å være en kontinuerlig jobb.

Vi har mange diskusjoner i dommerkomiteen, noe jeg ser på som en veldig bra ting, siden målet er å bli bedre og bedre.
Man blir ikke bedre av å slå seg til ro med det man har gjort.

Til slutt når vi har fordelt oppgavene, er vi enige om at det er sånn vi gjør det best akkurat nå, men på sikt kan vi gjøre det bedre.
Det gjelder ikke alt, men noen ting må forbedres på sikt, f.eks poengsystemet.

Det som skjer i dommerkomiteen, erikke tilfeldig, vi tar heller ikke lett på ting.
Vi prøver å gjøre den beste jobben som er mulig å gjøre, men selfølgelig kan feil oppstå.

Hvis det skjer en feil, så skal vi være ærlige å si at feilen ligger hos oss.
Det jeg vil fram til er at ingen skal være i tvil om at vi tar oppgavene seriøst.

M.v.h. Beate
 
beate skrev:
Det jeg vil fram til er at ingen skal være i tvil om at vi tar oppgavene seriøst.

I kraft av å være både dommer og formann kan jeg bare støtte opp under dette utsagn.
 
Hei,

Jeg vil overbringe en takk til alle personer i dommerkomiteen som har besvart seriøst og infomert oss om hvordan bedømmingen er utført i årets NM. Et meget viktig moment i det hele er kommunikasjon. Jeg har stilt kritiske spørsmål, og har etterhvert fått vettuge svar tilbake.

Når jeg nå har blitt klar over hvordan bedømmingen har foregått, ser jeg at systemet har forbedringspotensiale. Jeg er selvsagt klar over at bedømming av øl ikke er noen eksakt vitenskap, men når øl som ligger i snitt nærmere 30 poeng kommer videre mens øl rundt 40 poeng ikke kommer videre, er det for meg et relativt krystallklart tegn på at systemet ikke er godt nok. Etter hva jeg kan lese av beate's siste inlegg vil dette nå blitt tatt tak i og Norbrygg's dommerkomite vil se på dette til neste NM. Det er  :skitbra:.

Jeg har ingen fasitløsning til hvordan det kan forbedres, og jeg registrerer at det kommer inn forslag. Uansett hva man ender opp med, så blir igjen det viktigste her: Kommunikasjon. Når vi leser reglene, og det eneste som står der er at de 3 beste går til finalen, så blir det lett misforståelser og det er ikke forutsigbart for den som ønsker å delta. Derfor en klar oppfordring til Norbrygg: Kommuniser dette tydelig neste gang. I tillegg bør reglementet gjennomgås, slik at dette gjenspeiler bedømmingssystemet.

Personlig er jeg ikke noen fan av cup i en slik konkurranse. Det blir for tilfeldig, og jeg mener at det brygget som kåres til Norges beste brygg (uansett kategori) skal virkelig være det, uten tvil. Et cup-system slik som det eksisterende, vil aldri kunne sikre dette. Jeg er sterkt tvilende til at avanserte statiskiske modeller er veien å gå. Det hele faller til slutt ned på den individuelle bedømmingen uansett, og slike statiskiske modeller blir aldri bedre enn de data man putter inn (shit in = shit out). Jeg foreslår heller at man sørger for å legge inn en samordning av resultatene etter den innledende runden. Da får man luket vekk øl som er fra "en dårlig dag". Om det betyr at man må sende inn 4 flasker har etter mitt syn ingen betydning. I tillegg kan man legge inn minimumskriterier for å bli premiert. Jeg mener at det ikke burde være noen tvil om typeriktighet for øl som går videre. Dvs. øl bør ha min 35 poeng for å ha sjangs til å vinne. Er det slik at ingen øl kommer over dette i en klasse, så burde man heller ikke dele ut noen premie i den klassen det året.

MVH
Erik J.
 
Reglene skal vi også gjennomgå.

Svakheten i systemet med at øl med lavere poengsum går videre til mellomfinalen foran de med høyere poengsum i de innledende rundene, kan avhjelpes ved at vi trommer sammen alle dommerne vi har, og dømmer større klasser på samme kvelden. En måte å drikke seg gjennom mange øl, som de bl.annet bruker i verdensmesterskap, er å bestemme seg for hva en finaleøl er. Er du vant til å dømme, så kjenner du fort om en øl bør gå videre eller ikke. Vi bruker lang tid på å bedømme dårlige øl, det mener jeg vi kan bruke mindre tid på.

Vi har mange muligheter, vi må bare finne ut av hva som er mest hensiktsmessig og rettferdig.
 
Mange gode forslag her. Såpass mange at det fortjener en egen tråd: Jeg laget derfor en ny tråd for videre diskusjon rundt bedømmingen i flaskekonkurransen:
http://norbrygg.no/forum/index.php/topic,9477.0.html
 
På tross av utfallet av årets konkurranse har jeg alltid syntes det har vært underlig at det eksisterer konkurranser på smak. Bedømmingen er et godt verktøy for å forstå hvordan andre oppfatter det jeg selv smaker, og det kan være nyttig på sitt sett. Det blir likevel litt som å påstå at Megadeth er bedre enn Metallica, som selvfølgelig er helt dust når alle vet at det er Slayer som er flinkest til å lage musikk. De er faktisk fem poeng bedre til å lage musikk. Det sier i alle fall ekspertene.
 
Coop skrev:
På tross av utfallet av årets konkurranse har jeg alltid syntes det har vært underlig at det eksisterer konkurranser på smak. Bedømmingen er et godt verktøy for å forstå hvordan andre oppfatter det jeg selv smaker, og det kan være nyttig på sitt sett. Det blir likevel litt som å påstå at Megadeth er bedre enn Metallica, som selvfølgelig er helt dust når alle vet at det er Slayer som er flinkest til å lage musikk. De er faktisk fem poeng bedre til å lage musikk. Det sier i alle fall ekspertene.
Såvidt jeg forstår bedømmes vel ølene mye ut i fra typeriktighet, selv om det aldri blir en vitenskapelig test.
 
Tilbake
Topp