Title: VFKURVE3
1VFKURVE3 under panseret
- Hvordan VFKURVE3 fungerer, hvordan du kan se mer
nøye på analyse-resultatene og styre
analyse-metodikken.
2Innhold
- I denne presentasjonen blir virkemåten til
VFKURVE3 skissert. Modellen(e) som analysen
bygger på og måten analysen blir foretatt blir
kort beskrevet, sammen med en kort begrunnelse
for de avgjørelser som ble tatt da programmet ble
lagd. - For en mer akademisk beskrivelse av den
statistiske modellen og analysen, se artikkelen
Bayesian Methods for Estimating Multi-segment
Discharge Rating Curves av Trond Reitan og
Asgeir Petersen-Øverleir (2009), Stochastic
Environmental Research and Risk Assessment, Volum
23, Nummer 5, Side 627-642. Link
http//www.springerlink.com/content/j132m045550741
12/ - Det er måter å se direkte(under panseret) på
hvordan analysen har foregått. Analysen blir
foretatt via trekninger fra fordelingen for
etter-kunnskap (førkunnskapdata). Dette gjøres
via en metode kallt MCMC (kort beskrevet i et
statistikk-kurs jeg har holdt for NVE
http//folk.uio.no/trondr/nvekurs ) - Det finnes også metoder for direkte å styre
kjøre-parameterene til analysen, for de som
ønsker å sjekke konsekvensene av dette. Andre nye
analyse-egenskaper i VFKURVE 3 som ikke er
beskrevet i artikkelen, blir også skissert her.
3Teori basis (felles for andre
VFKURVE3-dokumenter)
- Man ønsker å finne sammenhengen mellom vannstand
og vannføring for å kunne lage vannføringstiddseri
er ut av vannstandstiddserier. Parametrisk form
antydet fra hydraulisk teori (Lambie (1978) og
ISO 1100/2 (1998)) QC(h-h0)b - Man har også en støyparameter, sigma, som
beskriver hvor mye hver enkeltmåling av
vannføring kan forventes å ligge unna ekte
vannføring relativt sett (altså
avvik/vannføring). Typiske verdier her er 0.02
(2 gj. avvik) til 0.15 (15 gj. avvik). - Parameterne kan være fiksert for
vannstandsintervaller heller enn for hele spennet
av vannstander. Segmentskillene (hs) kan være på
forhånd ukjente.
h
h
hs
h0
Q
vidde
4Matematisk beskrivelse av regresjonskurva
- Kurven er delt inn i segmenter. Inne i segment
nummer j beskrives vannstand-vannførings-sammenhen
gen som - Kort beskrivelse av parameterne
- h0,j er segment j sin bunnvannstand (teoretisk
for jgt1). - bj angir form-parameteren på profilen i segment j
(2.5 for v-overløp, 1.5 for rektangulært overløp,
1.67 for uniform strømning med rektangulær profil
etc. (Se hydraulikk-dokumentet til Asgeir
Petersen-Øverleir om temaet). - Cj kan ses på som en kombinasjon av form,
vannhastighet, bredde og andre faktorer. Den vil
være lik segmentets vannføring hvis vannstanden
stod 1 meter over segmentets bunnvannstand. - hs,j angir segmentskillet mellom segment j og
segment j1. - Konstant-leddene Cj for øvre segmenter (jgt1)
settes slik at vannføringen er kontinuerlig over
segmentskillet. Dette gjør at Cj er en funksjon
av Cj-1 samt andre parametre i segment j og j-1.
5Matematisk beskrivelse av regresjonskurva (2)
- Totalt sett vil en vannføringskurve kunne
beskrives matematisk som - der j(h) er segmenttilhørigheten til vannstand h,
altså det segmentet, j, som er slik at
hs,j-1lthlths,j (setter hs,0h0,1). - Hvis vi log-transformerer dette, fås for
log-vannføring, q(h)log(Q(h)) - Merk at formelen har nå en tilnærmet lineær form
(den ville vært lineær for kjent bunnvannstand
h0,j). Modellerings-messig er dette et mer
behagelig utgangspunkt, og det blir derfor brukt
internt i VFKURVE3.
6Statistisk modell (håndtering av målestøy)
Vannføring er en positiv størrelse der målestøyen
kan antas å være ca. proporsjonal med
vannføringen. En multiplikativ modell for
målestøy virker derfor rimelig, det vil si at det
er like stor sannsynlighet for at en målinger er
mer enn egentlig vannføring ganger 1.2 (f.eks)
eller mindre enn vannføring delt på 1.2. Dette
uttrykkes som der (hi,Qi) er vannstand og
vannføring for en vannføringsmåling, i er en
løpeindeks over målesettet og Ei er støyleddet.
Dette støyleddet bør være strengt positivt,
sentrert rundt 1 og ha symmetrisk sannsynlighet
for å være over x og under 1/x, der x er et
hvilket som helst tall over 1 (se forrige
paragraf). Dette kan oppnås enkelt ved at Ei er
log-normalfordelt med log-forventning 0. PÃ¥
log-skala får dette en enklere form Parameteren
? er den eneste nye størrelsen her, og angir
støyens størrelse på log-skala.
7Mer om målestøy
I tillegg til modellantagelsen
antas det
også at støyen er uavhengig fra måling til
måling. F.eks. skal hvilket instrument som ble
eller hvem som foretok målingen være irrelevant
(men se ark om måle-kvalitet). Hvis
uavhengighet ikke er tilfelle vil
kurve-usikkerheten ikke estimeres riktig. Siden
Bayesiansk modellvalg i bunn og grunn dreier seg
om en modells prediksjons-styrke i forhold til
data, vil et slikt problem få konsekvenser for
modellvalget (antall segmenter). Merk at
hjelpepunkter neppe kan anses for å ha uavhengige
avvik fra egentlig vannføring. Dermed kan man
ikke stole på kurveusikkerhet der mange slike
punkter blir brukt. Merk også at støyens
størrelse , ?, er antatt å være den samme for
alle segmenter. Hvis man i førkunnskap-modulen
setter at støyens størrelse, ?, er liten, vil
analysen i større grad prøve å være nærme hvert
målepunkt. Det vil resultere i større
sannsynligheter for flere segmenter. Motsatt vil
stor støy-størrelse i førkunnskapen minske
sjansen for segmentering.
8Analyse
Med en statistisk modell for målestøy og med
uavhengighets-antagelse kan man kjøre statistisk
analyse, enten via klassisk metodikk
(max-likelihood, brukt i VFKURVE2) eller
Bayesiansk (VFKURVE3). Siden erfaring tilsa at
førkunnskap var et viktig element i slike
tilpasninger, siden klassisk metodikk av og til
feilet og siden kurve-usikkerhet var av
interesse, ble det avgjort å kjøre kjøre
Bayesiansk analyse. En egen modul for setting av
førkunnskap ble lagd og er beskrevet i
dokumentasjon for avansert bruk av
VFKURVE3. Selve analysen dreier seg da om å
forene førkunnskap og data (vannføringsmålinger).
Dette blir oppsummert i a posteriorifordelingen
(etter-kunnskapen). En slik en finnes for en hver
segmenteringsmodell (karakterisert ved antall
segmenter). A posteriori sannsynlighet (via
marginalfordeling) for antall segmentskille blir
så brukt til å velge riktig antall segmenter.
(PS Dette kan overstyres av brukeren.) Selve
analysen foretas via Markov chain Monte Carlo
(MCMC) metoden (NVE-kurs, dag 2,
http//folk.uio.no/trondr/nvekurs). Kort fortalt
gå det ut på å lage en tidsserie som har en
fordeling som etter hvert nærmer seg a
posteriori-fordelingen (etter-kunnskap).
9Numerisk metode a posteriori-trekninger med
MCMC
- Bayesiansk analyse av førkunnskap og den
skisserte modellen er ikke mulig å utføre
analytisk. Men det er likevel mulig å trekke
(sample) fra a posteriori-fordelingen til enn
kurve-modell via metoden Markov chain Monte
Carlo (MCMC). Dette gjøre så for hver
segmenteringsmodell (gitt ved antall segmenter).
MCMC fungerer ved at man konstruerer en
tidsserie-modell som i fordeling går mot a
posteriori-fordelingen. - Viktige MCMC-begrep
- Burn-in Antall trekninger bør foreta før man
kan regne med at tidsserien har stabilisert seg
til a posteriori-fordelingen. - Spacing Antall trekninger man bør foreta før
man henter en som antas uavhengig av den forrige. - Antall trekninger Antall uavhengige trekninger
man ønsker å få tilbake i analysen, altså etter
burn-in og med Spacing antall interne
trekninger imellom. - Antall tempering-kjeder tempering brukes for å
komme over problemet med flere topper i a
posteriori-fordelingen. Kjøretiden øker med
antallet kjeder.
Eksempel på MCMC-tidsserie
Spacing
Burn-in
MCMC-metodikk er kort beskrevet i mitt
statistikk-kurs på NVE (andre dag)
http//folk.uio.no/trondr/nvekurs/nvekurs2.pptx
10Hvordan MCMC blir brukt
i VFKURVE3
Man ønsker ikke at analysen skal ta mer tid enn
nødvendig men på den andre side sett kan alle
kjøre-parametre også settes så lavt at resultatet
ikke er å stole på. For å imøtekomme disse
motstridende kravene blir en før-analyse kjørt
før den riktige analysen. I før-analysen sjekkes
det om den burn-in som først var valgt er
tilstrekkelig, om det er avhengighet i
trekningene som fordrer økt spacing og om det er
antydning om flere topper, som fordrer
tempering-metodikk ( i siste tilfelle kreves en
ny før-analyse). Alt dette settes automatisk
etter før-analysen. Man kan likevel overstyre
denne automatikken.
Her kan man sette alle kjøre-parametre.
11Hvordan se på analysens MCMC-trekninger
Hvis man føler seg usikker på om kjøreparametrene
er satt riktig (høye nok), kan man ta en titt på
MCMC-trekningene. Man velger da parameter og
klikker da vis sample serie i
analyse-modulen.
I dette tilfelle (som er kunstig fremprovosert)
hadde ikke MCMC-trekningene ennå stabilisert seg
da burn-in perdioden var slutt. I tillegg ser det
ut som om man med
fordel kunne satt spacingen høyere (stor
avhengighet mellom trekningene). Hvis
avhengigheten er spesielt stor kan det være et
tegn på flere topper (tempering trenges).
12VFKURVE3 sine MCMC-trekninger i andre program
VFKURVE3 lagrer all trekninger ifra MCMC-analysen
på egne tabeller i databasen. Dette har gjort det
mulig at man i DAGUT/FINUT og spesialprogrammet
TIDSSERIE_USIKKERHET kan hente ut
vannføringstidsserier med usikkerhet. I tillegg
kan man hente inn trekningene til eget bruk fra
Hent generert kurve i hovedvinduet
Marker hent analyse-trekninger og trykk hent
generering
Velg så genereringsnøkkel. Når du klikker ok
vil et vindu dukke opp som lister alle
trekningene og alle segmenteringsmodeller. Du kan
derifra lagre denne listen på fil.
13MÃ¥le-kvalitet
Måle-kvalitet benyttes nå til å sette hver
målings påvirkningsgrad på kurven. Dette gjøres
ved at dårlige målinger antas være dobbelt så
usikre som middels målinger, og middels målinger
dobbelt så usikre som gode målinger. Støy-leddets
størrelse relaterer seg til middels
målinger. Hvordan disse måleusikkerhetene
skalerer seg kan redefineres ved å trykke på
knappen Kvalitetsvekter i nederste knapperad i
hovedvinduet. Man får så opp et vindu
der man kan sette de relative usikkerhetene. Merk
at man kan forandre kvaliteten til
enkeltmålinger i editeringen i hovedvinduet.
Dette blir ikke tilbakeført til
vannføringsmålings-arkivet men informasjonen blir
lagret i tabell for kurve-grunnlag.
14Maksimal bunnvannstand
Førkunnskap-modulen har blitt utvidet i forhold
til modelleringen beskrevet i artikkelen
Bayesian Methods for Estimating Multi-segment
Discharge Rating Curves. Utvidelsen består i at
man kan sette maksimal mulig bunnvannstand (altså
at man er helt sikker på at denne parameteren
antar mindre verdier enn den man oppgir).
F.eks. for tilfeller av stasjoner der man
allerede har en tidsserie for vannstand gående
inne i kurve-perioden, er slik informasjon
tilgjengelig. Dette gjøre ved å klikke knappen
merket sett maksimal bunnvannstand i
førkunnskap-modulen Et nytt felt vil da
dukke opp der man kan sette dette. Teknisk sett
går man fra å bruke en normalfordeling på h0 til
Ã¥ bruke en log-normalfordeling for maks
bunnvannstand-h0.
Dette ble gjort i forbindelse med behov funnet
under arbeidet Price, Jackson, Parker, Reitan,
Dowd, Cyterski, (2011) Effects of Watershed Land
Use and Geomorphology on Stream Low Flows During
Severe Drought Conditions in the Southern Blue
Ridge Mountains, Georgia and North Carolina,
United States. Water Resources Research, 47,
s19.
15Residual-analyse
Residualer er vannføringsavvik mellom målt og fra
estimert kurve, på logskala
der Qi
er vannføringen til måling nr. i og Q(hi) er
estimert kurve sin vannføring for vannstanden til
måling nr. i. Residualer vises via
analyse-modulen og kan gi en grafisk pekepinn på
hvorfor analysen anser det for å være en trend i
tid og/eller vannstand. Bayesiansk regresjon med
ulike trend-modeller foretas og den beste
modellen vises (med mindre dette er ingen
trend). Merk at man her også kan foreta analyser
på deler av data som ikke testes automatisk i
kvalitetsmodulen, slik som instrumentering og
måle-person. Absoluttverdier av residualer
kan brukes for å teste om det er trend i
støy-størrelsen (heteroskedastisitet).
16Residual-analyse (2)
Siden normalfordelings-antagelsene gjelder for
residualene og alle trend-testene gjøres på
disse, er det derfor residualer, ikke for f.eks.
relative vannføringsavvik, som vises i
residualplottene (da dette ville føre til
ikke-normale og asymmetrisk fordelte
plotte-punkter). Men merk at for små residualer
er residualene ca. lik relative
vannføringsavvik. Residualene var tidligere
definert motsatt, som
Dette førte til negative
residualer når målingene var høyere enn kurva, og
ble ansett som mindre intuitivt.