gigacampus » start page » samling

Status og planer - overvåkning

Emne Presentasjon av status / diskusjon
Sted Trondheim
Tidspunkt 14. juni 2005

Agenda

0900-0915 Velkommen
0915-1010 Overvåkningsstatus fra UiO ved Ståle Johansen
1010-1020 Pause
1020-1050 Overvåkningsstatus fra UiT ved Sølvi Bersås
1050-1100 Pause
1100-1200 ITIL status fra NTNU ved Sverre Stornes
1200-1300 lunch

1300-1315 ITIL ved UiB, status overvåkning ved Hans Morten Kind
1315-1350 Status fra: UiS, HiN, HiVolda, HSH, HiA, HiT, HiO
          Fem minutter fra hver.
1350-1430 Diskusjon
          - Formalisering av driftsprosessen
          - Monolitt eller mange små?
          - Egenutvikling eller hyllevare
          - klassifiering av overvåkningsaktiviten
1430-1500 Pause
1500-1530 Målepålestatus
1530-1600 Oppsummering
          - revidert mandat
          - veien videre

Presentasjoner

Dokumenter

Følgende dokumenter ble laget på bakgrunn av diskusjon i møtet. Disse ble igjen diskutert nærmere på et møte høsten 2005. Dette er endelige versjoner:

  • GC-B-2: UH-sektorens beste praksiss: proaktiv IT drift
  • GC-B-3: Verktøyvalg - generelle råd

Referat

Ståle Johansen, UiO: Overvåkning og rapportering

Presentasjon: uio-gc-jun14

- rutiner man må ha
- teknologier

akser
- sikkerhet
- konfig
- feil
- ytelse
- miljø
y-akse
- system
- nett
- database
- applikasjon
- hardware

- rammeverk, kanskje flere
- et sentralt alarmconsol
  - får alarmer fra alle 
  - korrellering

- klare def av problemløsning
- integrasjon
  
- severity på alarmer
- roller til maskin, flere roller per maskin
- planlagt nedetid, varsling
- måleparametre

- klassisk: drift og systemutvikling/tilpasning tuning snakker dårlig sammen

- line of business (lob)
  - hvordan modellerer man at tjenester har avhengighet
  - skygge kan bli veldig komplekst på tjenestenivå


- felles alarmkonsoll - på tvers av faggrupper
- overvåkning av overvåkning
- snmp trap
- loggfil, syslogg
- grafer, alarmer fra grafer
- trending - capasity management
- service level
- anomali-deteksjon
  - rrdtool 2.0 har dette
  - Holt-Winters metode
- rammeverk 
  - kan gjerne ese ut/vokse
  - skal alle systemene sende sms...

spm/diskusjon/innspill
----------------------
- tenk på ende-til-ende
- scope hele uio
  + eksterne kunder
- hva har vi
  - rutiner
  - verktøy
  - organisering: vil det gi endringer
- deteksjonsnøyaktighet - på feiling
  - verktøy for det
  - laget verktøy - basert på topics map
    - korreleringsverktøy
    - kan eksportere 
    - houdini
      - oppslagsverk
      - kan ikke ta i mot eksterne alarmer
     
- tilgjengelighetskrav - er det definert
  - kjøling er viktig

- man trenger en del grunnleggende dokumentasjon
- hvordan måler man oppetid, prosent sier ikke nok

- ikke _ett_ verktøy. nei!!!
  - brekke opp ting
  
- myriader av verktøy
  - dyre store verktøy, kan gjøre mye rødt
    - tuner mot å stirre på skjerm

- bør alle verktøyene polle en ruter
  - kan være et problem

- ticketsystem oppe på alarmsystem
  - toveis

Sølvi Bersås, UiTø

- prosjekt begynte i janauar, slutt juni, rapport foreligger
  - kan gi et implementasjonsprosjekt
- IT-avd, ca 40 stk, prosjektet omfatter disse
- enkelte seksjoner har ikke noe overvåkning
- prosjekt for kartlegging av systemovervåkningsverktøy

- prioritere 3 verktøy
  - mer konkret til verks

- intervjurunde
 - demokratisk prosess, der alle i it-avd ga input 
 - resulatet:
   - villa ha bra grensesnitt
     - gule, grønne lys
   - ville ha beredskapsvakt, alarm til denne
   - trenddata
 
- viktig med helhetlig tenkning
- ikke hver mann sin overvåkning
- urealistisk med et verktøy
- trenddata for 80%
- kunne aktivere/deaktivere en alarm

- så på verktøy
 - big brother
 - tivoli
 - openview
 - nimbus
   - virker spennende, anbefales
   - foreslått innføringsplan, lisenspenger
 - nagios
 - cricket

- kartlegge hva som blir brukt rundt forbi
  - besøk på bedrift
    
- overvåkningstest
  - exchange

- contra egne verktøy
  - det kan bli hver man sin overvåkning

- openview og tivoli
  - trenger konsulent for å sette opp
  - fikk testet "litt" mot exchange og ad

- kulturendring

- nettseksjon har nav
  - alarmer fra nav til valgt system

- ikke et verktøy
  - men alarmer sentraliseres

kommentar
---------
- brukere aksepterer nedetid - at ting går i "dass"
  - brukere vil merke nedetid
  - gi info til brukerne - utrolig viktig!

Sverre Stornes, NTNU: ITIL ved NTNU

Presentasjon: ITIL ved NTNU

- stor tilhenger av automatisering
- kan ITIL bli for mye overhead - for stort... 

- felles vokabulær
- fokus på sosiale prosesser, ikke teknologi
  - fokus: tjenester og kunder
- bryte ned siloer
- fokus på brukerne
- prosess
  - ny måte å organisere avdelingen
  
- fremdriften kunne vært bedre på ITEA
   
- kundefokus
  - fange opp på problemer, ikke dette mellom i stoler

- service level management
  - endringsfrekvensen
  - endringsvindu

- confg management
  - CMDB - modellerer hele infrastrukturen

- change management
  - kommer til høsten på ntnu

- ntnu ikke adressert problem management

- prosessen viktig i seg selv
  - kanskje man ikke trenger itil til slutt ;)

- itea: 150 mennesker. 50 timeansette.

- incident
  - ejournal 
    - en suksess
  - skal nå bort fra ejournal
  - anskaffet hp openview pakke

innspill
- kompetanse vs droner
  - vi må ta inn over oss at vi har kompetente medarbeidere
- sats på folk, ikke roboter
- ikke for mye dok
- ikke demonter kjøkkenet ved hver oppvask
  - gjør det som er høyst nødvendig

- du klarer ikke å dokumentere kompetanse
  - du klarer å dokumentere enkle rutiner

- sentralisert avviksmelding

- trenger ikke så mye overvåkning, fordi man har kompetente mennesker

- hp openview: radia: inventory management
 
burde gjort
- fokusert på prosessverktøy
- ikke anskaffet overvåkningsverktøy

orgendringer
- itil har prosessfokus
- kan gi orgendringre
- sannsynlig at det skjer ved itea

kommentarer
-----------
- never change a winning team
- hp openview
  - stor mastodont - dårlig på noen felt..
- konsekvenser av org-endring - tar man det inn over seg
  - tar lang tid hos ledelsen

Hans Morten Kind, UiB: Overvåkning og ITIL status ved UiB

overvåkning
-----------
  - mrtg
    - cronjobb som tygger og gir alarmer
  - netflow
    - websider
    - detektere virustrafikk
      - interne maskiner, som snakker med eksterne, gir alarmer
  - ids
    - for mye støy
  - vaktordning - 99
    - bemanning: unix, win, nett
    - svakhet i at en vakt ikke har kompetanse på alt

  - big brother     
    - tjenestesjekker
    - pinger
    - perlscript som tester tjenester
    - alarm, webside
    - vaktordning - oppsøker, epost, sms

- 80 stk på it-avdeling, blir over 100
  - spiser fakuluteter

itil
----
- presentert i 2003
- første itil-prosess i 2004: incident 
  - i drift fra mai 2004
- ingen opplæring, kun allmøte
- ris-modell
- brukerstøttesenter
- issue-tracker 
  - open sorce
  - php scrift
- på tampen å innføre ca unicenter i 99
  - ville vært katastrofe
  - alle enig om det i dag
- omorg av it-avd
  - alle sentralisert
- neste prosess sept 04
  - operativt fra 1/12-04
  - change, configuration
  - mest fokus på change
    - endringer fører til feil
    - ikke tungt burakrati
    - endringslogg i issue-tracker
      - står hva som er gjort på forskjelige maskiner
    - kategorier
      - daglig drift
      - forhåndsgodkjente endringer
      - en uke før - godkjenning av seksjonsleder
   - config db
     - nav fikser svitsjer
     - pcer: ad har info om pcer
     - mangler servere og tjenester
       -> enkel database i easytracker
- tjenestefokusering
  - service erklæringer
  - brukere bryr seg ikke om tekniske ting, de vil ha tjenester
  - snakker brukerspråk
  - to nivå tjenester
    - ledelsesspråk
    - teknikkerspråk
- kanskje man trenger store, tyngre verktøy
  - med issue-tracker har man god erfaring ved evt anskaffelse
- tjeneste på tjeneste
- wiki
  - for dokumentasjon
- før itil
  - brukere vet ikke hvor de skal henvende seg
  - tenker meg bedre 
  - boksoversikt
  - manuell foring av db. 

- liker best at en boks står og detekterer selv
  - prosessovervåkning
  - cronjobber er kjekt

Innspill
- egenutvikling 
  - blir det vedlikeholdt
  - sytrådsystemer

- relativt navlefokusert, for uib sitt behov

Status fra de øvrige: HiVolda, HiT, HiO, HSH, UiS, HiA, HiN

HiVolda (Peder Sefland)
-----------------------

- har hatt nav2. 
- gikk tidlig over til nav3
  - kuttet ut nav2
- har et kommersielt produkt: network probe
  - gammu for varsling på temperatur


HiT (Ole Sigurd Hansen)
-----------------------

- dieseldrevet strøm
  - ting kan fortsatt gå galt...
- ingen vaktordring, etter kl 15 sorry, men i praksis...
- it-avd ansvar for alt
  - it ressurser blir litt underutnyttet muligens
- nav2, mrtg, cricket, big brother
- en strategi for å kvitte seg med feil:
  - kvitte seg med hardware / forenkle
- fokusere på tjenester
- kjøpe tjenester
  - ikke bare bare, det er ikke alltid man får det man forventer
- overvåkningsboks for å styre trådløse bokser


HiO (Harald Terkelsen)
----------------------

- nav2 installasjon, brukes til å finne maskiner i nettet
  - klarer ikke å finne alle maskiner...
- har så vidt prøvd nav3
- netflowdata
  - stager oppe og kjører
- websider med mrtgdata
- 802.1x, radiusaccounting
- ip tables 
- døgn-kontinuerlig temperatur/rom overvåkning
- planer
  - nav3
- vurdert: nagios, big brother
- trenger overvåkning av basestasjoner
- overvåkning av ups - et savn
- lite formaliert drift, lite dokumentasjon, hver mann sin overvåkning

HSH (Roger Aas)
---------------

- studenter jobber til alle døgnets tider
- nav2 gir boks opp og boks ned
- gleder oss til nav3
- kun to ganger at tjenesten har gått ned og ikke boksen
- vi kan ikke lage masse script/verktøy, liten målestokk
- ønsker verktøy til 0 kroner
- nav
- snort
  - støyer pr default
  - strategi: fjernet alt, åpnet for alarm på det viktigste
- stager: ser på, anskaffer netflowkort til cat4k svitsjene

UiS (Kjartan Malde)
-------------------

- omorg av it-avd
- ikke gjort så mye på overvåkning
- mrtg innført for 3 år siden
  - alarmer hvis for mye trafikk
  - for mye -> sperrer maskiner
    - har hendt man har sperret uskyldige 
- snort
  - testet
- ser hive løsning
  - autobanne maskiner som bryter snort-regler
- varsling på temperatur


HiA (Bjørn Lindemann)
---------------------

- bruker nav2
  - svitsjer, rutere, wlan
- har ciscoworks, sover, på vei ut
- hpsim: system
- miljøovervåkere: vann strøm
- syslogg
- novell logger
- arptabeller hentes
- hp720: adgang på trådløst: løsning for det
- trend antivirus
hvor vi vil
- pingstat
- delay, pakketap
- nav3
- netflow 
- novell: sendworks for servere
- tjenesteovervåkning: trenger det
- bedre overvåkning ved hacking/virusutbrudd
- patchenivå på klienter, bærbare private maskiner en hodepine
- snmp trap handler

HiN (Ketil Forselv)
-------------------

(Ketil var fraværende pga sykdom. Rapportert pr epost)

- har hatt nav2, fast ut
- kjører nav3, oppgradert til siste versjon, fungerer bra
- installert stager
  - vil etterhvert også få studentbytrafikk inn her
- nessus boks for sårbarhets-scanning
- snort-boks for IDS

Prosess/ITIL diskusjon

Olaf: Ifb med ITIL er ikke målet viktigst, men prosessen. GigaCampus 
burde ha med "UH-oversettelsen" av ITIL i form av en 2-siders executive summary 
om hva som er viktig å ha påplass. Utfordringen går til de i 
arbeidsgruppa med ITIL-prosess bak seg til å forfatte en slik 
oppsummering.

Telemark/ NTNU : Oppsummering kan gjerne inneholde sjekkspørsmål for om 
behov for ITIL er tilstede. 

Tromsø: Vi har service desk i egne lokaler. En utfordring å få til god 
kommunikasjon mellom service-desk og øvrig it-organisasjon. Skepsis til 
en tung ITIL-prosess, erfaring viser at nødvendig kultur-endring i egen 
organisasjon er vanskelig å få til .

NTNU: Litt om "Delfi" og viktigheten av kompetent/ flerfaglig støtte 
til 1.linje help-desk.

UiO: Har opprettet et flerfaglig friftssenter "Houston".

UiB: All erfaring viser at brukerstøtte er viktigste berettigelse for 
lokal it-drift. Uten brukerstøtte kan en spissformulere at hele 
it-organisasjonen like gjerne kan "out-sources". Det er vanskelig å 
oppnå status til brukerstøtte-jobbing/ få kompetente folk til å delta. 
I små organisasjoner problem med manglende bredde i brukerstøtten.
Nevnte erfaring med å la kompetent personell ha oppgaver på 
service-senteret som "mentor-besøk" / drive opplæring mot 
helpdesk-personell.

Spørsmål fra "salen" om noen hadde sett på sammenslåing av IT og 
bibliotek-seksjonene. Ingen som hadde gjort dette, men flere som brukte 
bibliotek-personell som ressurser ifb med drift av "lesestue-maskiner".

Olaf: Svar til Hasse om out-sourcing og betydningen av å få inn 
kompetente folk til service-senter-funksjonen. Fortalte om Uninetts 
driftsrotasjon. Nevnte at det var viktig å fokusere på 
forskningsnettenes egen-art og å levere merverdi fra 
driftssenter-funksjonen: Det at vi kan yte ekstra til våre kunder uten 
at taksameteret går er vårt fremste konkurransefortrinn. Viktig å se på 
brukerstøtte som opplæring av brukerne/ kundene, jobbe for å gjøre 
brukerne gode og tjenestene gode. Ifb med trivsel/ status for 
driftssenter-jobbing viktig å kunne få lov  gå inn i problemer skikkelig og 
yte mere enn "drone-arbeide"/ standard-løsninger.

Vidar: Ett brannfakkel-spørsmål:  Er UH-sektoren egentlig forskjellig 
fra kommersiell sektor?

Telemark: Krav til effektiv/ sentral drift gjør at tjenesteutvalget 
standardiseres til "brød-og-smør"-tjenester. Sentralisering fører til 
utarming.

Tromsø v/Børge: All omorganisering skaper støy og tar ressurser, farlig 
å skulle organisere seg bort fra problemer. Spør om ikke ITIL-prosessen 
bare er nok en om-organisering.

UiB / Hasse: ITIL hos dem bygger på konkret behov for formalisering av 
driftsprosesser / rutiner. Viktig å plukke ut essens/ deler som virker for 
din organisasjon, og ikke se på ITIL som fasit/ stor pakkeløsning.

Telemark: Mye er politisk styrt, omorganiseringer er ikke altid styrt 
av it-organisasjonens egne behov..

Uninett/ Roald:  Viktig med overblikk og kompetanse til å løse saker 
"on-the-fly" og til å løse "ende-til-ende"-problematikk ifb med 
help-deskfunksjonen. Problemløsning er ikke det "out-sourcede" 
help-desk-miljø er gode på, de er sterkest på formalistisk 
saksbehandling. Nevnte "måle-påle"-arbeidet og betydningen for å kunne 
gjøre testing på faktisk kvalitet.

Børge: Spurte om noen hadde erfaringstall ifb med egne driftssenter, 
f.eks på telefon-logger/ ventetid, responstid o.l.

NTNU: Innføring av Delfi orakeltjenesten har gitt drastisk reduksjon i 
saksbehandlingstid for trouble-ticketer. Men samtidig har antall 
innmeldte saker stadig økt. Færre problemsaker som "flyter" og ikke blir håndtert.

Olaf ba om forslag til personer som kunne jobbe med "ITIL-sammendrag" til 
GigaCampus, hvilke funksjoner/ deler burde ses spesiellt på for UH og 
hvorfor. Kansje få inn erfaringstall fra sektoren , f.eks hvor mange 
har innført help-desker og beredskapsordninger, hvem planlegger slike 
ordninger - viktige inspill til styrende organer og direktører.

Vidar: Tilbød seg å dra igang arbeidet på wikien og epost-listen fram 
mot neste arbeidsgruppemøte i sept.

Verktøydiskusjon

Telemark spurte om event-handle delen skulle ut av NAV ifb med monolitt 
kontra små verktøy.

NTNU v/ Sverre: ville i etterpåklokskapens navn ved ny ITIL-prosess 
sett mere på ulike verktøy der overvåkningsdelen ikke nødvendigvis er 
integrert med prosess-system.

Vegard spurte om metodikk for å overvåke "overvåkingen".  Fikk svar fra 
Bergen (periodisk statusmail/ alt-ok-mail til vakt) og Stord/ 
Haugesund( Teller som nullstilles periodisk og sjekkes mot.)

Børge: innføring av kommersielle verktøy krever også betydelig 
egeninsats. Har tro på felles løsninger/ open source.

Anders Lund: I forbindelse med "open source" tankegangen bør påbygg til 
NAV inn såsnart som mulig. Viktg med økt bruk av NAV for å kunne dra 
nytte av "open-source" utviklig etterhvert.

Olav: Open Source også mye brukt i Geant/ ute i europeisk UH-miljø. Eks 
hjelpeprogrammene for målepåle.

Hasse/ Bergen: Store programmer legger ofte store føringer. Du må 
tilpasse deg til programmets virkelighet og ikke omvendt. Også kjøpte 
løsninger er sårbare/ personavhengige.

Børge: Med NAV som open-source/ vidt spredt økes NAV's potensiale/ 
verdi/ sjanse for ny funksjonalitet/ økt vedlikehold.

Sølvi/ Tromsø: Etterlyser god open-source for win-sjekking. Hasse 
svarer at smb-client og andre finnes som støter det meste, også som 
open-source.

Deltagere

1  Sølvi Bersås, UiT
2  Børge Brunes, UiT
3  Sverre Stornes, NTNU
4  Gro-Anita Vindheim, NTNU
5  Hans Morten Kind, UiB
6  Roar Pettersen, UiB
7  Ståle Johansen, UiO
8  Margrete Raaum, UiO
9  Kjartan Malde, UiS
10 Ketil Forselv, HiN
11 Peder Sefland, HiVolda
12 Roger Aas, HSH
13 Rune Kittelsen, HiA
14 Bjørn Lindemann, HiA
15 Ole Sigurd Hansen, HiT
16 Harald Terkelsen, HiO
17 Vidar Faltinsen, UNINETT
18 Stein Nygård, UNINETT
19 Olav Kvittem, UNINETT
20 Olaf Schjelderup, UNINETT
21 Rune Sydskjør, UNINETT
22 Per Arne Endstad, UNINETT
23 Vegard Vestrheim, UNINETT
24 Andreas Lund, UNINETT
25 Håvard Kusslid, UNINETT
26 Gunnar Bøe, UNINETT ABC
27 Asbjørn Prøis, UiO
28 Geir Mikkelsen, UiT
29 Jon Kåre Hellan, UNINETT 
 
 
gigacampus/samling/overvak_juni_2005.txt · Last modified: 2010/02/08 14:27 (external edit)

Viktig melding: openwiki.uninett.no

UNINETT OpenWiki er under utfasing. Wikier som er lite brukt er satt i kun-lese-modus. Ta kontakt med UNINETT for å åpne for skrivetilgang ved behov.

Group memberships: no groups