En bok med et stort øye.

Behandlingsrapport og DPIA for cc.tenkemotoren.no

Oppdatert:

1 Innledning og utfordring

Dette er ingen vanlig behandlingsrapport og DPIA. Den som er annerledes med tjenesten cc.tenkemotoren.no er at den ikke behandler eller lager personopplysninger, samtidig som den er knyttet opp til en tjeneste på Internett som er svært omtalt i media og hvor det er mange utfordringer knyttet til personopplysninger. Da er det ikke nok å bare si at tjenesten ikke behandler personopplysninger, og vi må også vise at den ikke gjør det.

Ta en kikk på denne nettsiden for å lese om hvorfor vi ønsker å bruke språkmodeller i undervisningen – https://cc.tenkemotoren.no/hvorfor-gjor-vi-dette/

2 Beskrivelse av løsningen

2.1 Webtjenesten cc.tenkemotoren.no

cc.tenkemotoren.no er en webtjener drevet og eid av Odin Nøsen. Den er plassert på en tjener i Norge.

Webtjenesten cc.tenkemotoren.no består av disse programvarekomponentene:

  • Rocky Linux – gratis og fri programvare.
  • WordPress – gratis og fri programvare.
  • «AI Engine» av Meow Apps, som kobler webtjenesten opp mot ulike språkmodeller. Utvidelsen er gratis, men vi har kjøpt pro-utgaven for å få mer funksjonalitet (og for å støtte et godt arbeid).

2.2 Hugging Face sine KI-tjenester

KI-tjenestene vi bruker er levert av Hugging Face gjennom deres serverless inference Messages API. Tjenesten er plassert på tjenere i USA. Hugging Face lagrer ingenting av kommunikasjonen mellom dette nettstedet og tjeneste sine. De har en logg på 30 dager knyttet til trafikken, men ikke innholdet.

3 cc.tenkemotoren.no er en anonymisert tjeneste i alle ledd

3.1 Kommunikasjon mellom webtjenesten cc.tenkemotoren.no og Hugging Face

Kommunikasjonen mellom en bruker av tjenesten og Hugging Face er som følger:

  • En bruker kobler seg opp til webtjeneren og får oversendt en nettside med en chatbot sammen med en sesjons-ID knyttet til chatten. Brukeren er ikke identifisert som en bestemt person.
  • Bruker legger inn ledetekst på chatboten på nettsiden som ligger på den lokale maskinen brukeren benytter. Denne sendes til webtjeneren.
  • Ledetekst sendes uten noen form for identifikator om avsender annet enn IP-adresse fra webtjeneren i Randaberg, API-nøkkelen til abonnementet Odin Nøsen har og et løpenummer som Hugging Face kan svare med, slik at webtjeneren vet hvilken chatbot som skal få se svaret.
  • Hugging Face bearbeider ledeteksten og sender svar tilbake til webtjeneren, sammen med data om antallet tokens som er brukt.
  • Webtjeneren sendes svaret fra Hugging Face til den aktuelle praterobot-sesjonen til brukeren som er koblet på. Ledetekst og svar lagres i nettlesersesjonen på den lokale maskinen til brukeren, og ikke noe sted på webtjeneren.
  • Når brukeren trykker på knappen “Slett”, slettes hele samtalen i prateroboten som er lagret i nettlesersesjonen på den lokale maskinen.

3.1.1 Hva Hugging Face ikke får vite

Det kan være nyttig å tydeliggjøre hva Hugging Face får og ikke får vite. Hugging Face får IP-adressen til webtjeneren, men aldri IP-adressen til brukeren som kobler seg opp til webtjeneren. Hugging Face mottar en ledetekst med løpenummer, men aldri en chat-ID og er derfor ikke i stand til å følge en bestemt samtale på webtjeneren.

Alle henvendelser til Hugging Face er derfor reelt anonyme. Hugging Face har ingen mulighet til å finne ut hvem som har sendt inn en ledetekst, ut over at den er sendt fra webtjeneren med API-nøkkelen til mitt abonnement.

3.2 Innhold i ledeteksten er ikke personopplysninger

3.2.1 Ledeteksten er et fritekstfelt

Brukerne kan skrive hva som helst i ledetekstfeltet. Vi har ingen mulighet til å kontrollere hva de skriver. Vi regner likevel ikke at vi overleverer personopplysninger til Hugging Face.

Grunnen til dette er at opplysningene vi sender fra oss er anonyme. Hugging Face har ingen mulighet til å finne ut hvem som har sendt inn en ledetekst og derfor ingen mulighet til å vurdere om innholdet i ledeteksten er en reell opplysning eller fiksjon.

I artikkel 4 i GDPR er personopplysninger definert som…

opplysning om en identifisert eller identifiserbar fysisk person («den registrerte»); en identifiserbar fysisk person er en person som direkte eller indirekte kan identifiseres, særlig ved hjelp av en identifikator, f.eks. et navn, et identifikasjonsnummer, lokaliseringsopplysninger, en nettidentifikator eller ett eller flere elementer som er spesifikke for nevnte fysiske persons fysiske, fysiologiske, genetiske, psykiske, økonomiske, kulturelle eller sosiale identitet.

I kommunikasjonen mellom brukeren og Hugging Face er ingen identifikator som kan brukes til å identifisere avsender av ledeteksten, og ledeteksten er derfor ikke å regne som en personopplysning. Ledeteksten i seg selv er ikke en identifikator, og vi anser innholdet i den for å være ustrukturert informasjon. Det er ikke mulig å sikkert identifisere en person uansett hva innholdet i ledeteksten er, uten at du kan verifisere dette via andre sikre kilder. Noe som ikke er tilgjengelig i denne løsningen.

Sagt på en annen måte – Ledeteksten er bare et “tomt” innholdsfelt uten noen andre tilkoblede data som kan gi mening til innholdet i ledeteksten. Derfor er innholdet uten mening og kan ikke være personopplysninger. Ledeteksten kan ikke si noe korrekt om verden, på samme måte som svaret fra språkmodellen heller ikke er en kvalifisert uttalelse om virkeligheten siden språkmodeller ikke er en aktør.

Vanligvis er fritekstfelt knyttet til en identitet, som gjør alt som står i fritekstfeltet til personopplysninger. Dette er ikke tilfelle i denne tjenesten.

Vi vurderer det slik at alt innhold i ledeteksten i prinsippet er tilfeldige bokstaver som bare gir mening i en bestemt kontekst som aldri vil bli aktualisert, siden det ikke er koblet til noe informasjon som kan gi det en nødvendig kontekst for å bli meningsfull.

3.2.2 Den frekke sammenligningen

Det er fristende å sammenligne hvor mange personopplysninger “anonym” bruk av for eksempel snl.no, ndla.no, google.com og youtube.com gir til de respektive tjenestene i form av klikk, søk, IP-adresser, nettkapsler o.l. Dette er tjenester vi forventer at elevene bruker til skolearbeidet. IP-adresser regner som personopplysninger og når dette kobles til klikk, søk og andre aktiviteter på en nettside vil dette være mer gjenkjennelig som et individ enn en tilfeldig ledetekst. Alle nettjenester lagrer med utgangspunkt i dette en rekke personopplysninger med begrunnelse for å sikre systemene mot misbruk.

For å bruke google.com som eksempel. Søkefeltet i Google er et fritekstfelt. Du kan skrive inn hva du vil. Det sendes til Google og du får et svar. Fritekstfeltet, IP-adresse, nettkapsler og en rekke andre identifiserende opplysninger er lagret hos Google og de kommer også til å bruke det til å forbedre tjenestene sine. Så lenge du ikke er pålogget Google anser en ikke dette for å være lagring eller bruk av personopplysninger.

Vi er klar over at det ikke er kutyme å sette ulike tjenester opp mot hverandre som argument, men det er viktig å påpeke at vi godtar bruk av tjenester som samler inn, og bruker, mer enn det denne tjenesten gjør.

3.3 Logging på webtjeneren cc.tenkemotoren.no

Webtjeneren (Rocky Linux / Nginx ) har en access- og error-log for å sikre driften av systemet. Disse loggene går 7 dager tilbake i tid. I disse loggene vil det bli registrert IP-adressen til de som bruker webtjeneren og hvilke nettsider de laster ned. Det logges ingen opplysninger om kommunikasjonen mellom den lokale prateroboten og webtjeneren, brukeridentitet eller innhold i praterobotene. Det logges heller ikke bruk av selve praterobotene.

4 DPIA for bruk av cc.tenkemotoren.no

4.1 Innledning

Det er mange brukere av tjenesten og tjenesten er tenkt brukt i skolen. Tjenesten er anonym og derfor vet vi ikke hvem som er hvem, og hvor mye ulike brukere bruker tjenesten. Det innebærer at vi regler med barn bruker den og dette er en tjeneste som er omtalt i mediebildet som en utfordrende tjeneste. Dette er utgangspunktet for at det bør være gjort en DPIA, selv om tjenesten er anonym.

De tre risikoene vi må vurdere ut fra GDPR i en DPIA, er konsekvenser for den registrerte om uautoriserte får tilgang til personopplysninger, om det skjer uønsket endring av personopplysningene og om tap av data (at personopplysningene blir utilgjengelige).

Siden vi mener at det ikke behandles personopplysninger er dette en pussig øvelse. Det er ingen “registrerte”, siden det ikke er lagret noen personopplysninger.

Det er likevel noen situasjoner som bør vurderes, spesielt knyttet til uautorisert tilgang til innholdet i ledetekstene lokalt hos den som legger inn ledeteksten, fordi ledeteksten der vil gi kontekstuell mening.

4.2 Ulike tiltak for å redusere risiko

4.2.1 Tjenesten er anonymisert

All kommunikasjon mellom bruker, webtjenesten cc.tenkemotoren.no og Hugging Face er helt anonym.

Selv om en bruker velger å legge igjen informasjon om konkrete personer i ledeteksten vurderer vi, jamfør tidligere begrunnelser, at innholdet i praksis likevel er anonymt, og vi regner ikke dette som personopplysninger.

4.2.2 Organisatoriske sikkerhetstiltak

Det er satt opp ansvarlig informasjonssikkerheten i tjenesten og utpekt en systemansvarlig.

De som går på kurs har fått opplæring i hvordan tjenesten fungerer, og det er utarbeidet opplæringsmateriale både til lærere og elever.

Det er gjort øvelser på hvordan systemansvarlig håndterer driftsutfordringer til tjenesten.

Tjenesten blir jevnlig vedlikeholdt og dokumentert.

Det er bare systemansvarlig som har tilgang til webtjeneren/systemet.

4.2.3 Logiske sikkerhetstiltak

Trafikk mellom nettleseren, webtjeneren og Hugging Face er kryptert med standardkryptering for HTTPS-trafikk.

Tjenesten er anonym.

Det er ingen autentisering utover enkel pålogging, fordi pålogging ikke gir tilgang til data og skal bare fungere som en mur mot unødig ressursbruk av tjenesten.

Det tas daglige sikkerhetskopier av systemet, men det er ingen data som lagres i systemet.

4.2.4 Fysiske sikkerhetstiltak

Det er ingen nødvendige fysiske sikkerhetstiltak som er nødvendige, fordi det ikke er kritisk om tjenesten går ned noen dager.

4.3 Uautorisert tilgang

Hva kan være hovedkonsekvensene for den registrerte om uautoriserte får tilgang til data?

Det lagres ingen personopplysninger noe sted i prosessen, så det er ikke mulig for noen å få tak i data.

Hva er hovedtruslene som kan føre til at uautoriserte får tilgang til data?

Andre brukere ser på skjermen til den som bruker prateroboten.

Bruker går vekk fra maskin med chat åpen uten å låse skjerm/maskin.

Teknisk svikt på webtjeneren som gjør at chat-sesjonene blir rotet sammen og brukere får se andres chat-svar.

Teknisk svikt hos Hugging Face som gjør bevarte ledetekst tilgjengelig for uautoriserte.

Hva er de ulike risikokildene?

Brukere er den viktigste risikokilden for å være de som ønsker uautorisert tilgang til andres data.

Feil i programvaren som driver chatbotene på webtjeneren.

Hvilke av de identifiserte sikkerhetstiltakene kan møte disse risikoene/utfordringene?

Opplæring, som inneholder et punkt om at en bør unngå å legge inn biografiske opplysninger om en selv eller andre.

Hvordan vurderer du alvorlighetsgraden av denne risikoen, sett i lys av mulige konsekvenser og planlagte rutiner? Hvorfor?

Lav.

Brukere vil ikke skrive autobiografiske opplysninger om seg selv når andre brukere er i nærheten og kan lese det de har oppe på skjermen.

Oppdateringer av webtjener- og chatbot-programvaren blir alltid testet før den settes i produksjon.

Hvordan vurderer du sannsynligheten for denne risikoen, sett i lys av trusler, kilder og planlagte rutiner? Hvorfor?

Lav.

Brukere vil ikke skrive autobiografiske opplysninger om seg selv når andre brukere er i nærheten og kan lese det de har oppe på skjermen.

Oppdateringer av webtjener- og chatbot-programvaren blir alltid testet før den settes i produksjon.

4.4 Uønsket endring av data

Hva kan være hovedkonsekvensene for de registrerte om det skjer en uønsket endring av data?

Det er ingen data som kan endres, siden ingenting lagres.

Hva er hovedtruslene som kan føre til uønsket endring av data?

Ingen.

Hva er de ulike risikokildene?

Ingen.

Hvilke av de identifiserte sikkerhetstiltakene kan møte disse risikoene/utfordringene?

Ikke aktuelt.

Hvordan vurderer du alvorlighetsgraden av denne risikoen, sett i lys av mulige konsekvenser og planlagte rutiner? Hvorfor?

Lav. Ingen data er lagret, så ingenting kan endres.

Hvordan vurderer du sannsynligheten for denne risikoen, sett i lys av trusler, kilder og planlagte rutiner? Hvorfor?

Lav. Ingen data er lagret, så ingenting kan endres.

4.5 Tap av data

Hva kan være hovedkonsekvensene for de registrerte om data går tapt?

Det vil ikke være noen konsekvens for de registrerte om data går tapt, fordi ingenting er lagret.

Om webtjeneren stopper å virke eller Internett-forbindelsen til webtjeneres stopper mister brukerne tilgang til tjenesten, men det er ingen informasjon som ligger lagret der de ikke kan hente frem.

Hva er hovedtruslene som kan føre til tap av data?

Ingen.

Hva er de ulike risikokildene?

Ingen.

Hvilke av de identifiserte sikkerhetstiltakene kan møte disse risikoene/utfordringene?

Ikke aktuelt.

Hvordan vurderer du alvorlighetsgraden av denne risikoen, sett i lys av mulige konsekvenser og planlagte rutiner? Hvorfor?

Lav. Ingen data er lagret, så ingenting kan slettes.

Hvordan vurderer du sannsynligheten for denne risikoen, sett i lys av trusler, kilder og planlagte rutiner? Hvorfor?

Lav. Ingen data er lagret, så ingenting kan slettes.

4.6 Vurdering av hvor trygt det er for barn under 13 år

Vi har testet tjenesten siden den ble tilgjengelig. Farlige, normbrytende eller tilsvarende ledetekster vil ikke få et oppmuntrende svar, og ledetekster som indikerer at brukeren trenger profesjonell hjelp vil bli henvist og oppfordret til dette.

Vi kan selvfølgelig ikke være helt sikre på at alle svar blir behandlet godt nok, siden vi ikke lagrer ledetekster og svar og ikke kan kontrollere alt som blir gjort på webtjeneren. Derfor har vi som en del av innføringen gitt lærere opplæring og beskjed om at de skal hjelpe elevene til å forstå hva en språkmodell er.

Vi anser derfor at det er trygt for barn under 13 år å bruke tjenesten, med henblikk på at de får opplæring, er helt anonyme og at utfordrende ledetekster vil bli svart opp på en god måte av systemet.

4.7 En rask vurdering av andre språkmodeller i undervisning

ChatGPT, både gratis- og pro-utgaven, kan ikke brukes i skolen ut fra personvernhensyn og kan ikke brukes av elever. Lærere kan personlig velge å bruke det i undervisning til demonstrasjon overfor elever, men elevene kan ikke bruke det og læreren kan ikke legge inn verken elevarbeider eller faglitteratur som ledetekst.

Microsoft Copilot og Google Gemini har samme utfordringer som ChatGPT i forhold til personvern og bruk i skolen.

Snapchat AI har enda større utfordringer enn alle de andre i forhold til personvern, både med tanke på privat bruk og bruk i skolen.

4.8 En mulig spesifikk databehandleravtale til Huggings Face

Huggings Face tilbyr en spesifikk databehandleravtale knyttet til deres egne tjenester med tanke på at en organisasjon har anledning til å laste opp eget materiale til ulikt bruk. Tjenesten Tenkemotoren benytter seg ikke av eget opplastet materiale og har derfor ikke bruk for denne databehandleravtalen.

5 Oppsummering

5.1 Om tjenesten cc.tenkemotoren.no

All behandling av ledetekster/fritekstfelt er helt anonymisert.

Det lagres ingen opplysninger om ledetekst, svar eller logger på webtjeneren.

Ledetekster inneholder bare ustrukturert informasjon, og ikke personopplysninger, siden det ikke er noen mulighet til å koble innholdet til bekreftede opplysninger.

Tenkemotoren har ikke lastet opp noe informasjon til Huggings Face.

Huggings Face bruker ikke ledetekster til å trene eller forbedre tjenestene de leverer.

Hugging Face oppbevarer ikke ledetekster eller tokens.

Webtjenesten cc.tenkemotoren.no er foreløpig den tryggeste og minst invasive løsningen for tilgang til språkmodeller med henblikk på personopplysninger, og den er i tillegg godt tilpasset bruk i undervisning.