Begynn her

Publisert

Sammenligning av automatisk transkribering på norsk

img of Sammenligning av automatisk transkribering på norsk

Hvilken variant av Whisper du bruker, hvilke parametere du setter for modellen og til og med prosessoren som kjører modellen kan påvirke nøyaktigheten av transkriberingen.

Vi har gjort en enkel test på typiske lydfiler folk bruker.

Varianter av Whisper

De aktuelle hovedvariantene av Whisper large-v2 og large-v3. large-v3 er den nyeste, men den er ikke nødvendigvis mer nøyaktig enn sin forgjenger. For norsk språk er også Nasjonalbiblioteket sin modell NbAiLab/nb-whisper-large aktuell.

I tillegg finnes det forskjellige implementasjoner av modellene. Eksempler er WhisperX, Faster Whisper og Insanely Fast Whisper. Disse prosesserer dataen litt forskjellig eller bruker optimalisert konfigurering i transformatorer for å kjøre modellen raskere eller til og med mer nøyaktig.

Man kan også preprosessere lydfilene for å kjøre modellen raskere og mer nøyaktig. Typisk vil man fjerne støy, isolere tale og dele opp lange klipp. Dette kan lønne seg i visse tilfeller, men det kan også føre til at noe av talen ikke gjenkjennes og derfor forsvinner i transkriberingen.

Til slutt kan man kjøre Whisper med forskjellige parametere. Eksempler er beam size og temperature. Det er vanskelig å finne en god konfigurasjon som virker i alle tilfeller, og noen ganger handler det om å gi raskere transkribering for litt mindre nøyaktighet.

Våre resultater

Vi har testet noen lydklipp for å få en omtrentelig innsikt i hvilke modeller som er best for norsk.

Vanlig Whisper v2 eller v3

Denne funker ganske greit, men den er veldig treg. WER 7,14%

WhisperX v2 eller v3

Denne funker ganske greit, ofte bedre enn vanlig Whisper, og er en god del raskere. WER 7,27%

Faster Whisper

Samme nøyaktighet som vanlig Whisper, men en del raskere.

Insanely Fast Whisper

Denne er veldig rask, men nøyaktigheten på norsk ser ut til å bli betraktelig dårligere. WER 11,9%

Nasjonalbibliotekts spesialiere modell for norsk NbAiLab/nb-whisper-large

Denne ser ikke ut til å gi noe bedre nøyaktighet på norsk. Tvert imot får vi dårligere resultater enn WhisperX og vanlig Whisper. Deres mindre modeller som NbAiLab/nb-whisper-base er mye bedre enn den tilsvarende base-v2, så dersom du ikke trenger veldig nøyaktig transkribering og vil kjøre på egen PC eller har begrensede ressurser, så kan Nasjonalbibliotekets bidrag være til stor nytte. WER 11,01%

Andre spesialiserte modeller av Whisper

Vi har testet forskjellige modeller som gir litt bedre nøyaktighet på norsk. Det er vanligvis en av disse vi bruker på Teksta.no. WER 6,8%

Andre modeller som ikke er Whisper

Vi har ikke funnet noen andre modeller som kan måle seg med Whisper når det kommer til transkribering av norsk.

Teksta.no med automatisk korrigering

Autokorrigering med KI på Teksta.no kan rette opp noen feil. I testdataen ga dette litt bedre resultat. WER 5,03%

Om testen

Vi har brukt offentlig tilgjengelige videoer med tekst fra Youtube. Vi har prøvd å finne videoer med en god, manuell transkribering og som ligner i innhold på det våre kunder typisk har.

Word Error Rate (WER) er et mål på hvor nøyaktig en transkribering er. Da sammenligner med fasiten med transkriberingen. Antall ord som mangler, er lagt til eller er stavet forskjellig enn fasiten regnes som en feil|1. WER blir da antall ord delt på antall feil. Vi testet WER uten punktuasjon eller store bokstaver på Teksta.no sin WER-kalkulator.

Annet

Vår test er ikke spesielt rigorøs eller systematisk, så vi vil prøve i fremtiden å gjøre en skikkelig test på lydfiler som ligner på det folk typisk vil transkribere. Vi setter også pris på om noen ønsker å gjøre en slik test, og vi vil gjerne bidra.

Man skulle tro at Nasjonalbibliotekets spesialerte modell som er trent opp spesifikt på norsk ville gjøre det bedre enn den vanlige modeller som kan brukes på over 100 språk. Det kan være mange grunner til dette. Modellen kan være overtrent på treningsdataen. Det kan også skyldes at de har brukt transkripter fra NRK som ofte ikke er nøyaktige transkriberinger, men tekst som gjengir meningen i talen.

Prøv Teksta.no idag

La KI gjøre den kjedelige jobben og fokuser på mer givende arbeid.