Moderniseer spelling
Moderniseer spelling
Toen in de jaren 70 Bruna een aantal boeken van Ivans opnieuw uitgaf liet Bruna iemand met de naam Edith Visser de boeken moderniseren. Dat hield in dat de boeken wat bondiger werden, maar vooral ook dat moderne spelling werd toegepast. Dit was allemaal in de tijd van voordat iedereen thuis een computer met wordprocessor had. Ik heb geen idee hoe dit precies ging. Maar het zal een tijdrovend werk zijn geweest met de hand.
Op zich wen je snel aan het lezen van een boek in oude spelling. Dat vis als visch wordt geschreven, en zoolang met dubbel o is iets waar je heel snel aan went. Toch leest het beter als de spelling is aangepast.
Het scheelt niet alleen dat we nu eenvoudig met de computer de bestaande tekst kunnen aanpassen in plaats van alles in goede spelling overtypen. Maar eigenlijk zou je in de tijd van AI verwachten dat het moderniseren van de spelling ook al automatisch kan. Zoeken op het internet toonde geen bestaande automatisering om dit te doen en vandaar dat ik wat scripts heb gemaakt die in ieder geval een groot gedeelte van het werk automatiseert.
De scripts
Het was dus zaak om zelf een methode te vinden. Wat handig zou zijn is een vertaal tabel. Wel is er een woordenlijst beschikbaar met woorden die valide zijn in moderne spelling van OpenTaal
De truck die in de script wordt toegepast:
- er is een master woorden lijst aangemaakt waarin tab-delimited woorden staan met de oude en nieuwe spelling naast elkaar
- er is een script die markdown scant op woorden die een goede kans hebben oude spelling te zijn
- het script kijkt zowel in de woordelijst van OpenTaal als in de masterlijst. Deze worden genegeerd, of omdat het in de Opentaal lijst voorkomt of omdat we deze combinatie al ehbben in de master lijst
- het maakt dan een bestand aan met verdachte woorden en waarschijnlijke moderne spelling
Daarna moet je deze lijst verdachte woorden met hand valideren. Dat betekent alleen laten staan wat aan de master lijst moet worden toegevoegd. Dat betekent veel regels verwijderen zoals links naar plaatjes. Ook zit het script er wel eens naast en is het wel goed. Van de overige is het zaak te zorgen dat er inderdaad de juiste spelling achter staat. Dus b.v.:
1
2
visch vis
Zoolang zolang
Als de lijst in orde is draai het script toevoegen_aan_master.py en de masterwoordenlijst wordt uitgebreid. De lijst is hier te vinden. Omdat het nauw luistert of het een valide tab-delimited bestand is zit er een validatie script bij valideer_woordenlijst.py die netjes weergeeft of het ok is of welke regel niet goed is.
Het resultaat is dat hoe meer boeken je hebt aangepast en gescanned, hoe vollediger de master_woordenlijst.tsv wordt.
Uiteindelijk kan dan het script gedraaid worden dat de markdown helemaal doorgaat, de spelling aanpast en een nieuwe markdown aanmaakt waarin al veel is gemoderniseerd. Daarnaast maakt het een log bestand aan waarin je kan zien wat er allemaal is gewijzigd te controle.
En den dan?
Dan is er nog het veelvuldige gebruik van den in plaats van de. Eenvoudig alle keren dat den voorkomt vervangen door de gaat niet goed omdat er ook nog een boom is met de naam den. Het script dat dit doet zal zoeken naar alle varianten van den waar geen lidwoord voor staat. Het zal tenslotte naar verwachting altijd de den zijn of een den als het om een boom gaat.
Het eindresultaat
Er zal dan vast nog wel wat niet kloppen, maar het wordt al een stuk leesbaarder. Voor wie voor perfectie gaat komt dan nog een laatste fase om het met de hand te corrigeren. Maar dan is het meeste al gedaan.