Dictee - dictees (1492]
Alfabetiseren
vroeger en nu ...
De oude tijden
In
oude tijden werden computers vooral gebruikt om te rekenen (en bijv. te
boekhouden). Midden jaren 70 van de vorige eeuw verschenen er zelfs al
computers op scholen (zoals in mijn geval – in pakweg 1976 – op het JCL, het
Johannes Calvijn Lyceum in Rotterdam-Zuid). Bakbeest, kon weinig, incl. printer
– 132 tekens breed – van 10.000 gulden: totaal 40.000 gulden! Slappe floppydisks
van 8 inch in het vierkant (= 20 cm!) en 16 KB (Kilobytes met Kilo = 1024) aan
intern geheugen: te gek! Ik heb er de korfbalcompetitie mee geprogrammeerd en
ermee de standen bijgehouden. Mijn leerlingen leerden erop programmeren in de
programmeertaal Basic (Beginner's All-purpose Symbolic Instruction Code): de
tafels tot 10 afdrukken, de computer strafregels laten schrijven en meer van
die (nu onnutte) zaken. Een knappe leerling, later hoogleraar in de VS,
programmeerde er dienstregelingen voor treinen op ... Voor de bedrijven
ontwikkelde IBM bureaucomputers en in de hobbysfeer waren de Commodore 64 en de
minder bekende Sinclair ZX toppers. We praten over ca. 1990 als de pc op elk kantoorbureau
gemeengoed begon te worden. In die tijd bestond nog het idee, dat iedereen zelf
zou moeten (leren) programmeren. Zo herinner ik me dat de LOI voor de cursus 'Microcomputer
en Basic' binnen de kortste keren tienduizenden cursisten, maar geen docenten
had. Dat heb ik dus ook nog gedaan, omdat ik daar toch al docent-corrector
hogere wiskunde was. Op een dag bezorgde Tante Pos wel 60 (slappe) diskettes (5,25
inch in het vierkant = 13 cm) in stevige kartonnen verpakking om na te kijken.
Later ging dat via pc, modem en telefoon, voorloper van internet. Ik zou
daarover nog uren door kunnen vertellen, maar dat zal ik niet doen.
De jaren 1990
Goed,
rond 1990 kwam via IBM ook een beginnende tekstverwerking van de grond. Waarom
ik dit artikel schrijf? Wel, elders op deze site heb ik het al gehad over de
Woordenlijst Nederlandse Taal (het Groene Boekje) in de Staatscourant:
https://zoek.officielebekendmakingen.nl/stcrt-2015-35790.html
Over
die lijst (49.329 woorden of woordgroepen – in mijn versie, gratis op te vragen
– 494 A4'tjes, 2 kolommen, 50 items per kolom) wil ik het graag hebben. Als je
ernaar kijkt, zie je dat de lijst begint met 'k en 'm en 's anderendaags,
terwijl het GB (papier – pGB) begint met +-teken, 06-dealer en 06-nummer. Het
oGB? Dat weten we niet, daarvoor zitten we op die bladerfunctie te wachten! Ik
zag al wel, dat online na 06-dealer en 06-nummer ook nog 06-prostitutie kwam:
er staat dus meer in het oGB dan in het pGB, maar dat wisten we al ... De
Dikke Van Dale (DVD) begint – zoals al eerder gemeld – met #, ©, ®, @, @-teken,
0 (bloedgroep, ook O natuurlijk), 06-dealer en 06-nummer, etc. en eindigt met
'zzz' (eind januari 2019: 383.039 lemma's). Hoe zit dat nou allemaal? Daarover
gaat het hier. Een wel te noemen, maar niet verder te bespreken probleem: hoe
ga je met de ij om: zet je die tussen de x en de z of bij de i? Trouwens: in NL
is de ij in woordspelletjes 1 letter, in BE 2 letters (kijk maar naar BLOKKEN
op de VRT – toch, Raf?).
Alfabetiseren in de
jaren 1990: ASCII of de ASCII-code
Bij
de computer draait alles om 0/1 (een bit). Met 8 bits (een byte) kun je 2^8 =
256 combinaties maken: 00000000 (decimaal 0) t/m 11111111 (decimaal 255). Daar
hoef je gelukkig als gebruiker niets van te weten. Het wordt intern voor je
geregeld. Wel nog even ter vergelijking: met 3 cijfers kun je in ons decimale
stelsel de getallen 000 t/m 999 = 1000 combinaties maken. Ik geef nog een
voorbeeld van een byte: 10101010 binair (in het tweetallig stelsel) = van
rechts naar links: niet 1, wel 2, niet 4, wel 8, niet 16, wel 32, niet 64 en
wel 128 = (decimaal) 128 + 32 + 8 + 2 = 170 decimaal. Ik zal je daar niet
verder mee vermoeien, maar bedenk dat je met een byte dus 255 gevallen kunt
onderscheiden. Waar nodig geef ik die gewoon decimaal aan met 0 t/m 255.
IBM
en de computerwereld moesten voor tekstverwerking dus een systeem bedenken waar
tekens en letters werden weergegeven door (in wezen binaire maar dus ook
decimaal te benoemen) getallen (hun nummer). Bedenk vast, dat bij
'alfabetiseren' de getalwaarde bepalend was en is ... Het ei van Columbus was
de ASCII-tabel (American Standard Code for Information Interchange): daarbij
kregen alle tekens (van de schrijfmachine) zo'n nummer. Nog een klein detail:
de oorspronkelijke ASCII-code werkte met 7 bits, het achtste was een (extra)
controlebit, dat zo gekozen werd dat bijv. het totaal aantal enen even was.
Daarmee kon in ieder geval bij overseinen van zo'n byte een aantal fouten
worden geconstateerd (niet verbeterd, met bv. 7 bits + 4 controlebits kon je
het wel zo regelen, dat zelfs t/m bv. 2 foute bits bij de zender, de juiste
code aan de ontvangkant kon worden gereconstrueerd!). Later bleken de
mogelijkheden van 7 bits (2^7 = 128) onvoldoende en ging men over tot de zgn.
extended ASCII-code, waarbij daadwerkelijk alle 256 mogelijkheden werden benut,
maar omdat dit niet de cijfers, letters en gebruikelijke 'leestekens' betrof,
kan dit buiten beschouwing blijven.
Een overzicht van de
belangrijkste codes (van 0 t/m 127)
De
spatie is 32 (laagste, die eronder zijn codes voor 'nieuwe regel', etc.). Dat
is wel handig (er was echt over nagedacht!), dan komt die spatie in teksten
eerst. '10 eurobiljet' komt dus in de Staatscourant (zie later) voor
'10-10-10': de spatie heeft bij voorbaat een lagere waarde dan het streepje. De
volgnummers 33 t/m 47 waren gereserveerd voor ! (33), " (34), # (35), $
(36), % (37), & (38), '(39), ( (40), ) (41), * (42), + (43), , (44), -
(45), . (46) en / (47). De getallen liepen van 0 (48) t/m 9 (57). Op 58 t/m 64
stonden nog wat tekens, symbolen: : (58), ; (59), < (60), = (61), > (62),
? (63), @ (64). Restanten: [ (91), \ (92), ] (93), ^ (94), _ (95), { (123), |
(124), } (125), ~ (126) en nummer 127 was het equivalent van de deletetoets.
Maar nu de letters: A (65) t/m Z (90) en a (97) t/m z (122). Die laatste keuze
was geniaal, want kleine en hoofdletters schelen dus 32 en dat is binair (2^5)
00100000. Zonder verdere details betekent dit, dat kleine en hoofdletters
altijd alleen maar in 1 bit verschillen (het zesde van rechts – NB je moet in dit
vak altijd met 0 beginnen: rechts 2^0 = 1, 2^5 is dus niet het 5e, maar het 6e
bit van rechts. In de tijd dat de programmeurs heel zuinig moesten zijn, was
het omzetten van een tekst in hoofdletters naar kleine letters of omgekeerd dus
een 'eitje': verander overal het 6e bit van rechts van 0 in 1 (A --- > a, of
omgekeerd van 1 in 0: a --- > A). Vast vooruitlopend op de
Staatscourantlijst: hoofdletters komen dus altijd voor kleine letters, alle
hoofdletters bijeen: Antwerpse, Apache en Apocalyps en pas veel later apache en
apachedans en weer veel later apocalyps en apocalyptisch, best onhandig! Wel
goed is, dat alle cijfers voor alle letters komen, dat is ook bij wat
geavanceerder 'alfabetten of sorteeralgoritmen' zoals bij GB en VD zichtbaar:
eerst getallen
(06-nummer) en dan pas de letters, maar wel apocalyps,
Apocalyps, apocalypse en Apocalypse bij elkaar: toch wel handiger! (:-))
De lijst in de
Staatscourant (websiteadres zie boven)
Zie
inderdaad boven voor het websiteadres en dat je mijn die naar een Worddocument
gekopieerde lijst (de bron van de Rijksoverheid is openbaar!) gratis kunt
opvragen via leentfaarrein.blogspot.com. Om te beginnen, zomaar: een apintidrum
uit de lijst (wel pGB en oGB, VD heeft alleen apinti = pinti) is in SR een
zekere trommel. Houd voor de verdere uiteenzettingen de lijst bij de hand ...
Ik denk vrijwel zeker te weten dat de Staatscourantlijst volgens de ASCII-code
gealfabetiseerd, gesorteerd is. Daarvoor geef ik een aantal argumenten: 1) De
lijst begint met 'k, 'm en 's anderendaags. Dat komt omdat de ' het lage ASCII-nummer
39 heeft (GB en VD negeren de ' waardoor die lemma's bij de k, de m en de s
terechtkomen, 2) In de lijst komt na die apostroffen +-teken en 06-dealer en
vervolgens alles wat met een cijfer begint (de + heeft nummer 43 en de cijfers
48 t/m 57). Wel curieus dat 11 septemberherdenking voor 11-jarige komt, maar de
spatie is immers 32 en - is nummer 45! GB en VD kijken niet naar spatie en -
waardoor 11-jarige wel voor 11 septemberherdenking komt, 3) Eerst komen alle
hoofdletters (lagere waarde dan kleinere letters): A-attest t/m Zwitser,
Zwitser en Zwolse en daarna de kleine letters a en a capella t/m zzp'er. Helaba,
maar daarna volgt nog een extra staartje: zèta, Å, à, à gogo t/m à-la-carterestaurant,
ångström, échéance, éksito, élégance, éminence grise, öre en über-ich t/m übersentimenteel.
Hoe zit dat nou weer? Ik heb dat niet besproken, maar die 'speciale' letters
met diakritische tekens hebben in de extended ASCII-tabel ook een nummer (hoger
dan 127) en daarom komen ze achteraan. Ik zoek ze even op: Å = 143, à = 133, å =
134, é = 130, ö = 148 en ü = 129. Dat klopt dus niet: de Staatscourant
gebruikte de extended ASCII-tabel dus niet. Wat dan wel? Nou, gewoon de
alfabetische volgorde zonder
diakritisch teken: a, e, o en u enne ... hoofdletters eerst (Å) en dan de
kleine letters (å) ... Let ook nog even op die zèta die na zzp'er kwam: in de
'pikorde' komt de diakritische è na de 'gewone' z, 4) In de Staatscourant komt
PVDA'er (BE!) een heel eind voor PvdA'er (NL). GB en VD maken in feite geen
onderscheid tussen kleine en hoofdletters, daardoor staat in VD de PVDA vlak
voor de PvdA'er, net als PVDA'er en PvdA-voorzitter in GB!
Alfabetiseren anno
Domini 2019
Sinds
de begintijd van de pc zijn er met zoeken en alfabetiseren (sorteren) grote
stappen gemaakt. Denk bij zoeken maar aan de ongelofelijke kracht van
zoekmachines als Google, waarbij er maar weinig is, wat je niet snel kunt
vinden op internet. Ook voor de taalfanaten is het grote winst, dat de
woordenboeken digitaal beschikbaar zijn, Zoeken met de jokertekens (wildcards: ?
voor één teken, * voor een willekeurig aantal tekens, maximaal 2 stuks bij
zoeken in VD) brengt je in alle uithoeken en krochten van VD). Daarzonder had
ik nooit de typ(e)fouten sigarettten (lemma 'dampwinkel') en 'kwaadwilllende
(lemma kwetsbaar) ontdekt. Die fouten zijn overigens inmiddels gecorrigeerd ...
Van GB heb ik verder geen gegevens, ik besluit met een aantal opmerkingen over
VD: 1) Diakritische tekens worden genegeerd bij alfabetiseren en zoeken, best
handig, daardoor komt 'zèta' gewoon tussen 'zet' en zetakker, 2) De apostrof
wordt min of meer genegeerd, daarom 's anderendaags (geen apart lemma, wel dus in
GB – bij de s!) gewoon bij anderendaags (zoekterm sanderendaags of gewoon 's
anderendaags of *daags). Duidelijker: 'k vind je bij de k (zoek bij GB en VD op
'k of k), 3) Handig: kleine en hoofdletters bij en door elkaar, dus apocalyps
en Apocalyps onder elkaar (kleine letter eerst!), en PvdA en PVDA redelijk bij
elkaar in de buurt, 4) Naar koppeltekens wordt in feite niet gekeken, daarom
(GB) USB vóór US-dollar (i.t.t. de Staatscourant met de lage
ASCII-waarde van
het koppelteken) en Vlaamsgezinde voor Vlaams-nationalist (idem). Zie bijv.
een mama-en-papawinkel, een
mama's-kindje en mamba, 5) VD begint de totale lijst met #,
toch vast vanwege de lage ASCII-waarde (42), 6) Ook naar spaties wordt in feite
niet gekeken: daarom in VD (terecht) eerst mandatum en dan pas mandatum sine
clausula, earl grey voor earlgreythee en land- en volkenkunde voor
landenwedstrijd. Nou, zo is het wel genoeg geweest.
Geen opmerkingen:
Een reactie posten