donderdag 31 januari 2019

1492 Dictee donderdag 31 januari 2019 (1): dictee Alfabetiseren vroeger en nu √

Dictee - dictees (1492]

Alfabetiseren vroeger en nu ... 

De oude tijden 
In oude tijden werden computers vooral gebruikt om te rekenen (en bijv. te boekhouden). Midden jaren 70 van de vorige eeuw verschenen er zelfs al computers op scholen (zoals in mijn geval – in pakweg 1976 – op het JCL, het Johannes Calvijn Lyceum in Rotterdam-Zuid). Bakbeest, kon weinig, incl. printer – 132 tekens breed – van 10.000 gulden: totaal 40.000 gulden! Slappe floppydisks van 8 inch in het vierkant (= 20 cm!) en 16 KB (Kilobytes met Kilo = 1024) aan intern geheugen: te gek! Ik heb er de korfbalcompetitie mee geprogrammeerd en ermee de standen bijgehouden. Mijn leerlingen leerden erop programmeren in de programmeertaal Basic (Beginner's All-purpose Symbolic Instruction Code): de tafels tot 10 afdrukken, de computer strafregels laten schrijven en meer van die (nu onnutte) zaken. Een knappe leerling, later hoogleraar in de VS, programmeerde er dienstregelingen voor treinen op ... Voor de bedrijven ontwikkelde IBM bureaucomputers en in de hobbysfeer waren de Commodore 64 en de minder bekende Sinclair ZX toppers. We praten over ca. 1990 als de pc op elk kantoorbureau gemeengoed begon te worden. In die tijd bestond nog het idee, dat iedereen zelf zou moeten (leren) programmeren. Zo herinner ik me dat de LOI voor de cursus 'Microcomputer en Basic' binnen de kortste keren tienduizenden cursisten, maar geen docenten had. Dat heb ik dus ook nog gedaan, omdat ik daar toch al docent-corrector hogere wiskunde was. Op een dag bezorgde Tante Pos wel 60 (slappe) diskettes (5,25 inch in het vierkant = 13 cm) in stevige kartonnen verpakking om na te kijken. Later ging dat via pc, modem en telefoon, voorloper van internet. Ik zou daarover nog uren door kunnen vertellen, maar dat zal ik niet doen. 

De jaren 1990 
Goed, rond 1990 kwam via IBM ook een beginnende tekstverwerking van de grond. Waarom ik dit artikel schrijf? Wel, elders op deze site heb ik het al gehad over de Woordenlijst Nederlandse Taal (het Groene Boekje) in de Staatscourant:

https://zoek.officielebekendmakingen.nl/stcrt-2015-35790.html

Over die lijst (49.329 woorden of woordgroepen – in mijn versie, gratis op te vragen – 494 A4'tjes, 2 kolommen, 50 items per kolom) wil ik het graag hebben. Als je ernaar kijkt, zie je dat de lijst begint met 'k en 'm en 's anderendaags, terwijl het GB (papier – pGB) begint met +-teken, 06-dealer en 06-nummer. Het oGB? Dat weten we niet, daarvoor zitten we op die bladerfunctie te wachten! Ik zag al wel, dat online na 06-dealer en 06-nummer ook nog 06-prostitutie kwam: er staat dus meer in het oGB dan in het pGB, maar dat wisten we al ... De Dikke Van Dale (DVD) begint – zoals al eerder gemeld – met #, ©, ®, @, @-teken, 0 (bloedgroep, ook O natuurlijk), 06-dealer en 06-nummer, etc. en eindigt met 'zzz' (eind januari 2019: 383.039 lemma's). Hoe zit dat nou allemaal? Daarover gaat het hier. Een wel te noemen, maar niet verder te bespreken probleem: hoe ga je met de ij om: zet je die tussen de x en de z of bij de i? Trouwens: in NL is de ij in woordspelletjes 1 letter, in BE 2 letters (kijk maar naar BLOKKEN op de VRT – toch, Raf?). 

Alfabetiseren in de jaren 1990: ASCII of de ASCII-code 
Bij de computer draait alles om 0/1 (een bit). Met 8 bits (een byte) kun je 2^8 = 256 combinaties maken: 00000000 (decimaal 0) t/m 11111111 (decimaal 255). Daar hoef je gelukkig als gebruiker niets van te weten. Het wordt intern voor je geregeld. Wel nog even ter vergelijking: met 3 cijfers kun je in ons decimale stelsel de getallen 000 t/m 999 = 1000 combinaties maken. Ik geef nog een voorbeeld van een byte: 10101010 binair (in het tweetallig stelsel) = van rechts naar links: niet 1, wel 2, niet 4, wel 8, niet 16, wel 32, niet 64 en wel 128 = (decimaal) 128 + 32 + 8 + 2 = 170 decimaal. Ik zal je daar niet verder mee vermoeien, maar bedenk dat je met een byte dus 255 gevallen kunt onderscheiden. Waar nodig geef ik die gewoon decimaal aan met 0 t/m 255.

IBM en de computerwereld moesten voor tekstverwerking dus een systeem bedenken waar tekens en letters werden weergegeven door (in wezen binaire maar dus ook decimaal te benoemen) getallen (hun nummer). Bedenk vast, dat bij 'alfabetiseren' de getalwaarde bepalend was en is ... Het ei van Columbus was de ASCII-tabel (American Standard Code for Information Interchange): daarbij kregen alle tekens (van de schrijfmachine) zo'n nummer. Nog een klein detail: de oorspronkelijke ASCII-code werkte met 7 bits, het achtste was een (extra) controlebit, dat zo gekozen werd dat bijv. het totaal aantal enen even was. Daarmee kon in ieder geval bij overseinen van zo'n byte een aantal fouten worden geconstateerd (niet verbeterd, met bv. 7 bits + 4 controlebits kon je het wel zo regelen, dat zelfs t/m bv. 2 foute bits bij de zender, de juiste code aan de ontvangkant kon worden gereconstrueerd!). Later bleken de mogelijkheden van 7 bits (2^7 = 128) onvoldoende en ging men over tot de zgn. extended ASCII-code, waarbij daadwerkelijk alle 256 mogelijkheden werden benut, maar omdat dit niet de cijfers, letters en gebruikelijke 'leestekens' betrof, kan dit buiten beschouwing blijven. 

Een overzicht van de belangrijkste codes (van 0 t/m 127) 
De spatie is 32 (laagste, die eronder zijn codes voor 'nieuwe regel', etc.). Dat is wel handig (er was echt over nagedacht!), dan komt die spatie in teksten eerst. '10 eurobiljet' komt dus in de Staatscourant (zie later) voor '10-10-10': de spatie heeft bij voorbaat een lagere waarde dan het streepje. De volgnummers 33 t/m 47 waren gereserveerd voor ! (33), " (34), # (35), $ (36), % (37), & (38), '(39), ( (40), ) (41), * (42), + (43), , (44), - (45), . (46) en / (47). De getallen liepen van 0 (48) t/m 9 (57). Op 58 t/m 64 stonden nog wat tekens, symbolen: : (58), ; (59), < (60), = (61), > (62), ? (63), @ (64). Restanten: [ (91), \ (92), ] (93), ^ (94), _ (95), { (123), | (124), } (125), ~ (126) en nummer 127 was het equivalent van de deletetoets. Maar nu de letters: A (65) t/m Z (90) en a (97) t/m z (122). Die laatste keuze was geniaal, want kleine en hoofdletters schelen dus 32 en dat is binair (2^5) 00100000. Zonder verdere details betekent dit, dat kleine en hoofdletters altijd alleen maar in 1 bit verschillen (het zesde van rechts – NB je moet in dit vak altijd met 0 beginnen: rechts 2^0 = 1, 2^5 is dus niet het 5e, maar het 6e bit van rechts. In de tijd dat de programmeurs heel zuinig moesten zijn, was het omzetten van een tekst in hoofdletters naar kleine letters of omgekeerd dus een 'eitje': verander overal het 6e bit van rechts van 0 in 1 (A --- > a, of omgekeerd van 1 in 0: a --- > A). Vast vooruitlopend op de Staatscourantlijst: hoofdletters komen dus altijd voor kleine letters, alle hoofdletters bijeen: Antwerpse, Apache en Apocalyps en pas veel later apache en apachedans en weer veel later apocalyps en apocalyptisch, best onhandig! Wel goed is, dat alle cijfers voor alle letters komen, dat is ook bij wat geavanceerder 'alfabetten of sorteeralgoritmen' zoals bij GB en VD zichtbaar: eerst getallen
(06-nummer) en dan pas de letters, maar wel apocalyps, Apocalyps, apocalypse en Apocalypse bij elkaar: toch wel handiger! (:-)) 


De lijst in de Staatscourant (websiteadres zie boven) 
Zie inderdaad boven voor het websiteadres en dat je mijn die naar een Worddocument gekopieerde lijst (de bron van de Rijksoverheid is openbaar!) gratis kunt opvragen via leentfaarrein.blogspot.com. Om te beginnen, zomaar: een apintidrum uit de lijst (wel pGB en oGB, VD heeft alleen apinti = pinti) is in SR een zekere trommel. Houd voor de verdere uiteenzettingen de lijst bij de hand ... Ik denk vrijwel zeker te weten dat de Staatscourantlijst volgens de ASCII-code gealfabetiseerd, gesorteerd is. Daarvoor geef ik een aantal argumenten: 1) De lijst begint met 'k, 'm en 's anderendaags. Dat komt omdat de ' het lage ASCII-nummer 39 heeft (GB en VD negeren de ' waardoor die lemma's bij de k, de m en de s terechtkomen, 2) In de lijst komt na die apostroffen +-teken en 06-dealer en vervolgens alles wat met een cijfer begint (de + heeft nummer 43 en de cijfers 48 t/m 57). Wel curieus dat 11 septemberherdenking voor 11-jarige komt, maar de spatie is immers 32 en - is nummer 45! GB en VD kijken niet naar spatie en - waardoor 11-jarige wel voor 11 septemberherdenking komt, 3) Eerst komen alle hoofdletters (lagere waarde dan kleinere letters): A-attest t/m Zwitser, Zwitser en Zwolse en daarna de kleine letters a en a capella t/m zzp'er. Helaba, maar daarna volgt nog een extra staartje: zèta, Å, à, à gogo t/m à-la-carterestaurant, ångström, échéance, éksito, élégance, éminence grise, öre en über-ich t/m übersentimenteel. Hoe zit dat nou weer? Ik heb dat niet besproken, maar die 'speciale' letters met diakritische tekens hebben in de extended ASCII-tabel ook een nummer (hoger dan 127) en daarom komen ze achteraan. Ik zoek ze even op: Å = 143, à = 133, å = 134, é = 130, ö = 148 en ü = 129. Dat klopt dus niet: de Staatscourant gebruikte de extended ASCII-tabel dus niet. Wat dan wel? Nou, gewoon de alfabetische volgorde zonder diakritisch teken: a, e, o en u enne ... hoofdletters eerst (Å) en dan de kleine letters (å) ... Let ook nog even op die zèta die na zzp'er kwam: in de 'pikorde' komt de diakritische è na de 'gewone' z, 4) In de Staatscourant komt PVDA'er (BE!) een heel eind voor PvdA'er (NL). GB en VD maken in feite geen onderscheid tussen kleine en hoofdletters, daardoor staat in VD de PVDA vlak voor de PvdA'er, net als PVDA'er en PvdA-voorzitter in GB! 

Alfabetiseren anno Domini 2019 
Sinds de begintijd van de pc zijn er met zoeken en alfabetiseren (sorteren) grote stappen gemaakt. Denk bij zoeken maar aan de ongelofelijke kracht van zoekmachines als Google, waarbij er maar weinig is, wat je niet snel kunt vinden op internet. Ook voor de taalfanaten is het grote winst, dat de woordenboeken digitaal beschikbaar zijn, Zoeken met de jokertekens (wildcards: ? voor één teken, * voor een willekeurig aantal tekens, maximaal 2 stuks bij zoeken in VD) brengt je in alle uithoeken en krochten van VD). Daarzonder had ik nooit de typ(e)fouten sigarettten (lemma 'dampwinkel') en 'kwaadwilllende (lemma kwetsbaar) ontdekt. Die fouten zijn overigens inmiddels gecorrigeerd ... Van GB heb ik verder geen gegevens, ik besluit met een aantal opmerkingen over VD: 1) Diakritische tekens worden genegeerd bij alfabetiseren en zoeken, best handig, daardoor komt 'zèta' gewoon tussen 'zet' en zetakker, 2) De apostrof wordt min of meer genegeerd, daarom 's anderendaags (geen apart lemma, wel dus in GB – bij de s!) gewoon bij anderendaags (zoekterm sanderendaags of gewoon 's anderendaags of *daags). Duidelijker: 'k vind je bij de k (zoek bij GB en VD op 'k of k), 3) Handig: kleine en hoofdletters bij en door elkaar, dus apocalyps en Apocalyps onder elkaar (kleine letter eerst!), en PvdA en PVDA redelijk bij elkaar in de buurt, 4) Naar koppeltekens wordt in feite niet gekeken, daarom (GB) USB vóór US-dollar (i.t.t. de Staatscourant met de lage
ASCII-waarde van het koppelteken) en Vlaamsgezinde voor Vlaams-nationalist (idem). Zie bijv. een mama-en-papawinkel, een
mama's-kindje en mamba, 5) VD begint de totale lijst met #, toch vast vanwege de lage ASCII-waarde (42), 6) Ook naar spaties wordt in feite niet gekeken: daarom in VD (terecht) eerst mandatum en dan pas mandatum sine clausula, earl grey voor earlgreythee en land- en volkenkunde voor landenwedstrijd. Nou, zo is het wel genoeg geweest.

 
 




Geen opmerkingen:

Een reactie posten