Letter- en woordfrequenties in VD
(Welk lemma is er zoek?)
1. Zijn er meer letters met een a dan met een y? Vanzelfsprekend, maar hoe zit dat nou precies? Ik zocht in de online-VD (het is een momentopname – 29-08-2014, dat verandert natuurlijk steeds, maar wel weinig). Ik zocht op 'a*' etc. en vond (trefwoorden): A 13.144 (5,5 %), B 18.640 (7,8 %), C 7.436 (3,1 %), D 10.509 (4,4 %), E 5.436 (2,3 %), F 4.598 (1,9 %), G 11.642 (4,9 %), H 10.378 (4,3 %), I 5.312 (2,2 %), J 1.903 (0,8 %), K 16.264 (6,8 %), L 8.881 (3,7 %), M 11.728 (4,9 %), N 5.251 (2,2 %), O 11.108 (4,6 %), P 15.639 (6,5 %), Q 316 (0,1 %), R 10.656 (4,4 %), S 25.645 (10,7 %), T 11.961 (5,0 %), U 2.498 (1,0 %), V 14.826 (6,2 %), W 8.574 (3,6 %), X 111 (0,0, met 2 cijfers 0,05 %), Y 118 (0,0, met 2 cijfers 0,05 %) en Z 7.024 (2,9 %). De percentages tellen op tot 99,8 %, dat komt door die X en Y en andere afrondingen. Tel ik de getallen op, dan kom ik tot 239.598 lemma's, maar – oei! - als ik op '*' zoek kom ik tot 239.659 (61 meer). Hoe kan dat nu weer? Wel, voor de A staan nog een aantal lemma's (60, dus mis ik er 1).
2. Hoogstwaarschijnlijk is dat het ƒ-teken; verklaring: op een iPad kwam dat voor het apenstaartje, op mijn pc alfabetisch na de f (f.z.) en voor de g, maar toen ik 'florijn' in het zoekvak typte, kwam 'binnen artikelen' het ƒ-teken voor 'achtentwintig'. Daarmee is duidelijk wat het ontbrekende teken is, maar ook dat er 'ergens' nog iets niet klopt. Hier de overige 60 lemma's allemaal allemaal: @, ©, ®, 06-dealer, 06-nummer, 0800-nummer, 100 procentscontrole, 1080i, 11 juliviering, 11 novemberviering, 15 minutes of fame, 18 holesbaan, 18-karaats,
1984-scenario, 1 aprilgrap, 1e korporaal-chef, 1e kwartiermeester-chef, 1e meester. 1e meester-chef, 1e sergeant, 1e sergeant-chef, 1e sergeant-majoor, 1e soldaat, 1 meifeest, 1 meiviering, 2.0, 20 wekenecho, 21 juliviering, 24/7, 24-karaats, 24 urenstaking, 24 uurseconomie, 24 uursritme, 24 uursstaking, 25 meterbad,
27MC-band [VD: 2020], 2BE, 2e meester, 2pk, 2 step, 30 kilometerzone, 33 toerenplaat, 3D, 3D-bril, 3D-film, 3D-printen,
3D-printer, 3D-projectie, 3G, 3V, 3VO, 45 toerenplaat, 49-plusser, 4G, 4wd, 4x4, 50 meterbad, 65-plusser, 720p en 9/11-theorie.
3. Voor pVD-verslaafden (papieren Van Dale, 2005) heb ik ten slotte nog de aantallen pagina's per letter en de bijbehorende percentages: A 268 (6,2 %), B 321 (7,4 %), C 120 (2,8 %), D 185 (4,3 %), E 94 (2,2 %), F 72 (1,7 %), G 218 (5,1 %), H 186 (4,3 %), I 98 (2,3 %), J 32 (0,7 %), K 294 (6,8 %), L 153 (3,5 %), M 194 (4,5 %), N 90 (2,1 %), O 243 (5,6 %), P 265 (6,1 %), Q 6 (0,1 %), R 201 (4,7 %), S 454 (10,1 % - (!) 1 op 10, terwijl we 26 letters hebben), T 214 (5,0 %), U 53 (1,2 %), V 285 (6,6 %), W 145 (3,4 %), X 2 (0,0 %, op 2 cijfers 0,05 %), Y 2 (0,0 %, op 2 cijfers 0,05 %) en Z 119 (2,8 %). Telt u het even na: opgeteld 99,9 %, maar dat komt door de afrondingen – van X en Y, elk naar beneden van iets minder dan 0,05 % naar elk 0,0 %. Alle overige afrondingen pakten toevallig - gemiddeld - goed uit). Er zijn van die dingen, die je vast nooit wilde weten, en dit behoort er ongetwijfeld toe … Voor een dicteetijger annex VD-watcher annex wiskundige is dit natuurlijk gefundenes Fressen en de crème de la crème, het neusje van de zalm!