Ijck wyns min lijeve man so fel goedenacht alser sijnne starren ijnde hemel (Ik wens mijn lieve man zoveel goede nachten als er sterren aan de hemel staan)
Dit is een regel uit een brief aan een zeeman, lang geleden gestuurd door zijn geliefde thuis. De brief maakt deel uit van een collectie van 38.000 persoonlijke en zakelijke brieven en documenten van Nederlanders op zee of in verre oorden aan hun thuisfront, en andersom. De brieven werden bij de kaapvaart in de 17de en 18de eeuw buitgemaakt en hebben eeuwenlang in Engelse archieven opgeslagen gelegen. In 1980 zijn ze herontdekt en een deel is in Nederland beschikbaar gekomen voor onderzoek door historici en taalkundigen.

Taal van gewone mensen
De meeste historische teksten die we kennen, komen van geletterde mensen die welbewust volgens de schrijftaalnorm schreven. Dat geldt niet voor deze brieven. De taal van deze briefschrijvers laat zien dat velen ervan niet erg gewend waren te schrijven. Weliswaar staan aan het begin en eind vaak conventionele formules zoals: ik hoop dat het ook met u goed gaat. Als dat niet zo is, dan zou het mij van harte leed zijn, maar verder zijn er talloze spellingen, woorden en zinsconstructies die nauw bij het mondelinge taalgebruik van toen aansluiten. En hierin schuilt juist de waarde van de brieven: wat we hier aantreffen, is de ongepolijste taal van gewone mensen. Dit was tot nu toe nog niet in zo grote hoeveelheden beschikbaar.
Onderzoek naar taalvariatie
In Leiden wordt in het project Brieven als buit een deelverzameling (een corpus ) van zo’n 1000 brieven onderzocht. De Leidse taalkundigen richten zich met name op taalverschillen die samenhangen met sociale klassen. Ook kijken ze naar taalverandering tussen het 17de-eeuwse en het 18de-eeuwse deel van het corpus. De onderzoekers willen het corpus ook voor verder onderzoek beschikbaar stellen; er resteren immers nog allerlei vragen over bijvoorbeeld spelling, dialectvormen en zinsbouw. Computers spelen daarbij een belangrijke rol. Hoe maken we een zo diverse tekst geschikt voor taalkundig onderzoek? De eerste stap is het nauwkeurig overtikken (transcriberen) van de handgeschreven tekst. Maar alleen dat is niet voldoende. Om snel en volledig allerlei woorden en zinspatronen op te kunnen vragen is een extra bewerking nodig. Op het Instituut voor Nederlandse Lexicologie (INL) te Leiden wordt het corpus taalkundig verrijkt. Dat betekent dat er aan de getranscribeerde woorden allerlei taalkundige informatie wordt toegevoegd, zoals over spelling en woordsoort.
Meer dan 100 spellingen
Omdat er in de tijd van de brieven nog geen officiële spellingafspraken waren (zoals nu in het Groene Boekje) kon eenzelfde woord op allerlei manieren geschreven worden. Het woord kapitein bijvoorbeeld, komt wel in meer dan honderd spellingen voor, o.a. als captijen, kappeten en katyn. Een ander voorbeeld is bootsman, dat ook als bosman en boosman werd gespeld, en zo voor ons dus moeilijk herkenbaar is. Bij de taalkundige bewerking worden de moderne spellingen kapitein en bootsman aan deze oude spellingvarianten gekoppeld. Die moderne standaardvorm heet lemma, en het proces lemmatiseren. Zo kunnen we alle oude spellingvarianten in één keer verzamelen.
In de brieven vinden we ook los geschreven woorddelen, op schrift bijvoorbeeld, in plaats van opschrift. Bij het lemmatiseren wordt aan deze twee losse woorden samen het lemma opschrift gehecht. Zo onderscheidt het zich van dezelfde woorden in op schrift stellen, waarin elk woord een eigen lemma krijgt. Het toevoegen van zo’n modern lemma maakt de tekst ook begrijpelijker.
Piet oom of oom Piet
Behalve een modern lemma wordt ook een woordsoortaanduiding aan de oude woorden toegevoegd. Er wordt dus aangetekend of het woord een zelfstandig naamwoord, bijwoord, werkwoord etcetera is. Namen krijgen daarbij een speciale code. Zo kunnen we ontwikkelingen in de functie van woorden onderzoeken, en ontwikkelingen van woordvolgordes nagaan. Een voorbeeld: in de brieventeksten worden veel familierelaties genoemd. Veel briefschrijvers doen de groeten aan (of van) hun broers en zussen, neven en nichten, tantes en ooms. De voornamen komen dan niet zelden vóór de relatieaanduiding: Piet oom, Jan neef of Maaike moei (moei = tante). Maar het omgekeerde komt ook voor: nicht Geesje of oom Dirk. Door te zoeken naar oom/neef/moei voorafgegaan door een eigennaam, of erdoor gevolgd, kunnen we snel zien of de ene volgorde vaker voorkomt dan de andere. Vervolgens kunnen we ook bepalen of dat gebonden is aan tijd, plaats of sociale klasse.

Uitbreiding van de woordenschat
Eigenlijk zouden papieren woordenboeken als het WNT aangevuld moeten worden met deze ontbrekende woorden. Maar dat is veel te kostbaar. Toevoeging van nieuwe woorden aan een digitale databank is een veel betere (en goedkopere) oplossing. Ontbrekende woorden zoals bolkop en chagrinant worden dan ook opgenomen in de centrale woordenbank van het INL. In die databank wordt elk Nederlands woord, van heel oud (6de eeuw) tot recent opgeslagen. Ze krijgen daar als etiket de moderne vorm mee, volgens de officiële regels gespeld. Zo heeft iedereen toegang tot deze historische woordenschat, ook al heb je geen voorkennis van historische woordvormen. Op den duur is het ook mogelijk elk woord te verbinden met andere voorkomens ervan (bijvoorbeeld moeder en moer), en met informatie in woordenboeken en encyclopedieën. Zo dragen de briefschrijvers van toen eeuwen na dato een steentje bij aan de beschrijving van de woordenschat van het Nederlands.