slovník afixů užívaných v češtině
Josef Šimandl ed.
Výstavbu osvětluje obrázek:
Nadpis hesla je zarovnán u prefixů vlevo, u sufixů vpravo, u cirkumfixů nebo nekoncových prvků na střed.
Stavba umožňuje rozpoznat proměnné části afixu. Podotýkáme, že tvaroslovnou charakteristiku chápeme jako součást afixu, takže -k(a) a -(e)k(0) jsou pro nás dva různé sufixy.
Stať zpracovává významy/funkce příslušného afixu, které se číslují arabskými číslicemi. Pokud se afixem tvoří od slov různých druhů, člení se stať na I. (např. od substantiv), II. (od adjektiv) atd. Ve složitějších heslech se uplatňuje ještě strukturace stati na A, B, popř. dále. Míra podrobnosti rozlišení významů, míra jejich abstraktnosti nebo naopak konkretizovanosti byla věcí pojetí autora příslušného hesla. Výklad ve stati mohl a měl využívat veškerého dostupného materiálu (velký korpus SYN, internet, lingvistické příručky, autopsie) s pochopitelnou preferencí jevů doložených s vysokými frekvencemi. Ilustrování formou příkladů – nikoli výčtů – je deklarována na závěr části 1 a slouží přehlednosti textů. Potřebou přehlednosti jsou vedeny také stručné popisy významu: akcentují význam slovotvorný, tj. motivující/fundující slovo, aniž aspirují na lexikografické definice významů (jichž by v mnoha případech muselo být k jednomu slovu několik, někdy i nad deset).
Frekvenční zpráva má bezpatkové písmo a nepoužívá kurzivní konvenci, jak odpovídá jejímu charakteru dat. Standardní hesla mají frekvenční zprávu na základě korpusu SYN2010, který jsme používali jako měrný korpus,9 a zpráva je tak i nadepsána. Frekvenční zpráva může mít několik částí (níže F1–F5).
F1 Reprodukuje se dotaz. Bylo na autorovi, jak sofistikovaně dotaz položí. Jednoduché dotazy přinášejí v nálezu víc neplatných nálezů, ale neeliminují žádné platné. Jednotliví autoři při formulacích dotazů zvažovali možnosti a meze automatické analýzy a na ní postavených výsledků morfologického značkování. Podle zjištěného stavu pak postupovali při volbě větší či menší míry podílu automatizace a ruční práce na získání dat z korpusů.
F2 Následuje, byť ne vždy, rozbor výsledků dotazu, zejména kolik lemmat korpusový manažer našel a kolik z nich bylo platných nálezů, popř. jaká je situace ve frekvenčních pásmech, kde nás zajímalo: (a) není-li dobře známý afix především reprezentován jedním nebo několika málo slovy s vysokou frekvencí; (b) jaký počet představují hapax legomena, jejichž větší množství dokládá živost afixu při příležitostném tvoření (srov. Novotná 2013).
V počátcích práce platila dohoda, že je-li lemmat do 50, výsledek dotazu se nerozebírá a pod zprávou se pak nepředstavují neplatné nálezy. Většina autorů výsledek dotazu rozebírala i pod touto hranicí a informace takto získané pokládala za přínosné; nepředpokládáme, že by jim to čtenář měl za zlé. Jeden z autorů výsledky dotazování nerozbíral ani nad touto hranicí.
F3 Počet platných lemmat se u nálezů nad 500 lemmat stanovil odhadem na základě vzorku (viz např. heslo -ačka). Vzorek se volil tak, aby se počet lemmat v něm pohyboval mezi 300 a 500.
F4 Spíše výjimečně je uvedeno zastoupení významů/funkcí počtem lemmat.
Na počátku práce jsme měli ambici zjišťovat poměry mezi využíváním jednotlivých významů/funkcí, ale při jejich nijak vzácné nejednoznačnosti (srov. významy slovesných prefixů podle frekvenční zprávy) bychom byli velmi pracně zjišťovali stěží ověřitelné hodnoty. Kde však byly takové rozbory provedeny, údaje jsme v heslech ponechali.
F5 Dalším odstavcem je výčet lemmat: při nízkém počtu úplný, při vysokém omezený na 20 lemmat s nejvyšším počtem dokladů. Má-li afix víc než 1 význam/funkci, je ve frekvenční zprávě za každým lemmatem šipka s příslušným číslem významu. Číslo nemusí být jediné – není nijak vzácný jev, že týž afix tvoří slova s různým významem/funkcí (např. nosi-č: označení osoby, označení prostředku ap.) – a číslo/čísla se omezují na prototypická užití (stěžíkdy můžeme vyloučit atypické využití např. slova zkoušečka pro zkoušející, která si vede příliš řemeslně). Část začínající slovy Z dalších přináší slova obsahující afix v těch významech/funkcích, které se kvůli své frekvenci mezi první dvacítku nedostaly. Uvádí se přinejmenším první slovo z frekvenčního výpisu, u kterého se chybějící význam/funkce uplatňuje. Je tedy možné udělat si obrázek, kterými významy/funkcemi se vyznačuje frekvenční špička, které významy/funkce jsou méně frekventované a jak jsou v textech časté. Mohlo se stát, že po frekvenční špičce v řádu tisíců a set se doklady dalších významů/funkcí našly jen v desítkách nebo i jednotkách nálezů. Uvedené frekvence odpovídají těm, které k daným lemmatům poskytuje korpus SYN2010 na prostý dotaz, včetně (a) negace, kdy do frekvence lemmatu rozbít je započteno i nerozbije ap., do frekvence lemmatu peněžitý jsou započteny i tvary nepeněžité ap., (b) stupňovaných podob adjektiv a adverbií.10 Jak formant negace, tak formanty stupňování sice popisujeme a frekvenčně vykazujeme v samostatných heslech, ale potřebu očištění statistik jsme seznali až během práce, očišťování by bylo pracné a slovník by pak prezentoval data odlišná od těch, která uvádí měrný korpus na běžně pokládaný prostý dotaz. Potřebuje-li někdo očištěnější statistiky, v korpusu je může získat.11
Pod frekvenční zprávou je přiblížen nezohledněný materiál; k případům, kdy chybí, srov. petit výše. V této části představujeme nalezená slova, která sice obsahují hledaný řetězec písmen, ale nejsou relevantní pro popis příslušného afixu. Tyto závěrečné části hesel by se měly stát obligatorní četbou pro ty, kdo věří ve snadná a rychlá porovnávání dat (například pomocí rozhraní SyD) nebo kdo snad nenahlížejí, že identita písmen neznamená identitu afixu. V našich heslech je to zároveň záštita před soudy, že zkoumaných slov je přece v korpusu na první pohled daleko víc.
Připomeňme, že texty pro korpus procházejí automatickým zpracováním; tím jsou dány i jeho limity v přesnosti. O tom, proč jsou výsledky tohoto zpracování, jaké jsou, srov. Petkevič 2014, Osolsobě 2014.
U slovesných prefixů jsou na závěr představeny cirkumfixy, jejichž částí je příslušný prefix. V hesle o prefixu představují cirkumfixy nezohledňované nálezy. V informaci o nich bývá obvykle i následující rozlišení: některé z cirkumfixů s příslušným prefixem jsou jen zmíněny a dokumentovány, zatímco o těch, které mají samostatné heslo, jsou zapracovány odkazy.
Obecně poznamenáváme, že domácí afix jsme zkoumali a popisovali nikoli na základě všech slov, která ho obsahují (např. sufix -tel je obsažen i ve stavbě adjektiva zpracovatelský), ale jen na základě slov, která jím byla utvořena; z tohoto pohledu patří adjektivum zpracovatelský do materiálu představeného heslem -ský. Jiné je pojetí jinojazyčných afixů: viz násl. odst.
Protože nemáme informace o tom, v jakém časovém sledu jsme přejali například sloveso evidovat, substantivum evidence a adjektivum evidentní, zpracovávali jsme stavební prvky přejatých slov a přejaté afixy naopak na základě slov, která ho obsahují (u tří jmenovaných slov jde o e- jako podobu prvku ex-) – tedy bez ohledu na hierarchii odvození registrujeme paralelně i například adjektivum evidentní a adverbium evidentně, přestože druhotnost adverbia se může zdát evidentní/zřejmá (ale příklady užití v poměrně starých textech, které by druhotnost spolehlivě doložily nebo vyvrátily, nemáme k dispozici).
Při vyčleňování prvků k popisu, zejména v případě sufixů, vycházíme spíše z jejich původní utvářenosti – jmenovitě jména dějů tvořená v latině sufixem -iō, který je spojuje do slovotvorného typu a byl adaptován v podobě -e – než z toho, jaké různé podoby lze vyvozovat ze slov synchronně doložených v češtině: extrak-ce, kolaud-ace, ad-ice nebo snad i prom-oce, exek-uce. (Srov. naopak Waszakowa 2015: 1684.12 Taková až mechanická segmentace v mnoha případech narušuje integritu a srozumitelnost jak afixu, tak hlavně kořenů/základů.)
Jiný problém představují stavební prvky, které ve zdrojovém jazyce lze smysluplně vztáhnout ke slovům základovým, například jako jednu z podob tvaroslovného kmene, ale v češtině jsou na pomezí synchronní neprůhlednosti: srov. prvek konces-ion-ář (srov. heslo -ář, o adaptacích).
V pojímání přejaté slovní zásoby je nejvíc autorských rozdílů. Vzniklá hesla jsou – ještě víc než jiná – paletou přístupů a podnětů k přemýšlení. Za přínos této složky slovníku pokládáme šíři prezentovaného materiálu o kvantitativně bezesporu významné, ba stále významnější oblasti slovní zásoby, která v popisech naší slovotvorby obvykle zaujímá jen periferní postavení – na rozdíl třeba od lingvistické produkce a lexikologie anglické (srov. např. Miller 2006).13
Pokud jde o formální stránku těchto hesel, platí o ní v zásadě vše z části 2.1. Pokud jde o doklady lemmat, rozhodli jsme se prezentovat při stavebních prvcích odpovídajících prefixům zvlášť lemmata substantiv, adjektiv, sloves (popř. adverbií).
Spolunásledkem rozhodnutí popisovat přejaté slovotvorné prvky ne na základě slov jimi utvořených, ale na základě slov prvek obsahujících, je málo potěšitelná skutečnost, že ve frekvenčních špičkách mohou dost místa zabrat slova z několika málo čeledí: překvapivě oblíbená slova definice, definitivní, definovat, definitivně nebo slova dezinfekce, dezinfekční, dezinfikovat ap.
Jako předlohu takových slov uvádíme nejčastěji latinu – s tím, že fundace a/nebo motivace mohly vzniknout teprve v románském jazyce a slovo pak mohlo být přejato prostřednictvím ještě jiného jazyka, typicky němčiny. Většina takových slov se však začlenila do českého subsystému grékolatinismů: něm. speziell → speciální, jak odpovídá lat. speciālis; podobně v poslední době angl. virtual → virtuální.
Tato hesla jsou ve slovníku podbarvena.
V tento způsob zpracování vyústila snaha vyrovnat se s množstvím substantivních sufixů, jaké vytipovalo dokulilovské zpracování slovotvorby. Podle TSČ2 (tabulky na s. 746–769) máme 446 substantivních sufixů. Některými z nich je utvořeno jen několik málo slov doložitelných z dnešních textů, některými jediné nebo i žádné (čist-avina). Takové sufixy do „slovníku afixů používaných v češtině“ vlastně nepatří.
Měrný korpus SYN2010 nemá k prozkoumání řídce užívaných výrazů tolik materiálu jako velký korpus SYN; proto jsme sporné afixy zkoumali na velkém korpusu.
První odstavec uvádí slova, která zkoumaný afix mají nebo o tom aspoň lze uvažovat, a to s počty výskytů; u prvního z nich je vždy uvedeno „SYN“, aby si čtenář připomněl, že nejde o frekvence srovnávatelné s těmi podle korpusu SYN2010. Na rozdíl od standardních hesel nepopisujeme ani stavbu afixu.
Důsledek volby jiného korpusu může být, že k afixu, který by měl v měrném kopusu jen dvě lemmata, se ve velkém korpusu najde lemmat tucet. Informativní heslo tak může uvést víc lemmat než některé standardní heslo.
Druhý odstavec charakterizuje neplatné nálezy; k poslání této části srov. výklad o nezohledněném materiálu v části 2.1.
Tato informativní hesla jsou jen s příklady lemmat a bez statistických údajů; oželeli jsme je z kapacitních důvodů a také proto, že o afixoidy – jakkoli jich je nakonec ve slovníku nepřehlédnutelné množství – nám meritorně nešlo.
Hesla poskytují materiál k některým prvkům stavby složených slov (o nepopisovaných skupinách viz část 4) a obecně k úvahám o nosnosti pojmů afixoid, prefixoid, sufixoid. Představeny jsou takové komponenty, které se využívají hojněji; nevěnujeme proto pozornost např. prvkům kompozita špindíra, protože ani špin-, ani -díra se nereplikují v dalších kompozitech srovnatelného významu. Stavbu neanalyzujeme, konektém – např. barv-o- – nevydělujeme.
O frekvenčním prahu viz část 2.4.
9 Nešlo-li o vyšetření existence jako v informativních dvouodstavcových heslech (viz část 3.3.1), používali jsme pro zjišťování veškerých frekvencí právě korpus SYN2010, v době zpracovávání slovníku nejnovější tzv. reprezentativní korpus. Důvodem je srovnávatelnost frekvenčních údajů. Korpus SYN2015 byl zpřístupněn až v r. 2016, během posledních měsíců naší práce.
10 Jsou sice případy, kdy zohlednění stupně zásadně změní statistické poměry, ale jsou to případy spíš řídké. Uveďme příklad: lemma prodávaný má v korpusu SYN2010 celkem 984 výskytů, z toho však jde ve 536 případech o superlativ. (Pro kvantifikaci superlativů jsme ve shodě se značkováním korpusu nepřihlédli k výtvorům jako neprodávanější a nejčtenější počítačový měsíčník.)
11 Např. místo dotazu [lemma=“.+atý“] použije dotaz [(lemma=”.+atý”) & (tag=”A....----1.*”)] pro tvary jen prvního stupně, [(lemma=”.+atý”) & (tag=”A....----1A.*”)] pro tvary jen prvního stupně bez negace. Nověji lze také využít nabídku v záložce vložit tag / Vytvořit tag pro tvorbu dotazu typu CQL.
12 Jako příklad hláskové kombinace -cj-, pro domácí polskou zásobu netypické, se uvádějí tyto foreign suffixes (následnou hvězdičku dáme k těm, které zde budou komentovány): -cja, -acja, -izacja/-yzacja*, -ecja, -icja, -encja*. Sufix -izace zpracováváme rovněž, protože zejména při cirkumfixaci de- -izace není sloveso vždy v užívání. Sufix -ence (přidejme: -ance) chápeme jako sufix -e pro názvy stavů a přibližujeme také nekoncový prvek -nt- (>-nc-), který mu předchází. Rozlišování sufixů -ace, -ece, -ice pokládáme za nepřínosné pro popis významu. – Je třeba otevřeně přiznat, že v této věci nebyli autoři hesel našeho slovníku zcela jednotní: např. sufix slova organizace se interpretuje i jako -ce v adaptační funkci.
13 K angličtině lze dohledat i celé webové „příručky“: viz např. https://quizlet.com/31155804/english-vocabulary-greek-and-latin-prefixsuffix-and-root-words-flash-cards/.