Diskuse:Česká abeceda

Obsah stránky není podporován v jiných jazycích.
Přidat téma
Z Wikipedie, otevřené encyklopedie
Poslední komentář: před 1 rokem od uživatele Marek Genius v tématu „Soubor všech písmen

Frekvenční graf písmen[editovat zdroj]

Podle obsažených dat vychází graf ze studie z roku 1983. Ta však reflektuje tehdejší češtinu, která se od té doby značně změnila. Protože jsem nenašel žádnou novější studii, spojil jsem se s Českým národním korpusem a dostal od něj analýzu založenou na korpusu SYN2020, který vychází z češtiny mezi lety 2015 a 2020. Myslím, že si téma frekvence písmen v češtině zaslouží rozvést, ale nevím, jak takový zdroj uvést, vzhledem k tomu, že analýza je soukromá. Rád si nechám poradit. Thanoris (diskuse) 23. 3. 2021, 23:21 (CET)Odpovědět

„Soukromá analýza“ bohužel není použitelný zdroj, viz WP:Žádný vlastní výzkum. Pokud skutečně žádná použitelná novější analýza ve věrohodném zdroji nevyšla, proč by ČNK tu svou analýzu nevydal? (Nebo se na to chystá, jen to ještě neproběhlo? Tím spíše z ní budeme chtít citovat až poté.) --Mormegil 25. 3. 2021, 10:40 (CET)Odpovědět
@Thanoris, Mormegil:Taky bych si počkal na to, až bude taková analýza publikovaná. Spíš jde o to, zda změny frekvence jsou natolik statisticky významné, aby stálo za to je nějak komentovat. Domnívám se, že spíš půjde o zpřesnění, díky většímu vzorku (analýza z roku 1984 použila 540 000 slov z různých typů textů - [1]). Pochybuji, že by se slovní zásoba a její užití za necelých 30 let tak jednosměrně změnily, že by významně ovlivnily frekvenci hlásek.
Poznámka: Ten graf by asi byl šťastnější, kdyby řadil hlásky podle frekvence a ne podle abecedního pořádku. Ale vcelku to je jedno, chápu ho spíš jako oživující obrázek. Tabulka vedle je výborně udělaná, řazení výsledků lze měnit. Zdraví--Svenkaj (diskuse) 25. 3. 2021, 11:07 (CET)Odpovědět
@Mormegil:Rozumím. Přesto, když jsem si četl onen odkaz, zaujala mě věta: "Za vlastní výzkum se naopak nepovažuje shromažďování a uspořádávání informací ze zdrojů, jež jsou podstatou encyklopedické práce." Nechci se hádat, jen si říkám, když tady mohla být několik let tabulka, která žádný zdroj neuváděla, překvapuje mě, že je problém zdrojovat analýzu, která vychází z oficiálních zdrojů českého korpusu (jinými slovy, čísla jako taková zveřejněna nejsou, ale cesta k nim není zrovna složitá). Proto kdybych citoval konkrétní korpus, z něhož data vycházejí, přišlo by mi to i v rámci zmíněného pravidla přípustné. Navíc jen tak mimocodem: Wp:Nevšímejte si žádných pravidel. Thanoris (diskuse) 22. 4. 2021, 01:39 (CEST)Odpovědět
@Svenkaj:Co se týče významnosti změny od roku 84, můžu jen předložit pár čísel pro představu (v procentech): o: 8,119906497; e: 8,103779008; a: 7,10380438; n: 6,344415852; t: 5,521293732; l: 4,607299245; s: 4,597435937; i: 4,498610458; v: 4,187269791... Osobně bych se přikláněl k názoru, že tento posun není dán natolik změnou jazyka za oněch 35 let, ale spíš množstvím dat, ze kterých ona starší studie vychází. Rozhodně se ale nebudu zlobit, pokud tyto informace zůstanou "ukryty" pouze v této diskusi. Thanoris (diskuse) 22. 4. 2021, 01:39 (CEST)Odpovědět
@Thanoris: Jenomže smyslem uvádění zdrojů je, aby si kterýkoliv uživatel mohl zdroj dohledat a ověřit si, že jsme si to nevymysleli. A nevím, jak je ta analýza dělaná, ale předpokládám, že pokud uživatel dostane jen odkaz na korpus, že si z toho nedokáže udělat analýzu… Nicméně když už jste se spojil s Ústavem Českého národního korpusu a ten Vám dal nějakou analýzu, nešlo by s nimi rovnou domluvit, aby se ta analýza i zveřejnila? Mohli bychom ji dát třeba na Commons. (Nevím, v jakém je formátu, představuji si to jako několikastránkové PDF, ale možná mám představu úplně mimo.) --Marek Genius (diskuse) 4. 10. 2022, 17:28 (CEST)Odpovědět

Soubor všech písmen[editovat zdroj]

Vložil jsem do článku šablonu Šablona:Rozpor: Hned v úvodu je definice: „Česká abeceda je soubor všech písmen, která jsou používaná v psané češtině.“ A dole je sekce Mimoabecední písmena. To se mi zdá, že si trochu odporuje. Buď tedy je to soubor všech písmen, nebo existují i písmena, která se používají v psané češtině, ale přesto nejsou součástí abecedy. Prosím o názory, co s tím. Asi věřím, že by ta definice někde ověřit šla, nezdá se to jako nereálná definice. Ale rozpor tam přesto zůstane. Možná nějak změnit formulaci, ale jak? „Česká abeceda je soubor vybraných/některých písmen…“ To zní divně.

Taky jsem přidal informaci o alfabetě. Zatímco azbuka nebo sypaný čaj se v češtině nepoužívají (leda v textech, kde je ukázka cizích slov, ale i zde jsou pouze součástí těchto cizích slov), tak alfabeta, resp. minimálně některá její písmena, se používají i přímo v českých slovech (α-záření není o nic méně české než xylofon a x je české písmeno). Ovšem přesto písmena alfabety nejsou součástí české abecedy. Takže nevím, co s tím, je to zase na úvahu.


--Marek Genius (diskuse) 4. 10. 2022, 17:44 (CEST)Odpovědět