4Buddhas - Enlightened evolution through psychoactive being





	4Buddhas

	Hledat

	Info

	Záhir

	Experimento

	Mr. Zdeeck

	Kontakt

Reformovaná morseovka

<<<

Buddhead, 09:43:35 12.01.2006, přečteno 3302x

Sekce: Úlety

Když Samuel Morse (1791-1872) sestavoval svou abecedu, snažil se nejčastějším písmenům přiřadit co nejjednodušší kód. Nevycházel však z frekvenční analýzy textu (což by v předpočítačové době ani dost dobře nešlo), nýbrž jednoduše sečetl jednotlivé litery v zásobnících amerických sazečů.

Slabiny tohoto přístupu nejen vzhledem k angličtině, ale hlavně se zřetelem k jiným jazykům jsou očividné. Jak by asi vypadala morseovka beroucí v potaz zvláštnosti českého jazyka? Než se pokusím odpovědět, je třeba krátce zmínit zásady, jimiž se řídí komunikace v této abecedě. Každé písmeno morseovky se skládá ze sledu teček nebo čárek (pro zjednodušení budu hovořit o bitech, které mohou nabývat hodnoty ·/-). Základní jednotkou rychlosti vysílání je trvání jedné tečky (opět pro zjednodušení si vypůjčím pojem z versologie a budu mluvit o mórách). Bit s hodnotou · tedy trvá jednu móru, bit s hodnotou - móry tři. Mezi jednotlivými bity je vždy jednomórová pauza, mezi písmeny pauza třímórová a mezi slovy pauza v trvání sedmi mór.

Abychom měli srovnání, zda a o kolik by česká morseovka byla lepší než její mezinárodní protějšek, musíme zjistit, kolik bitů a kolik mór zabere překlad náhodně zvoleného českého textu. Jejich vzájemný poměr nám pak udá efektivitu daného přenosu (neboť rozhodující není jen délka zprávy v bitech, ale také doba potřebná k jejímu přenosu). K tomu samozřejmě potřebujeme znát procentuální zastoupení jednotlivých písmen české abecedy v česky psaných textech. Údaje z této oblasti jsou silně závislé na délce a stylistické povaze zkoumaného textu, proto budu pracovat se dvěma statistikami. První pochází z knihy Marie Těšitelové Kvantitativní charakteristiky současné češtiny [T],* druhá z internetových stránek Laboratoře zpracování přirozeného jazyka [L]. Pořadí 42 písmen české abecedy dle četnosti je následující:

[T] o, e, n, a, t, v, s, i, l, k, r, d, p, í, m, u, á, z, j, y, ě, c, b, é, h, ř, ch, ý, ž, č, š, ů, f, g, ú, ň, x, ť, ó, ď, w, q

[L] o, e, a, n, t, s, i, v, l, r, k, d, p, m, u, í, á, z, j, y, b, c, ě, h, ř, é, ž, č, ch, ý, š, ů, f, g, ú, x, ň, w, ť, ó, ď, q

Při znalosti přesného procentuálního zastoupení jednotlivých písmen pak není problém spočítat bitovou a mórovou délku české zprávy o 100.000 písmenech (počítám pouze móry připadající na jednotlivá písmena morseovky, tedy na jejich bity a mezery mezi nimi, nikoliv móry připadající na pauzy mezi písmeny a slovy). Předtím však musím zmínit ještě jednu záležitost. Podle mezinárodních pravidel by měla být spřežka ch brána jako dvě písmena. Morsemu však ve skupině čtyřbitových písmen zbyla čtyři volná místa, která jsou využívána pro znaky národních abeced, a to většinou následovně: ä ·-·-, ü ··--, ö ---·, ch ----. V českém prostředí je zvykem právě pro ch využívat znak ----, který trvá 15 mór. Kdybychom ch brali jako dva znaky a přepisovali je -·-·/····, zabralo by to celkem 21 mór (nutné je započítat i tři móry, připadající na nově vzniklou mezeru mezi písmeny). Pořadí písmen bez diakritiky je následující:

[T (bez diakritiky)] e, o, a, i, n, t, s, r, v, u, l, k, d, p, m, z, y, c, j, b, h, ch, f, g, x, w, q

[L (bez diakritiky)] e, a, o, i, n, s, t, r, v, l, u, k, d, p, m, z, y, c, j, b, h, ch, f, g, x, w, q

Česká zpráva o 100.000 písmenech bude mít při překladu do mezinárodní morseovky (obohacené o spřežku ch) podle statistiky [T] celkem 268.615 bitů, 682.739 mór a efektivita přenosu bude činit 39,344%. Podle statistiky [L] bude mít výsledná zpráva 269.204 bitů, 679.721 mór a efektivita přenosu dosáhne 39,605%.

Jak by tedy měla vypadat morseovka beroucí v potaz zvláštnosti českého jazyka? Při sestavení kódu samozřejmě musíme respektovat frekvenci písmen české abecedy. Konkrétní přiřazení lze provést dvojím způsobem: buď abecedu rozdělíme do skupin po 1, 2, 3, 4, a 5 bitech, v jejichž rámci budeme postupovat podle počtu mór (dále bitové přiřazení), nebo abecedu rozdělíme do skupin po 1, 3, 5, 7, 9, 11, 13, 15, 17 a 19 mórách, v jejichž rámci budeme postupovat podle počtu bitů (dále mórové přiřazení).

Zůstaňme zatím u abecedy bez diakritiky, pro kterou stačí maximálně čtyři bity. Česká zpráva o 100.000 písmenech bude mít při překladu do upravené morseovky dle bitového přiřazení a podle statistiky [T] celkem 251.813 bitů, 605.135 mór a efektivita přenosu bude činit 41,613% (tzn. úspora 6,26% bitů, 11,37% mór a zvýšení efektivity o 2,269%). Podle statistiky [L] bude mít výsledná zpráva bitů 252.456, mór 607.721 a efektivita přenosu dosáhne 41,541% (tzn. úspora 6,22% bitů, 10,59% mór a zvýšení efektivity o 1,936%). Dle mórového přiřazení a podle statistiky [T] bude mít překlad 253.943 bitů, 600.515 mór a efektivita přenosu bude činit 42,288% (tzn. úspora 5,46% bitů, 12,04% mór a zvýšení efektivity o 2,944%). Podle statistiky [L] bude mít zpráva 254.318 bitů, 603.631 mór a efektivita přenosu dosáhne 42,131% (tzn. úspora 5,53% bitů, 11,19% mór a zvýšení efektivity o 2,526%).

Optimální řešení představuje kombinace obou přístupů, tedy takové, kdy jsou jednotlivé kódy řazeny podle součinu své bitové a mórové délky. Podle statistiky [T] bude mít zpráva 251.999 bitů, 604.391 mór a efektivita přenosu bude činit 41,695% (tzn. úspora 6,19% bitů, 11,48% mór a zvýšení efektivity o 2,09%). Podle statistiky [L] bude mít zpráva 252.651 bitů, 606.953 mór a efektivita přenosu dosáhne 41,626% (tzn. úspora 6,15% bitů, 10,71% mór a zvýšení efektivity o 2,02%). Oproti bitovému přiřazení sice vinou kombinovaného přístupu nepatrně vzroste počet bitů ve zprávě, ovšem sníží se počet mór, v porovnání s mórovým přiřazením naopak klesne počet bitů, ale o něco se zvýší počet mór; musím však přiznat, že nejlepší efektivitu si drží mórové přiřazení. Česká morseovka vzniklá kombinací bitového a mórového přiřazení a podle statistiky [L] bude vypadat zhruba následovně:

A -	J -···	T ···
B ··--	K -·-	U ·--
C ·-··	L -··	V ·-·
D --·	M ---	W ·---
E ·	N -·	X -··-
F --··	O ··	Y ··-·
G -·-·	P ····	Z ···-
H ·-·-	Q -·--	, --·-
CH ·--·	R ··-	. ---·
I ·-	S --	? ----

Jak vidno, tři neobsazená místa ve skupině čtyřbitových písmen jsem využil pro čárku, tečku a otazník.** Vykřičník není nijak zvlášť potřebný, neboť imperativ je v češtině dostatečně vyjádřen tvarem slovesa. Pro číslice by bylo nutné dodat ještě jeden bit, ale věc lze vyřešit stejně jako v leetspeaku a nahradit je písmeny podobného tvaru: 0 – O, 1 – I, 2 – Z, 3 – E, 4 – A, 5 – S, 6 – G, 7 – T, 8 – B, 9 – Q.

Závěrem zbývá zjistit, jak by se změnila velikost zprávy, kdybychom chtěli kódovat i diakritiku. Následující výpočet je založen na kombinovaném přiřazení a statistice [L]. Zpráva bude mít 277.243 bitů, 684.862 mór a efektivitu přenosu 40,481% (tzn. nárůst o pouhé 2,99% bitů a 0,76% mór a vzrůst efektivity o 0,876%). Oproti kódování v mezinárodní morseovce by se tedy zpráva prodloužila jen minimálně, a to už stojí za úvahu! Česká morseovka s diakritikou by vypadla nějak takto:

A ··	I ···	S --
Á ··-·	Í ···-	Š -····
B ·-·-	J -···	T -·
C ·--·	K ·--	Ť -··-·
Č -·--	L ·-·	U ---
D -·-	M ····	Ú ····-
Ď ·--··	N ·-	Ů ·-···
E -	Ň --···	V ··-
É ·····	O ·	W -·-··
Ě --··	Ó -···-	X ----
F ··-··	P --·	Y ··--
G ···-·	Q ·-·-·	Ý ---·
H -·-·	R -··	Z ·-··
CH --·-	Ř -··-	Ž ·---

Dodatek: Různě upravená morseovka se používá pro vysílání ruštiny, hebrejštiny, arabštiny, korejštiny a dokonce japonštiny. Nemyslím si, že by se podařilo zavést nový český standard, nicméně v jedné oblasti by to mělo smysl. Pro osoby s mnohočetným postižením byl vyvinut počítačový interface založený na morseovce (často vysílané pouze foukáním do trubičky) a v tomto případě by měla má úsporná reforma své oprávnění.

* Statistika [T] vychází z korpusu 3.140.590 písmen. Kromě českých písmen obsahoval i pomlčky, apostrofy a písmena cizí abecedy, která jsem nebral v úvahu, a proto jsou výsledky počítané podle této statistiky vždy lepší než ty podle statistiky [L].

** Předložené řešení není zcela optimální, protože tečka nebo čárka se v českém textu objevuje určitě častěji, než x, w, nebo q (pokud nepíšete o Xerxovi nebo Wawelu). Příslušnou statistiku jsem bohužel neměl k dispozici.