2026-04-25 –, Aula Magna Language: Čeština
Zpracování textu na počítači je jedna z nejběžnějších úloh. Vnitřně ale počítače pracují jen s čísly. Unicode je standard mapující text na čísla, aby s ním mohly počítače pracovat. I když to zní jednoduše, opak je pravdou. V přednášce se podíváme na jeho předchůdce ASCII, se kterým se setkáváme denně na každém rohu, projdeme zastaralá osmibitová kódování a nakonec se podíváme na vlastnosti Unicode - že Unicode není synonymum k UTF-8, jak funguje normalizace, surogátní znaky, jak dokáže potrápit BOM, nebo proč je počítání znaků velmi netriviální úloha. A nebudou chybět ani Emoji 🤓
Doporučuji před přednáškou zopakovat šestnáctkovou číselnou soustavu, zejména pak fakt, že každá šestnáctková číslice se mapuje přesně na čtyři bity.
Co v přednášce probereme:
- Všechno je číslo
- ASCII je všude
- K čemu slouží teletextová stránka 899
- Osmibitová kódování a problémy s nimi spojené
- Původní myšlenka Unicode
- Jak se to celé zkomplikovalo
- Proč je kódování vlajky Anglie 🏴 zcela odlišné od kódování vlajky Spojeného Království 🇬🇧
Ondřej Caletka vystudoval elektrotechnickou fakultu ČVUT, obor Telekomunikační technika a po více než osmi letech ve sdružení CESNET, provozujícím národní síť vědy a výzkumu, nyní pracuje ve vzdělávacím oddělení RIPE NCC, asociace koordinující internetové sítě v Evropě, na Blízkém východě a v severní Asii.