Przeczytaj

Systemy kodowania znaków

Istnieje wiele systemów kodowania znaków. Omówimy te najbardziej znane i najczęściej wykorzystywane – ASCII, ISO, Unicode.

ASCII

ASCII, z angielskiego American Standard Code for Information Interchange, to jeden z najbardziej znanych systemów kodowania znaków. W podstawowej wersji umożliwia on zakodowanie 128 znaków. System ten polega na tym, że znakom przypisuje się liczby z zakresu od 0 do 127, a w rozszerzonej wersji z zakresu od 0 do 255.

Podstawowa wersja

Przypisania znaków do liczb:

od 0 do 32 – liczbom tym przypisane są tzw. znaki sterujące, czyli m.in. Escape, Backspace, Shift itd.;
od 33 do 47 – zakres ten obejmuje znaki specjalne, w ich skład wchodzą m.in. !, #, %, $;
od 48 do 57 – liczbom z tego zakresu przypisane są cyfry (jako znaki) – 0, 1, 2, 3, 4, 5, 6, 7, 8, 9;
od 65 do 90 – tym liczbom przypisane są wielkie litery alfabetu łacińskiego;
od 97 do 122 – obejmuje małe litery alfabetu łacińskiego.

Poniższa tabela obrazuje kodowania znaków z zakresu od 32 do do 127.

R1ecukfdBItya

Ilustracja — Źródło: Contentplus.pl sp. z o.o., licencja: CC BY-SA 3.0.

32	Spacja	64	@	96	`
33	!	65	A	97	a
34	„	66	B	98	b
35	#	67	C	99	c
36	$	68	D	100	d
37	%	69	E	101	e
38	&	70	F	102	f
39	'	71	G	103	g
40	(	72	H	104	h
41	)	73	I	105	i
42	*	74	J	106	j
43	+	75	K	107	k
44	,	76	L	108	l
45	-	77	M	109	m
46	.	78	N	110	n
47	/	79	O	111	o
48	0	80	P	112	p
49	1	81	Q	113	q
50	2	82	R	114	r
51	3	83	S	115	s
52	4	84	T	116	t
53	5	85	U	117	u
54	6	86	V	118	v
55	7	87	W	119	w
56	8	88	X	120	x
57	9	89	Y	121	y
58	:	90	Z	122	z
59	;	91	[	123	{
60	<	92	\	124	\|
61	=	93	]	125	}
62	>	94	^	126	~
63	?	95	_	127	Delete

Rozszerzona wersja

Z czasem kodowanie zaledwie 128 znaków przestało wystarczać – system ten nie obejmował chociażby kodowania znaków narodowych, tj. „Ą”, „Ę”... W związku z tym powstały nowe systemy kodowania znaków, które w pewnej części oparte były na istniejącym już ASCII. Były to systemy kodowania ISO‑8859.

ISO‑8859

W porównaniu do ASCII nie jest to 7‑bitowy, a 8‑bitowy system kodowania znaków. Dodatkowy bit pozwala na zakodowanie 128 znaków więcej.

Część wspólna systemu kodowania ISO i ASCII to pierwsze 128 znaków – przypisania od 0 do 127 – w ISO‑8859 są one identyczne jak ASCII.

Drugiej połowie, czyli liczbom od 128 do 255 przypisane są znaki narodowe. To jednak również nie wystarczało, ponieważ każdy język ma swoje unikalne znaki. Dodatkowe 128 możliwości kodowań nadal nie pozwalało na zakodowanie wszystkich potrzebnych znaków. W związku z tym powstało wiele norm ISO, które obejmowały różne grupy językowe. Oto kilka z z nich:

ISO‑8859‑1 – znaki alfabetu łacińskiego (Europa Zachodnia),
ISO‑8859‑2 – znaki alfabetu łacińskiego (Europa Środkowa i Wschodnia),
ISO‑8859‑5 – znaki rosyjskie (cyrylica),
ISO‑8859‑7 – znaki alfabetu greckiego.

Standard ISO‑8859‑2 obejmuje polskie znaki.

Największą wadą takiego rozwiązania był fakt, że jeżeli chcielibyśmy użyć (np. podczas pisania dokumentu) zarówno znaków polskich (norma ISO‑8859‑2) jak i znaków rosyjskiej cyrylicy (norma ISO‑8859‑5) to nie było to możliwe lub nie działało poprawnie. W związku z tym powstał kolejny system kodowania, najbardziej obszerny – Unicode.

Unicode

System ten wychodzi naprzeciw powyższym problemom – daje możliwość kodowania wszystkich znaków narodowych. Jeżeli piszemy dokument w standardzie Unicode możemy użyć praktycznie dowolnego znaku.

Ważne!

Warto wspomnieć, że pierwsze 128 kodowań pokrywa się z tabelą ASCII.

Aktualną wersją Unicode (lipiec 2021) jest Unicode 13.0 i ma on zdefiniowane 143859 różnych kodowań znaków. Niesie to ze sobą pewną wadę tego systemu. Dotychczas omówione systemy kodowań – ASCII i ISO‑8859 – umożliwiały kolejno kodowanie 128 i 256 różnych znaków. W Unicode możliwe jest kodowanie tak wielu znaków, ponieważ wykorzystywane jest więcej pamięci. Niektóre znaki są kodowane nawet za pomocą 4 bajtówbajtbajtów.

Istnieją różne metody kodowania Unicode, najczęściej używanymi są:

UTF‑8,
UTF‑16,
UTF‑32.

Różnią się one m.in. liczbą używanych bitów (z powyżej wymienionych metod, liczby znajdujące się na końcu nazwy, oznaczają liczbę wykorzystywanych bitów).

Przykład 1

Imię Mateusz przekonwertowane na kod UTF‑8 przedstawiony za pomocą szesnastkowego systemu liczbowego prezentować będzie się następująco:

4D 61 74 65 75 73 7A 0A

Konwertując dodatkowo system szesnastkowy na binarny otrzymamy następujący ciąg bitów:

100110101100001011101000110010101110101011100110111101000001010

Kodowanie animacji

Najpopularniejszym formatem, w jakim zapisywane są animacje jest format GIF (ang. Graphics Interchange Format). Umożliwia on zapis wielu obrazków w jednym pliku. Zapętlona sekwencja zapisanych obrazków tworzy animację. Oto przykład animacji w formacie GIF:

R1aHOEK98DGf1

Źródło: Contentplus.pl sp. z o.o., licencja: CC BY-SA 3.0.

Składa się ona z siedmiu kolejnych obrazów:

R1EldlWZH23LV

Ilustracja przedstawia 7 obrazków tworzących animację. 1. Koło znajduje się przy lewym boku prostokąta. 2. Koło znajduje się w jednej siódmej długości prostokąta. 3. Koło znajduje się w dwóch siódmych długości prostokąta. 4. Koło znajduje się w trzech siódmych długości prostokąta. 5. Koło znajduje się w czterech siódmych długości prostokąta. 6. Koło znajduje się w pięciu siódmych długości prostokąta. 7. Koło znajduje się w sześciu siódmych długości prostokąta. — Źródło: Contentplus.pl sp. z o.o., licencja: CC BY-SA 3.0.

Jeżeli obrazków, które składają się finalnie na animację w formacie GIF, byłoby więcej, to zielona kulka poruszałaby się płynniej i bez „skoków” zauważalnych w obecnej postaci.

Kodowanie dźwięku

Wyróżnia się dwie główne metody kodowania dźwięków:

analogowe,
cyfrowe.

Za pomocą pierwszej metody, analogowej, możemy zakodować dźwięk na takich nośnikach jak taśmy, kasety czy płyty winylowe. Do odtworzenia dźwięku potrzebny jest wówczas specjalny odtwarzacz, który mechanicznie odczyta treść zapisaną na nośniku.

W drugiej metodzie, cyfrowej, dźwięk zapisywany jest za pomocą sygnałów, których wartości pobierane są co określony odstęp czasu. Proces ten nazywany jest próbkowaniem.

Liczba bitów, na której zapiszemy dźwięk zależeć będzie od trzech głównych czynników: częstotliwości próbkowania (Hz), rozmiaru próbki (b) oraz czasu próbkowania (s).

L i c z b a b i t ó w [b] = c z a s [s] \cdot c z ę s t o t l i w o ś ć p r ó b k o w a n i a [H z] \cdot r o z m i a r p r ó b k i [b]

Przykład 2

Załóżmy że kodujemy cyfrowo pewien dźwięk trwający 10 sekund. Częstotliwość próbkowania to 50Hz, natomiast rozmiar próbki to 32 bity. W takiej sytuacji nasz dźwięk zapiszemy na następującej liczbie bitów:

10 s \cdot 50 H z \cdot 32 b = 16000 b

Kodowanie cyfrowe zapewnia znacznie lepszą jakość dźwięku oraz lepszą możliwość manipulowania dźwiękiem.

Dźwięk zakodowany cyfrowo najczęściej zapisywany jest na płytach CD oraz na dyskach.

Słownik

alfabet łaciński

najbardziej popularny na świecie system znaków; składa się z 26 liter – A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z

bajt

wykorzystywana w dziedzinie informatyki, jednostka pamięci złożona z 8 bitów

Wprowadzenie

Gra edukacyjna