Оценка количественных параметров текстовых документов - 7 КЛАСС

Оценка количественных параметров текстовых документов — 7 КЛАСС

Все статьи
Want create site? Find Free WordPress Themes and plugins.

Урок: Оценка количественных параметров текстовых документов

Текст в памяти ПК

Текст — зафиксированная на каком-либо материальном носителе человеческая мысль; в общем плане связная и полная последовательность символов.

Текст состоит из символов — букв, цифр, знаков препинания и т.д., которые человек различает по начертанию. Компьютер различает вводимые символы по их двоичному коду.

При нажатии на клавиатуре символьной клавиши, в компьютер поступает определённая последовательность электрических импульсов разной силы, которую можно представить в виде цепочки из нулей и единиц (двоичного кода).
Разрядность двоичного кода ( i ) и количество возможных кодовых комбинаций ( N ) связаны соотношением: 2 в степени i=N.

Восьмиразрядный двоичный код позволяет получить 256 различных кодовых комбинаций: 2 в степени 8=256.

С помощью такого количества кодовых комбинаций можно закодировать 
все символы, расположенные на клавиатуре компьютера, — строчные и 
прописные русские и латинские буквы, цифры, знаки препинания, знаки 
арифметических операций, скобки и т.д., а также ряд управляющих 
символов, без которых невозможно создание текстового документа 
(удаление предыдущего символа, перевод строки, пробел и др.).
Соответствие между изображениями символов и кодами символов 
устанавливается с помощью кодовых таблиц.
Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.
Кодовая таблица содержит коды для 256 различных символов, пронумерованных от 0 до 255. Первые 128 кодов во всех кодовых таблицах соответствуют одним и тем же символам:
  • коды с номерами от 0 до 32 соответствуют управляющим символам;
  • коды с номерами от 33 до 127 соответствуют изображаемым символам — латинским буквам, знакам препинания, цифрам, знакам арифметических операций и т.д.
Эти коды были разработаны в США и получили название ASCII (American Standart Code for Information Interchange — Американский стандартный код для обмена информацией).
Коды с номерами от 128 до 255 используются для кодирования букв национального алфавита, символов национальной валюты и т.п. Поэтому в кодовых таблицах для разных языков одному и тому же коду соответствуют разные символы. Более того, для многих языков существует несколько вариантов кодовых таблиц (например, коды русских букв представляют в кодировках Windows, КОИ-8).
Перекодирование текстовых документов делают специальные программы-конверторы, встроенные в операционную систему и приложения.
Восьмиразрядные кодировки обладают одним серьёзным ограничением: количество различных кодов символов в этих кодировках недостаточно велико, чтобы можно было одновременно пользоваться более чем двумя языками. 
В Unicode (новый стандарт кодирования символов) каждый символ кодируется шестнадцатиразрядным двоичным кодом. Такое количество разрядов позволяет закодировать 65536 различных символов:
2 в 16 степени — 65536.
Первые 128 символов в Unicode совпадают с таблицей ASCII; далее размещены алфавиты других современных языков, а также все математические и иные научные символьные обозначения. С каждым годом Unicode получает всё более широкое распространение.
Пример кодирования в разных кодовых таблицах:
Оценка количественных параметров текстовых документов - 7 КЛАСС

Информационный объём

Информационный объём 1 сообщения равен произведению 
количества K символов в сообщении на информационный вес i 
символа алфавита:I=Кi
В зависимости от разрядности используемой кодировки, информационный вес символа текста, создаваемого на компьютере, может быть равен:
•  8 битам (1 байтам) — восьмиразрядная кодировка;
•  16 битам (2 байтам) — шестнадцатиразрядная кодировка.
Информационным объёмом фрагмента текста называется количество битов, байтов или производных единиц (килобайтов, мегабайтов и т.д.), необходимых для записи этого фрагмента заранее оговорённым способом двоичного кодирования.
Задачи
1. Считая, что каждый символ кодируется одним байтом, определи, чему равен информационный объём следующего высказывания:
Кто владеет информацией, тот владеет миром.
  
Решение: всего в высказывании 43 символа (буквы, знаки препинания, пробелы). Значит, 431байт =43 байта
2. В кодировке Unicode на каждый символ отводится два байта. Определи информационный объём слова из 12 символов в этой кодировке. Ответ запиши в битах.
Решение: 2 байта 8=16 бит;  16 бит 12 символов =192 бита
3. Вырази в мегабайтах объём текстовой информации в книге из 700 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы). Считай, что при записи использовался алфавит мощностью 256 символов.
Решение: информационный вес символа алфавита мощностью 256 равен восьми битам (одному байту). Количество символов в книге равно 7008060=3360000. Следовательно, объём этого текста равен 3360000 байтов =3281,25 Кбайт и 3,2 Мбайт.

 

Did you find apk for android? You can find new Free Android Games and apps.

Добавить комментарий