Представление информации

Представление информации

Язык, как способ представления информации

Познание начинается с восприятия окружающего мира органами чувств. Зрение, вкус, слух, обоняние, осязание доводят до нашего сознания информацию о самых разнообразных свойствах предметов, а также явлениях и процессах, происходящих вокруг нас.

Язык – это знаковая система представления информации. Ряд основных информационных процессов – передача, сохранение – без языка неосуществимы, другие – получение, обработка, использование – его существенно используют в сфере человеческой информационной деятельности. Коммуникативный язык выступает носителем логической информации, именно с помощью языка человек превращает получаемую информацию в знание и передает это знание другому человеку и обществу в целом.

Первобытный человек для обозначения каждого нового предмета придумывал новое имя. Чтобы получить необходимое разнообразие имен, он начал комбинировать звуки друг с другом, получая слова. Так в ходе развития человека появилась идея конечного алфавита, т.е. некоторого фиксированного набора знаков, из которого можно составить как угодно много слов. Комбинацию знаков алфавита называют словом. Из слов составляются фразы, несущие смысловую нагрузку.

Возникновение многих других алфавитов было продиктовано необходимостью привлечения технических средств для передачи информации. Одним из первых примеров такого алфавита является азбука Морзе. В ней каждый знак обычного алфавита кодируется набором точек и тире.

Человек в своей практике общения использует самые разнообразные языки (знаки дорожного движения, пиктограммы олимпийских видов спорта, ноты). Прежде всего, это языки устной и письменной речи. Это иностранные языки, которыми может пользоваться человек.

Кроме того, человек использует ряд языков профессионального назначения. Сюда относятся языки математических и химических формул, обозначений электроники (например, схема электрической цепи). Отметим, что развитие языков программирования идет по пути замены знаков символами.

Кодирование информации

Кодирование информации – это представление сведений в той или иной стандартной форме.

Кодирование – это процесс представления информации в виде кода – набора условных обозначений для представления информации.

Кодирование – это переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки. Кодирование имеет главной целью сохранение информации.

Необходимым компонентом любого информационного процесса является кодирование и декодирование информации. Кодирование и декодирование должны быть взаимно-обратными операциями.

В каждой ЭВМ для представления информации используется набор символов. Каждый символ этого набора представляется определенным числом (кодом). Причем в разных типах ЭВМ используются разные способы кодирования. (т.е. одним и тем же символам сопоставляются разные коды).

Для представления информации в памяти ЭВМ (как числовой, так и нечисловой) используется двоичный способ кодирования.

Двоичная форма представления информации

Широкое внедрение двоичного кодирования информации связано с автоматизацией процессов передачи и обработки информации, и в первую очередь с применением для этого различных технических устройств.

Технически двухсимвольный алфавит легко реализуется: высокое напряжение электрического импульса или нет, высокая намагниченность или нет и т.п.

Об уникальности двоичного кодирования можно судить по тому, что с его помощью можно кодировать рисунки. Для этого на рисунок накладывают клетчатую сетку. А затем те клетки, в которые попал рисунок, обозначают «1», а все остальные – «0». В результате получается код рисунка, который можно представить в памяти компьютера.

Тот же прием двоичного кодирования используется для представления в компьютере букв, цифр, знаков действия, знаков препинания и других знаков. Каждому алфавитному символу однозначно сопоставляется слово из двухсимвольного алфавита. Односимвольных слов у нас только 2 – это 0 и 1; двухсимвольных слов уже 4 – это 00, 01, 10 и 11. С помощью последовательности из 6 знаков (0 и 1) можно закодировать уже 64 символа.

Чтобы не употреблять длинный оборот «последовательность из стольких-то знаков, каждый из которых ноль или единица», принято соглашение появление одного такого знака в последовательности называть битом (от англ. BIinary digiT – двоичная цифра). Бит – это наименьшая единица измерения информации в компьютере, принимающая значение 0 или 1.

Для кодирования одного символа (буква, пробел, знаки препинания и т.д.) необходимо 8 бит.

8 бит = 1 байт. Например, для кодирования словосочетания «информационные технологии» необходимо 25 байт или 25*8=200 бит.

1024 байт = 2¹⁰ байт = 1 Килобайт (Кбайт)

1024 Кбайт = 2²⁰ байт = 1 Мегабайт (Мбайт)

1024 Мбайт = 2³⁰ байт = 1 Гигабайт (Гбайт)

Все символы делятся на две группы. Первая группа (символы с кодами от 0 до 127) выполнена по американскому стандарту ASCII (American Standard Code for Informational Interchange – Американский стандартный код для информационного обмена). Это один из самых распространенных способов кодирования – восьмибитный код. Сегодня в большинстве компьютеров используется именно эта система кодирования информации. В ней для национальных алфавитов, таких, как русский, отводятся коды со 128-го по 255-й.

Первая группа включает заглавные буквы (коды 65-90), строчные буквы (коды 97-122) латинского алфавита, цифры 0…9 (коды 48-57), пробел (код 32), «пусто» (код 0) и т.д.

Символы второй группы в ПЭВМ рассматриваемого типа включают символы русского алфавита (или других национальных алфавитов) и символы псевдографики.

В современном мире, окутанном компьютерными сетями, недостаточно и того кодирования, которое предоставляет ASCII: есть же арабский алфавит, математическая символика и т.д. Поэтому был предложен новый стандарт символьного кодирования UNICODE, где каждый символ кодируется уже шестнадцатью битами.

Разумеется, кодировать можно не только буквы, но и цифры, или числа целиком.
Например:
0 кодировать 0
1 кодировать 1
2 кодировать 10
3 кодировать 11
4 кодировать 100
5 кодировать 101
6 кодировать 110
7 кодировать 111
8 кодировать 1000
9 кодировать 1001

Для кодирования букв латинского алфавита может использоваться только одна кодировка.

Для кодирования букв русского алфавита могут использоваться пять различных кодировок (MS-DOS, Windows, Macintosh, КОИ-8, ISO).

Представление чисел в ЭВМ

Числовая информация была первым видом информации, который начали обрабатывать ЭВМ. Все числовые данные хранятся в компьютере в двоичном виде, т.е. в виде последовательности нулей и единиц, но формы хранения целых и действительных чисел различны.

Целые числа без знака (только для неотрицательных целых чисел). Беззнаковые целые числа представляются в компьютере наиболее просто. Достаточно перевести требуемое число в двоичную форму и дополнить полученный результат нулями слева до стандартной разрядности. Для числа 1410 восьмиразрядное двоичное изображение имеет вид 00001110. Это же самое число в 16-разрядном представлении будет содержать слева еще 8 нулей.

Минимальное число без знака при любом количестве разрядов равняется нулю; максимальное – равняется всем единицам.

Целые числа со знаком. Для того, чтобы различать положительные и отрицательные числа, в двоичном представлении чисел выделяется знаковый разряд. Принято для кодирования знака использовать самый старший (левый) бит, причем нулевое значение в нем соответствует положительному знаку числа, а единичное – отрицательному.

Представление чисел в форме «знак»-«величина» называется прямым кодом двоичного числа. Например, прямой код 10012 и -10012 для 8-разрядной ячейки равен 0001001 и 10001001 соответственно.

Положительные числа в ЭВМ всегда представляются с помощью прямого кода. Прямой код числа полностью совпадает с записью самого числа в ячейке машины. Прямой код отрицательного числа отличается от прямого кода соответствующего положительного числа лишь содержанием знакового разряда. Но отрицательные целые числа представляются в ЭВМ с помощью специально построенного кода, который называется дополнительным. Дополнительный код отрицательного числа m равен 2^k-|m|, где k – количество разрядов я ячейке, а |m|<2^k. Дополнительный код используется для упрощения выполнения арифметических операций над числами (включая с разн/ыми знаками).

Вещественные числа. Принципиальное отличие между вещественными и целыми числами состоит в том, что целые числа дискретны, а вещественные непрерывны. Существует два способа представления вещественных чисел: с фиксированной и с плавающей запятой. При представлении чисел с фиксированной запятой все разряды ячейки, кроме знакового разряда – если он есть, служат для изображения разрядов числа. Причем каждому разряду ячейки соответствует всегда один и тот же разряд числа. Так фиксируется место запятой перед определенным разрядом. Такая система упрощает выполнение арифметических действий, но сильно ограничивает диапазон чисел, которые можно записывать в ячейку при таком представлении. Поэтому данный способ сейчас практически не используется. Зато широко применяемое в современных компьютерах представление чисел с плавающей запятой базируется на том факте, что любое число А в системе счисления с основанием Q можно записать в виде:

A=(±M)*Q^±Р где, М – называют мантиссой, а показатель степени Р – порядок числа. Например, 120100000=1,201*10⁸=0,1201*10⁹ =12,01*10⁷... Десятичная запятая «плавает» в числе и больше не помечает абсолютное место между запятой и дробной частями. Для того, что бы сохранять максимальную точность, вычислительные машины почти всегда хранят мантиссу в нормальном виде (1<M<2), т.е. нормализация мантиссы делает единичным первый бит, помещая туда значение между единицей и двойкой. Способ хранения мантиссы с плавающей точкой подразумевает, что двоичная запятая находится на фиксированном месте. Оно делится на два поля. Одно поле содержит знак и значение мантиссы, а другое содержит знак и значение порядка.

Таким образом, для вещественных чисел с плавающей запятой фактически хранится два числа: мантисса и порядок. Разрядность первой составляющей определяет точность вычислений, а второй – диапазон представления чисел.

Представление текстовых данных

Любой текст состоит из последовательности символов. Символами могут быть буквы, цифры, знаки препинания, знаки математических действий, круглые и квадратные скобки и т.д.

Текстовая информация, как и любая другая хранится в памяти компьютера в двоичном виде. Для этого каждому ставится в соответствии некоторое неотрицательное число, называемое кодом символа, и это число записывается в память ЭВМ в двоичном виде. Конкретное соотношение между символами и их кодами называется системой кодировки. В персональных компьютерах обычно используется система кодировки ASCII (American Standard Code for Informational Interchange – Американский стандартный код для информационного обмена).

Представление графической информации

Мониторы современных компьютеров могут работать в двух режимах: текстовом и графическом.

В текстовом режиме экран разбивается на определенное число строк и символов в строке. Каждая позиция экрана называется знакоместом, и туда может быть помещен один символ. Режим предназначен для вывода на экран монитора текстов и простых рисунков, составленных из символов псевдографики. Символ может иметь определенный цвет.

Следовательно, для описания каждого знакоместа требуется 2 байта: первый байт – символ, второй байт – его цветовые характеристики.

В графическом режиме экран разделяется на отдельные светящиеся точки (пиксели), количество которых определяет разрешающая способность монитора и зависит от его типа и режима.

Любое графическое изображение хранится в памяти в виде информации о каждом пикселе на экране. Состояние каждого пикселя описывается последовательностью нулей и единиц, соответствующих кодировке его цвета.

Такую форму представления графических изображений называют растровой.

Представление звуковой информации

Развитие аппаратурной базы современных компьютеров параллельно с развитием программного обеспечения позволяет сегодня записывать и воспроизводить на компьютерах музыку и человеческую речь. Существует два способа звукозаписи:

- цифровая запись, когда реальные звуковые волны преобразуются в цифровую информацию путем изменения звука тысячи раз в секунду. Этот процесс называется дискретизацией. «Частота дискретизации 44кГц» означает, что изменения производятся 44 тысячи раз в секунду;

- MIDI – запись, которая является не реальным звуком, а записью определенных команд-указаний (какие клавиши надо нажимать, например, на синтезаторе). MIDI – запись является электронным эквивалентом нотной записи.

Первый из указанных способов можно реализовать, если в компьютере есть звуковая плата. Звук представляет собой вибрации, которые формируют волну с соответствующими амплитудой и периодом. Звуковая плата преобразует звук на входе в цифровую информацию путем изменения его характеристик (период, амплитуда) несколько тысяч раз в секунду. Получившиеся значения записываются в виде нулей и единиц в память компьютера (файлы с расширение WAV). При воспроизведении звука специальное устройство звуковой карты преобразует цифры обратно в аналоговый сигнал, подающийся на самые обычные звуковые усилители, а оттуда на колонки. Хранение звука в виде цифровой записи занимает достаточно много места в памяти компьютера.

MIDI-запись была разработана в начале 80-х годов (MIDI – Musical Instrument Digital Interface – интерфейс цифровых музыкальных инструментов). MIDI-информация представляет собой команды – инструкции синтезатору, а не параметры звуковых волн. MIDI-команды гораздо удобнее для хранения музыкальной информации, чем цифровая запись.

Интересный факт

В 1977 г. математики Р. Ривест, А. Шамил и Л. Эделман зашифровали фразу из нескольких слов, используя комбинацию из 129 цифр. Они утверждали, что на разгадку понадобятся триллионы лет. Однако, ключ к самому сложному в мире шифру "РСА-129" был найден за 17 лет. Над дешифровкой работали 600 ученых и добровольцев на пяти континентах при помощи 1600 компьютеров.
Сложность шифра заключалась в том, что для его разгадки надо было определить две группы простых чисел, которые при перемножении давали код "РСА-129".

Проверка знаний