Двоичные данные

редактировать

Двоичные данные - это данные, единицы измерения которых не могут быть имеют только два возможных состояния, традиционно обозначаемых как 0 и 1 в соответствии с двоичной системой счисления и Булевой алгеброй.

Двоичные данные встречаются во многих различных технических и научных областях, где они могут быть называются разными именами:

"бит "(двоичная цифра) в информатике,
"значение истинности " в математической логике и связанных областях,
"двоичная переменная "в статистике.

Содержание

1 Математические и комбинаторные основы
2 В статистике
- 2.1 Двоичные переменные
- 2.2 Подсчет
- 2.3 Регрессия
3 В информатике
4 См. Также
5 Ссылки

Математические и комбинаторные основы

A дискретная переменная, которая может принимать только одно состояние содержит ноль информации и 2 - это следующее натуральное число после 1. Вот почему бит, переменная только с двумя возможными значениями, является стандартной основной единицей информации.

Набор из n битов может иметь 2 состояния: см. двоичное число для подробностей. Количество состояний набора дискретных переменных зависит экспоненциально от количества переменных и только как степенной закон от количества состояний каждой переменной. Десять битов имеют больше (1024 ) состояний, чем три десятичных разряда (1000 ). 10 тыс. Битов более чем достаточно для представления информации (число или что-либо еще), для которой требуется 3 тыс. Десятичных цифр, поэтому информация, содержащаяся в дискретных переменных с 3, 4, 5, 6, 7, 8, 9, 10 … состояния могут быть когда-либо заменены выделением в два, три или четыре раза большего количества битов. Таким образом, использование любого другого меньшего числа, чем 2, не дает преимущества.

A Диаграмма Хассе : представление булевой алгебры в виде ориентированного графа

Кроме того, булева алгебра предоставляет удобную математическую структуру для сбора битов с семантикой набора пропозициональных переменных. Операции булевой алгебры известны в информатике как «поразрядные операции ». Булевы функции также хорошо изучены теоретически и легко реализуемы либо с помощью компьютерных программ, либо с помощью так называемых логических элементов в цифровой электронике. Это способствует использованию битов для представления различных данных, даже тех, которые изначально не были двоичными.

В статистике

В статистике, двоичные данные - это статистический тип данных, состоящий из категориальных данных, которые могут принимать ровно два возможных значения, такие как «A» и «B» или «орел» и «решка». Как форма категориальных данных, двоичные данные - это номинальные данные, то есть они представляют качественно разные значения, которые нельзя сравнивать численно. Однако двоичные данные часто преобразуются в данные подсчета, рассматривая одно из двух значений как «успех» и представляя результаты как 1 или 0, что соответствует подсчету количества успешных результатов в одном испытании: 1 (успех) или 0 (неудача); см. § Подсчет.

Часто двоичные данные используются для представления одного из двух концептуально противоположных значений, например:

результат эксперимента («успех» или «неудача»)
ответ на вопрос «да-нет» («да» или «нет»)
наличие или отсутствие какой-либо особенности («присутствует» или «нет»)
правда или ложь предложения («истина» или «ложь», «правильный» или «неправильный»)

Однако его также можно использовать для данных, которые, как предполагается, имеют только два возможных значения, даже если они концептуально не противоречат друг другу или концептуально представить все возможные значения в пространстве. Например, двоичные данные часто используются для представления партийного выбора избирателей на выборах в США, т. Е. республиканец или демократический. В этом случае нет никакой внутренней причины, по которой должны существовать только две политические партии, и действительно, в США существуют другие партии, но они настолько незначительны, что их обычно просто игнорируют. Моделирование непрерывных данных (или категориальных данных более чем двух категорий) в качестве двоичной переменной для целей анализа называется дихотомией (создание дихотомии ). Как и вся дискретизация, она включает в себя ошибку дискретизации, но цель состоит в том, чтобы узнать что-то ценное, несмотря на ошибку: рассматривать это как пренебрежимо малую для данной цели, но помня, что в целом нельзя считать его незначительным.

Двоичные переменные

A двоичная переменная - это случайная величина двоичного типа, то есть с двумя возможными значениями. Независимые и одинаково распределенные (i.i.d.) двоичные переменные следуют распределению Бернулли, но в целом двоичные данные не обязательно должны поступать из i.i.d. переменные. Общее количество i.i.d. двоичные переменные (эквивалентно, суммы i.i.d. двоичных переменных, закодированных как 1 или 0) подчиняются биномиальному распределению, но когда двоичные переменные не являются i.i.d., распределение не обязательно должно быть биномиальным.

Подсчет

Подобно категориальным данным, двоичные данные могут быть преобразованы в вектор из счетных данных путем записи одной координаты для каждого возможного значения, и подсчет 1 для значения, которое происходит, и 0 для значения, которое не встречается. Например, если значениями являются A и B, то набор данных A, A, B может быть представлен в счетах как (1, 0), (1, 0), (0, 1). После преобразования в счетчики двоичные данные могут быть сгруппированы и добавлены счетчики. Например, если набор A, A, B сгруппирован, общее количество составляет (2, 1): 2 A и 1 B (из 3 испытаний).

Поскольку существует только два возможных значения, это можно упростить до одного подсчета (скалярного значения), рассматривая одно значение как «успех», а другое как «неудачу», кодируя значение успеха как 1, а для сбоя - 0. Например, если значение A считается «успехом» (и, таким образом, B считается «неудачей»), набор данных A, A, B будет представлен как 1, 1, 0. Когда они сгруппированы, значения добавлены, а количество испытаний обычно отслеживается неявно. Например, A, A, B будут сгруппированы как 1 + 1 + 0 = 2 успешных (из $n = 3 {\ displaystyle n = 3}$ $n = 3$ }} испытаний). Иначе говоря, подсчитайте данные с помощью $n = 1 {\ displaystyle n = 1}$ $n = 1$ - это двоичные данные, причем два класса - 0 (сбой) или 1 (успех).

Подсчет i.i.d. двоичные переменные следуют биномиальному распределению, где $n {\ displaystyle n}$ $n$ - общее количество испытаний (точки в сгруппированных данных).

Регрессия

Регрессионный анализ прогнозируемых результатов, которые являются двоичными переменными, известен как двоичная регрессия ; когда двоичные данные преобразуются в данные подсчета и моделируются как i.i.d. переменных (чтобы они имели биномиальное распределение), можно использовать биномиальную регрессию. Наиболее распространенными методами регрессии для двоичных данных являются логистическая регрессия, пробит-регрессия или родственные типы моделей двоичного выбора.

Аналогично подсчет i.i.d. категориальные переменные с более чем двумя категориями можно моделировать с помощью полиномиальной регрессии. Количество не-i.i.d. двоичные данные можно моделировать более сложными распределениями, такими как бета-биномиальное распределение (составное распределение ). В качестве альтернативы, взаимосвязь может быть смоделирована без необходимости явно моделировать распределение выходной переменной с использованием методов из обобщенных линейных моделей (GLM), таких как квазивероятность и квазибиномиальная модель; см. Чрезмерная дисперсия § Биномиальное.

В информатике

A двоичное изображение QR-кода, представляющее 1 бит на пиксель, в отличие от типичного 24-битного истинного цвет изображение.

В современных компьютерах двоичные данные относятся к любым данным, представленным в двоичной форме, а не интерпретируемым на более высоком уровне или преобразованным в какую-либо другую форму. На самом низком уровне биты хранятся в бистабильном устройстве, таком как триггер. Хотя большинство двоичных данных имеют символическое значение (кроме не имеет значения ), не все двоичные данные являются числовыми. Некоторые двоичные данные соответствуют компьютерным инструкциям, такие как данные в регистрах процессора, декодированные блоком управления в течение цикла выборки-декодирования-выполнения. Компьютеры редко изменяют отдельные биты по соображениям производительности. Вместо этого данные выровнены в группах с фиксированным количеством битов, обычно 1 байт (8 бит). Следовательно, «двоичные данные» в компьютерах на самом деле представляют собой последовательности байтов. На более высоком уровне доступ к данным осуществляется группами по 1 слову (4 байта) для 32-битных систем и 2 слова для 64-битных систем.

В прикладной информатике и в области информационных технологий термин двоичные данные часто противопоставляется текстовым данным, относящимся к любому виду данных, которые нельзя интерпретировать как текст. Различие между «текстом» и «двоичным» иногда может относиться к семантическому содержанию файла (например, письменный документ или цифровое изображение ). Однако это часто относится конкретно к тому, могут ли отдельные байты файла интерпретироваться как текст (см. кодировка символов ) или не могут быть интерпретированы таким образом. Когда подразумевается это последнее значение, иногда используются более конкретные термины двоичный формат и текстовый (ual) формат. Семантически текстовые данные могут быть представлены в двоичном формате (например, в сжатом виде или в определенных форматах, которые смешивают различные виды кодов форматирования, как в формате DOC, используемом Microsoft Word ); напротив, данные изображения иногда представлены в текстовом формате (например, формат изображения X PixMap, используемый в системе X Window ).

См. Также

Ссылки