В информатике и компьютерном программировании, тип данных или просто тип - это атрибут data, который сообщает компилятору или интерпретатору, как программист намеревается использовать данные. Большинство языков программирования поддерживают базовые типы данных: целые числа (разного размера), числа с плавающей запятой (которые приблизительно соответствуют действительным числам), символы и Логические. Тип данных ограничивает значения, которые может принимать выражение, например переменная или функция. Этот тип данных определяет операции, которые могут быть выполнены с данными, значение данных и способ сохранения значений этого типа. Тип данных предоставляет набор значений, из которых выражение (например, переменная, функция и т. Д.) Может принимать свои значения.
Типы данных используются внутри типа системы, которые предлагают различные способы их определения, реализации и использования. Различные системы типов обеспечивают различную степень безопасности типов.
. Почти все языки программирования явно включают понятие типа данных, хотя в разных языках может использоваться разная терминология.
Общие типы данных включают:
Например, в Java язык программирования, тип int представляет собой набор 32-битных целых чисел в диапазоне значений от -2 147 483 648 до 2 147 483 647, а также операции, которые могут выполняться с целыми числами, такие как сложение, вычитание и умножение. С другой стороны, цвет может быть представлен тремя байтами , обозначающими количество красного, зеленого и синего цветов, и строкой, представляющей имя цвета.
Большинство языков программирования также позволяют программисту определять дополнительные типы данных, обычно путем объединения нескольких элементов других типов и определения допустимых операций для нового типа данных. Например, программист может создать новый тип данных с именем «комплексное число », который будет включать действительные и мнимые части. Тип данных также представляет собой ограничение, накладываемое на интерпретацию данных в системе типов , описывая представление, интерпретацию и структуру значений или объектов, хранящихся в памяти компьютера.. Система типов использует информацию о типе данных для проверки правильности компьютерных программ, которые обращаются к данным или манипулируют ими.
Большинство типов данных в статистике имеют сравнимые типы в компьютерном программировании и наоборот, как показано в следующей таблице:
Статистика | Программирование |
---|---|
с действительным знаком ( шкала интервалов ) | с плавающей запятой |
с действительным знаком (шкала отношения ) | |
счетные данные (обычно неотрицательные) | целые |
двоичные данные | логическое |
категориальные данные | перечислимый тип |
случайный вектор | список или массив |
случайная матрица | двумерный массив |
случайное дерево | дерево |
(Parnas, Shore Weiss 1976) идентифицировали пять определений «типа», которые использовались - иногда неявно - в литературе. Типы, включая поведение, более точно соответствуют объектно-ориентированные модели, тогда как модель структурного программирования, как правило, не включает код и называются простыми старыми структурами данных.
. Пять типов:
Определение в терминах представления часто выполнялось в императивных языках, таких как как ALGOL и Pascal, тогда как определение в терминах пространства значений и поведения использовалось в языках более высокого уровня, таких как Simula и CLU.
Примитивные типы данных обычно являются типами, встроенными или базовыми для языковой реализации.
Все данные в компьютерах на базе цифровой электроники представлены как биты (варианты 0 и 1) на самом низком уровне. Наименьшая адресуемая единица данных обычно представляет собой группу битов, называемую байтом (обычно октетом, который составляет 8 бит). Единица, обрабатываемая инструкциями машинного кода , называется словом (по состоянию на 2011 год, обычно 32 или 64 бита). Большинство инструкций интерпретируют слово как двоичное число, так что 32-битное слово может представлять беззнаковые целые числа от 0 до или целые числа со знаком от до . Поскольку дополняет до двух, машинному языку и машине по большей части не нужно различать эти беззнаковые и подписанные типы данных.
В числах с плавающей запятой, используемых для арифметических операций с плавающей запятой, используется другая интерпретация битов в слове. Подробнее см. Арифметика с плавающей запятой.
Типы машинных данных должны быть открыты или сделаны доступными в системах или языках программирования низкого уровня, чтобы обеспечить точный контроль над оборудованием. Например, язык программирования C предоставляет целочисленные типы различной ширины, такие как short
и long
. Если соответствующий собственный тип не существует на целевой платформе, компилятор разбивает их на код, используя типы, которые действительно существуют. Например, если 32-битное целое число запрашивается на 16-битной платформе, компилятор будет молчаливо рассматривать его как массив из двух 16-битных целых чисел.
В программировании более высокого уровня типы машинных данных часто скрыты или абстрагируются как детали реализации, которые сделают код менее переносимым в случае их раскрытия. Например, общий тип numeric
может быть предоставлен вместо целых чисел определенной разрядности.
Логический тип представляет значения true и false. Хотя возможны только два значения, они редко реализуются как одна двоичная цифра по соображениям эффективности. Многие языки программирования не имеют явного логического типа, вместо этого интерпретируя (например) 0 как ложь, а другие значения как истину. Логические данные относятся к логической структуре того, как язык интерпретируется на машинном языке. В этом случае логический 0 относится к логике False. Истина всегда ненулевой, особенно такой, который известен как логическое 1.
Перечислимый тип имеет разные значения, которые можно сравнивать и присваивать, но которые не обязательно имеют какое-либо конкретное представление в памяти компьютера; компиляторы и интерпретаторы могут представлять их произвольно. Например, четыре масти в колоде игральных карт могут быть четырьмя счетчиками с именами КЛУБ, АЛМАЗ, СЕРДЦЕ, ЛОПАТА, принадлежащими пронумерованному типу с именем масть. Если переменная V объявляется с костюмом в качестве типа данных, ей можно присвоить любое из этих четырех значений. Некоторые реализации позволяют программистам присваивать целочисленные значения значениям перечисления или даже рассматривать их как эквивалентные целым числам по типу.
Например:
беззнаковый
в C и C ++). Может также иметь небольшое количество предопределенных подтипов (например, short
и long
в C / C ++); или позволить пользователям свободно определять поддиапазоны, такие как 1..12 (например, Pascal / Ada ).Составные типы являются производными от нескольких примитивных типов. Это можно сделать разными способами. объединяются, называются структурами данных. Составление примитивного типа в составной тип обычно приводит к новому типу, например Целочисленный массив - это тип, отличный от целого.
Возможны многие другие, но они, как правило, являются дополнительными вариациями и составными частями вышеизложенного. Например, связанный список может хранить те же данные, что и массив, но обеспечивает последовательный доступ, а не случайный, и состоит из записей в динамической памяти ; хотя, возможно, это структура данных, а не тип как таковой, он также является достаточно общим и достаточно отчетливым, поэтому включение его в обсуждение составных типов может быть оправдано.
Например:
Символьные и строковые типы могут хранить последовательности символов из набора символов, такого как ASCII. Поскольку большинство наборов символов включает в себя цифры и, возможна числовая строка, например "1234"
. Однако многие языки рассматривают их как принадлежащие к другому типу числового значения 1234
.
Символьные и строковые типы могут иметь разные подтипы в соответствии с требуемой «шириной» символа. Исходный 7-битный ASCII оказался ограниченным и был заменен 8- и 16-битными наборами, которые могут кодировать широкий спектр нелатинских алфавитов (таких как иврит и китайский ) и другие символы. Строки могут быть растянутыми по размеру или иметь фиксированный размер, даже на одном языке программирования. Они также могут быть разделены на подтипы по их максимальному размеру.
Примечание. Строки не являются примитивным типом данных во всех языках. Например, в C они состоят из массива символов.
Любой тип данных, который не распространяется на конкретное представление данных, является абстрактным типом данных. Вместо этого для его описания используется формальная спецификация, основанная на операциях с типом данных. Любая реализация спецификации должна соответствовать приведенным правилам. Абстрактные типы данных используются в формальной семантике и программной верификации и, менее строго, в проекте.
Помимо верификации, спецификация может быть немедленно превращена в реализацию. Семейство языков программирования OBJ, например, основывается на этой опции, используя уравнения для спецификации и переписывая для их выполнения. Алгебраическая спецификация была важным предметом исследований в CS примерно в 1980 году и почти синонимом абстрактных типов данных в то время. Он имеет математическую основу в Универсальной алгебре. Язык спецификации можно сделать более выразительным, допустив другие формулы, а не только уравнения.
Типичным примером является иерархия типов данных list, bag и set. Все эти типы данных могут быть объявлены с помощью трех операций: null, который создает пустой контейнер, single, который создает контейнер из одного элемента, и append, который объединяет два контейнера одного типа. Полная спецификация для трех типов данных может быть затем дана с помощью следующих правил для этой операции:
- null является левым и правым нейтральным: | append (null, A) = A, append (A, null) = A. |
- для списка добавление ассоциативно: | append (append (A, B), C) = append (A, append (B, C)). |
- мешки добавляют коммутативность: | append (B, A) = append (A, B). |
- наконец, набор также идемпотентен: | append (A, A) = A. |
Доступ к данным может быть указан, например, функция-член для этих контейнеров:
- member (X, single (Y)) = eq (X, Y) |
- member (X, null) = false |
- member (X, append ( A, B)) = or (member (X, A), member (X, B)) |
Типы могут быть основаны на базовых типах, описанных выше, или производных от них. В некоторых языках, таких как C, функции имеют тип, производный от типа их возвращаемого значения.
Основным несоставным производным типом является указатель , тип данных, значение которого относится непосредственно к (или «указывает») другому значению, хранящемуся в другом месте в компьютерной памяти, используя его адрес. Это примитивный вид ссылки. (В повседневном понимании номер страницы в книге можно рассматривать как часть данных, которая относится к другой). Указатели часто хранятся в формате, похожем на целое число; однако попытка разыменования или "поиска" указателя, значение которого никогда не было допустимым адресом памяти, приведет к сбою программы. Чтобы решить эту потенциальную проблему, указатели считаются отдельным типом по сравнению с типом данных, на которые они указывают, даже если базовое представление такое же.
Хотя функциям также может быть назначен тип, их тип не считается типом данных в настройках этой статьи. Здесь данные рассматриваются в отличие от алгоритмов . В программировании функции сильно связаны с последним. Но поскольку центральным мотивом универсальной обработки данных является то, что алгоритмы могут быть представлены как данные, например текстовое описание и бинарные программы, контраст данных и функций имеет свои пределы. И наоборот, функции также могут использоваться для кодирования данных. Многие современные системы типов сильно сосредотачиваются на типах функций, и многие современные языки конструируют функции как первоклассных граждан.
. Концептуальное исключение функций из предмета - не редкость в связанных областях. Логика предиката, например, не позволяет применять кванторы ни к функциям, ни к именам предикатов.
Некоторые языки программирования представляют информацию о типе в виде данных, что позволяет самоанализ типа и отражение. Напротив, системы типов более высокого порядка, позволяя конструировать типы из других типов и передавать их через функции, как если бы они были значениями, обычно избегают базового вычислительного решения по ним.
Для удобства языки высокого уровня могут предоставлять готовые типы данных «реального мира», например время, даты, денежные значения и память, даже если язык позволяет это строиться из примитивных типов.
A Система типов связывает типы с вычисленными значениями. Исследуя поток этих значений, система типов пытается доказать, что ошибок типа не может быть. Рассматриваемая система типов определяет, что составляет ошибку типа, но система типов обычно стремится гарантировать, что операции, ожидающие определенного вида значения, не используются со значениями, для которых эта операция не имеет смысла.
A компилятор может использовать статический тип значения, чтобы оптимизировать необходимое ему хранилище и выбрать алгоритмы для операций со значением. Во многих компиляторах C тип данных float
, например, представлен в 32 битах в соответствии со спецификацией IEEE для одинарной точности с плавающей точкой. номера точек. Таким образом, они будут использовать специфичные для операций с плавающей запятой микропроцессорные операции с этими значениями (сложение с плавающей запятой, умножение и т. Д.).
Глубина ограничений типа и способ их оценки влияют на типизацию языка. язык программирования может дополнительно связывать операцию с различными конкретными алгоритмами для каждого типа в случае полиморфизма типа . Теория типов - это исследование систем типов, хотя конкретные системы типов языков программирования происходят из практических вопросов компьютерной архитектуры, реализации компилятора и проектирования языков.
Системы типов могут быть различными: статическим или динамическим, строгим, или слабым типированием, и т. Д.