Неопределенное поведение

редактировать

В компьютерном программировании, неопределенное поведение (UB) является результатом выполнения программы, поведение предписывается как непредсказуемое в спецификации языка, которой придерживается компьютерный код. Это отличается от неопределенного поведения, для которого спецификация языка не предписывает результат и поведение, определяемое реализацией, которое относится к документации другого компонента платформы платформы (например, ABI или документацию по переводчику ).

В сообществе C неопределенное поведение может быть юмористически названо «назальные демоны » после сообщения comp.std.c в котором поведение undefined объясняется тем, что компилятор может делать все, что он захочет, даже «заставить демонов вылетать из вашего носа».

Содержание
  • 1 Обзор
  • 2 Преимущества
  • 3 Риски
  • 4 Примеры в C и C ++
  • 5 См. также
  • 6 Ссылки
  • 7 Дополнительная литература
  • 8 Внешние ссылки
Обзор

Некоторые языки программирования позволяют программе работают иначе или даже имеют другой поток управления, чем исходный код , если он демонстрирует те же видимые пользователем побочные эффекты, если неопределенное поведение никогда не происходит во время выполнения программы. Неопределенное поведение - это название списка условий, которым программа не должна соответствовать.

В ранних версиях C основным преимуществом неопределенного поведения было создание эффективных компиляторов для самых разных машин: конкретная конструкция могла быть сопоставлена ​​с машинно-зависимая функция, и компилятору не нужно было генерировать дополнительный код для среды выполнения, чтобы адаптировать побочные эффекты в соответствии с семантикой, налагаемой языком. Исходный код программы был написан с предварительным знанием конкретного компилятора и платформ, которые он будет поддерживать.

Однако прогрессивная стандартизация платформ сделала это меньшим преимуществом, особенно в новых версиях C.Теперь случаи неопределенного поведения обычно представляют собой однозначные ошибки в коде для пример индексации массива за его пределами. По определению среда выполнения может предполагать, что неопределенное поведение никогда не происходит; следовательно, нет необходимости проверять некоторые недопустимые условия. Для компилятора это также означает, что различные программные преобразования становятся действительными или упрощаются их доказательства правильности; это допускает различные виды преждевременной оптимизации и, которые приводят к некорректному поведению, если состояние программы соответствует любому из таких условий. Компилятор может также удалить явные проверки, которые могли быть в исходном коде, без уведомления программиста; например, обнаружение неопределенного поведения путем проверки того, произошло ли оно, по определению не гарантирует работы. Это делает трудным или невозможным программирование переносимого отказоустойчивого варианта (для некоторых конструкций возможны непереносимые решения).

Текущая разработка компилятора обычно оценивает и сравнивает производительность компилятора с тестами, разработанными для микрооптимизации, даже на платформах, которые в основном используются на рынке настольных компьютеров и портативных компьютеров общего назначения (например, amd64). Следовательно, неопределенное поведение предоставляет достаточно возможностей для повышения производительности компилятора, поскольку исходный код для конкретного оператора исходного кода может быть сопоставлен с чем угодно во время выполнения.

Для C и C ++ компилятору разрешено давать диагностику времени компиляции в этих случаях, но это не обязательно: реализация будет считаться правильной независимо от того, что она делает в таких случаях, аналогично безразличные термины в цифровой логике. Программист несет ответственность за написание кода, который никогда не вызывает неопределенное поведение, хотя реализациям компилятора разрешено выдавать диагностику, когда это происходит. В настоящее время у компиляторов есть флаги, которые включают такую ​​диагностику, например, -fsanitizeвключает «дезинфицирующее средство неопределенного поведения» () в gcc 4.9 и в clang. Однако этот флаг не установлен по умолчанию, и его включение - это выбор того, кто собирает код.

При некоторых обстоятельствах могут быть определенные ограничения на неопределенное поведение. Например, спецификации набора инструкций для CPU могут оставить поведение некоторых форм инструкций неопределенным, но если CPU поддерживает защиту памяти, тогда спецификация вероятно, будет включать общее правило, утверждающее, что никакая доступная пользователю инструкция не может вызвать брешь в безопасности операционной системы ; поэтому фактическому процессору будет разрешено повреждать пользовательские регистры в ответ на такую ​​инструкцию, но ему не разрешено, например, переключаться в режим супервизора.

Среда выполнения платформа также может предоставить некоторые ограничения или гарантии неопределенного поведения, если набор инструментов или среда выполнения явно документируют, что определенные конструкции, найденные в исходном коде, отображаются на конкретные четко определенные механизмы доступно во время выполнения. Например, интерпретатор может задокументировать определенное поведение для некоторых операций, которые не определены в спецификации языка, в то время как другие интерпретаторы или компиляторы для того же языка не могут. Компилятор создает исполняемый код для определенного ABI, заполняя семантический пробел способами, которые зависят от версии компилятора: документация для эта версия компилятора и спецификация ABI могут предоставлять ограничения на неопределенное поведение. Опираясь на эти детали реализации, программное обеспечение становится не- переносимым, однако переносимость может не быть проблемой, если программное обеспечение не предполагается использовать вне определенного времени выполнения.

Неопределенное поведение может привести к сбою программы или даже к сбоям, которые труднее обнаружить и которые заставят программу выглядеть так, как будто она работает нормально, например, тихая потеря данных и получение неверных результатов.

Преимущества

Документирование операции как неопределенного поведения позволяет компиляторам предполагать, что эта операция никогда не произойдет в соответствующей программе. Это дает компилятору больше информации о коде, и эта информация может открыть больше возможностей для оптимизации.

Пример для языка C:

int foo (unsigned char x) {int value = 2147483600; / * предполагается 32-битное int и 8-битное char * / value + = x; if (value < 2147483600) bar(); return value; }

Значение xне может быть отрицательным, и, учитывая, что знаковое целочисленное переполнение является неопределенным поведением в C, компилятор может предположить, что value <2147483600всегда будет ложным. Таким образом, оператор if, включая вызов функции bar, может игнорироваться компилятором, поскольку тестовое выражение в ifне имеет побочных эффектов, и его условие никогда не будет выполнено. Таким образом, код семантически эквивалентен:

int foo (unsigned char x) {int value = 2147483600; value + = x; return value ;}

Если бы компилятор был вынужден предположить, что переполнение целого числа со знаком имеет циклическое поведение, то приведенное выше преобразование не было бы законным.

Такие оптимизации становится трудно обнаружить людям, когда код более сложен и другие оптимизации, такие как встраивание, например, другая функция может вызывать указанную выше функцию:

void run_tasks (unsigned char * ptrx) {int z; z = foo (* ptrx); в то время как (* ptrx>60) {run_one_task (ptrx, z); }}

Компилятор может оптимизировать цикл whileздесь, применив анализ диапазона значений : проверяя foo (), он знает, что начальное значение, на которое указывает ptrx, не может превышать 47 (поскольку любое другое значение вызовет неопределенное поведение в foo ()), поэтому начальная проверка * ptrx>60всегда будет ложным в соответствующей программе. Идя дальше, поскольку результат zтеперь никогда не используется и foo ()не имеет побочных эффектов, компилятор может оптимизировать run_tasks ()как пустую функцию. это немедленно возвращается. Исчезновение цикла whileможет быть особенно неожиданным, если foo ()определен в отдельно скомпилированном объектном файле.

. Еще одно преимущество от разрешения подписанного целочисленного переполнения. undefined заключается в том, что он позволяет хранить и управлять значением переменной в регистре процессора , которое больше размера переменной в исходном коде. Например, если тип переменной, как указано в исходном коде, уже, чем ширина собственного регистра (например, «int » на 64-битной машине, распространенный сценарий), то компилятор может безопасно использовать 64-битное целое число со знаком для переменной в создаваемом им машинном коде без изменения определенного поведения кода. Если программа зависела от поведения 32-битного целочисленного переполнения, то компилятор должен был бы вставить дополнительную логику при компиляции для 64-битной машины, потому что поведение переполнения большинства машинных инструкций зависит от ширины регистра.

Неопределенное поведение также позволяет выполнять больше проверок во время компиляции обоими компиляторами и статический анализ программы.

Риски

Стандарты C и C ++ имеют несколько форм неопределенного поведения повсюду, что обеспечивает повышенную свободу в компиляторе реализации и проверки во время компиляции за счет неопределенного поведения во время выполнения, если оно присутствует. В частности, в стандарте ISO для C есть приложение, в котором перечислены общие источники неопределенного поведения. Более того, компиляторы не обязаны диагностировать код, основанный на неопределенном поведении. Следовательно, программисты, даже опытные, часто полагаются на неопределенное поведение либо по ошибке, либо просто потому, что они плохо разбираются в правилах языка, который может охватывать сотни страниц. Это может привести к ошибкам, которые обнаруживаются при использовании другого компилятора или других настроек. Тестирование или фаззинг с включенными динамическими проверками неопределенного поведения, например, дезинфицирующие средства Clang, могут помочь выявить неопределенное поведение, не диагностируемое компилятором или статическими анализаторами.

Не определено. поведение может привести к уязвимостям безопасности в программном обеспечении. Например, переполнение буфера и другие уязвимости безопасности в основных веб-браузерах происходят из-за неопределенного поведения. Проблема 2038 года - еще один пример из-за переполнения целого числа signed . Когда разработчики GCC изменили свой компилятор в 2008 году так, что он пропустил определенные проверки переполнения, основанные на неопределенном поведении, CERT выдал предупреждение против более новых версий компилятора. Linux Weekly News указывает, что такое же поведение наблюдается в PathScale C, Microsoft Visual C ++ 2005 и нескольких других компиляторах; предупреждение было позже изменено, чтобы предупредить о различных компиляторах.

Примеры в C и C ++

Основные формы неопределенного поведения в C можно в целом классифицировать как: нарушения безопасности пространственной памяти, безопасность временной памяти нарушения, целочисленное переполнение, нарушения строгого псевдонима, нарушения выравнивания, неупорядоченные модификации, скачки данных и циклы, которые не производят ввод-вывод и не завершаются.

В C использование любой автоматической переменной до ее инициализации приводит к неопределенному поведению, как и целочисленное деление на ноль, целочисленное переполнение со знаком, индексация массива вне его определенных границ (см. переполнение буфера ) или нулевой указатель разыменование. В общем, любой экземпляр неопределенного поведения оставляет абстрактную исполнительную машину в неизвестном состоянии и приводит к неопределенному поведению всей программы.

Попытка изменить строковый литерал вызывает неопределенное поведение:

char * p = "wikipedia"; // допустимый C, не рекомендуется в C ++ 98 / C ++ 03, плохо сформирован в C ++ 11 p [0] = 'W'; // неопределенное поведение

целое число деление на ноль приводит к неопределенному поведению:

int x = 1; вернуть x / 0; // неопределенное поведение

Некоторые операции с указателями могут привести к неопределенному поведению:

int arr [4] = {0, 1, 2, 3}; int * p = arr + 5; // неопределенное поведение для индексации за пределами p = 0; int a = * p; // неопределенное поведение для разыменования нулевого указателя

В C и C ++ реляционное сравнение указателей с объектами (для сравнения меньше или больше) строго определено, только если указатели указывают на члены одного и того же объекта или элементы одного и того же массива . Пример:

int main (void) {int a = 0; int b = 0; return a < b; /* undefined behavior */ }

Достижение конца функции, возвращающей значение (кроме main ()) без оператора return, приводит к неопределенному поведению, если значение вызова функции используется вызывающим:

int f () {} / * неопределенное поведение, если используется значение вызова функции * /

Изменение объекта между двумя точками последовательности более одного раза приводит к неопределенному поведению. В C ++ 11 произошли значительные изменения в причинах неопределенного поведения по отношению к точкам последовательности. Однако следующий пример приведет к неопределенному поведению в C ++ и C.

i = i ++ + 1; // неопределенное поведение

При изменении объекта между двумя точками последовательности чтение значения объекта для любой другой цели, кроме определения значения для сохранения, также является неопределенным поведением.

a [i] = i ++; // неопределенное поведение printf ("% d% d \ n", ++ n, power (2, n)); // также неопределенное поведение

В C / C ++ побитовое смещение значения на количество битов, которое является либо отрицательным числом, либо больше или равно общему количеству битов в этом значении, приводит к неопределенное поведение. Самый безопасный способ (независимо от производителя компилятора) - всегда сохранять количество бит для сдвига (правый операнд побитовых операторов <<и >> ) в диапазоне: <0, sizeof (значение) * CHAR_BIT - 1>(где значение- левый операнд).

int num = -1; unsigned int val = 1 << num; //shifting by a negative number - undefined behavior num = 32; //or whatever number greater than 31 val = 1 << num; //the literal '1' is typed as a 32-bit integer - in this case shifting by more than 31 bits is undefined behavior num = 64; //or whatever number greater than 63 unsigned long long val2 = 1ULL << num; //the literal '1ULL' is typed as a 64-bit integer - in this case shifting by more than 63 bits is undefined behavior
См. также
Ссылки
Дополнительная литература
Внешние ссылки
Последняя правка сделана 2021-06-20 10:39:22
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте