Текстовый файл

редактировать
Компьютерный файл, содержащий простой текст
Текстовый файл
Text-txt. svg
Расширение имени файла .txt
Тип интернет-носителя текст / простой
Код типа ТЕКСТ
Uniform Type Identifier (UTI) public.plain-text
UTI conformationpublic.text
Тип форматаФормат файла документа, Универсальный контейнер формат

A текстовый файл (иногда пишется текстовый файл ; старое альтернативное имя - плоский файл ) - это разновидность компьютерного файла, который имеет структуру последовательность строк из электронного текста. Существует текстовый файл , хранящийся как данные в компьютерной файловой системе. В таких операционных системах, как CP / M и MS-DOS, где операционная система не отслеживает размер файла в байтах, конец текстового файла обозначается помещением один или несколько специальных символов, известных как маркер конца файла, как заполнение после последней строки в текстовом файле. В современных операционных системах, таких как Microsoft Windows и Unix-подобные системы, текстовые файлы не содержат каких-либо специальных символов EOF, поскольку файловые системы в этих операционных системах отслеживают размер файла в байты. Для большинства текстовых файлов необходимо иметь разделители end-of-line , которые выполняются несколькими способами в зависимости от операционной системы. Некоторые операционные системы с ориентированными на записи файловыми системами могут не использовать новые разделители строк и будут в основном хранить текстовые файлы с разделенными строками как записи фиксированной или переменной длины.

«Текстовый файл» относится к типу контейнера, а обычный текст относится к типу содержимого.

На общем уровне описания существует два типа компьютерных файлов: текстовые файлы и двоичные файлы.

Содержание
  • 1 Хранение данных
  • 2 Кодирование
  • 3 Форматы
    • 3.1 Текстовые файлы Microsoft Windows
    • 3.2 Текстовые файлы Unix
    • 3.3 Текстовые файлы Apple Macintosh
  • 4 Рендеринг
  • 5 См. Также
  • 6 Примечания и ссылки
  • 7 Внешние ссылки
Данные storage
Стилизованное графическое изображение CSV -форматированного текстового файла .

Из-за своей простоты текстовые файлы обычно используются для хранения информации. Они позволяют избежать некоторых проблем, возникающих с другими форматами файлов, таких как порядок байтов, байты заполнения или различия в количестве байтов в машинном слове . Кроме того, когда повреждение данных происходит в текстовом файле, часто бывает проще восстановить и продолжить обработку оставшегося содержимого. Недостатком текстовых файлов является то, что они обычно имеют низкую энтропию, что означает, что информация занимает больше места для хранения, чем это строго необходимо.

Простой текстовый файл может не нуждаться в дополнительных метаданных (кроме знания его набора символов ), чтобы помочь читателю в интерпретации. Текстовый файл может вообще не содержать данных, что является случаем файла с нулевым байтом.

Кодировка

Набор символов ASCII является наиболее распространенным совместимым подмножеством символов. задается для текстовых файлов на английском языке и обычно считается форматом файла по умолчанию во многих ситуациях. Он охватывает американский английский, но для британского знака фунта, знака евро или символов, используемых за пределами английского языка, необходимо использовать более богатый набор символов. Во многих системах это выбирается на основе настройки локали по умолчанию на компьютере, с которого выполняется чтение. До UTF-8 это были традиционно однобайтовые кодировки (например, от ISO-8859-1 до ISO-8859-16 ) для европейских языков и широкие символы кодировки для азиатских языков.

Поскольку кодировки обязательно имеют только ограниченный набор символов, часто очень маленький, многие из них могут использоваться только для представления текста в ограниченном подмножестве человеческих языков. Unicode - это попытка создать общий стандарт для представления всех известных языков, а наиболее известные наборы символов являются подмножествами очень большого набора символов Unicode. Хотя для Unicode доступно несколько кодировок символов, наиболее распространенной является UTF-8, которая имеет преимущество обратной совместимости с ASCII; то есть каждый текстовый файл ASCII также является текстовым файлом UTF-8 с идентичным значением. UTF-8 также имеет то преимущество, что легко обнаруживается автоматически. Таким образом, общий режим работы программного обеспечения, поддерживающего UTF-8, при открытии файлов с неизвестной кодировкой - сначала попробовать UTF-8 и вернуться к устаревшей кодировке, зависящей от локали, если это определенно не UTF-8.

Форматы

В большинстве операционных систем текстовый файл имени относится к формату файла, который допускает только текстовый контент с очень небольшим форматированием (например, без полужирный или курсив шрифты). Такие файлы можно просматривать и редактировать на текстовых терминалах или в Simple. Текстовые файлы обычно имеют тип MIME text / plain, обычно с дополнительной информацией, указывающей кодировку.

Текстовые файлы Microsoft Windows

MS-DOS и Microsoft Windows используют общий формат текстового файла, в котором каждая строка текста разделена комбинацией из двух символов: возврат каретки (CR) и перевод строки (LF). Обычно последняя строка текста не заканчивается маркером CR-LF, и многие текстовые редакторы (включая Блокнот ) не вставляют его автоматически в последнюю строку.

В операционных системах Microsoft Windows файл рассматривается как текстовый файл, если суффикс имени файла («расширение имени файла ») равен .txt. Однако многие другие суффиксы используются для текстовых файлов с определенными целями. Например, исходный код компьютерных программ обычно хранится в текстовых файлах с суффиксами к именам файлов, указывающими на язык программирования, на котором написан исходный текст.

В большинстве текстовых файлов Microsoft Windows используется кодировка «ANSI», «OEM», «Unicode» или «UTF-8». То, что в терминологии Microsoft Windows называется «кодировкой ANSI», обычно является однобайтовой кодировкой ISO / IEC 8859 (т.е. ANSI в меню Microsoft Notepad на самом деле является «системной кодовой страницей», не-Unicode, устаревшей кодировкой), за исключением для таких языков, как китайский, японский и корейский, для которых требуются двухбайтовые наборы символов. Кодировки ANSI традиционно использовались как языковые стандарты системы по умолчанию в Microsoft Windows до перехода на Unicode. В отличие от этого, OEM-кодировки, также известные как кодовые страницы DOS, были определены IBM для использования в исходной системе отображения текстового режима IBM PC. Обычно они включают в себя графические символы и символы, рисующие линии, обычные в приложениях DOS. Текстовые файлы Microsoft Windows с кодировкой «Unicode» содержат текст в UTF-16 формате преобразования Unicode. Такие файлы обычно начинаются с метки порядка байтов (BOM), которая сообщает порядок байтов содержимого файла. Хотя UTF-8 не имеет проблем с порядком следования байтов, многие программы Microsoft Windows (например, Блокнот) добавляют к содержимому файлов в кодировке UTF-8 спецификацию, чтобы отличить кодировку UTF-8 от других 8-битных кодировок.

Текстовые файлы Unix

В Unix-подобных операционных системах формат текстовых файлов точно описан: POSIX определяет текстовый файл как файл, содержащий символы, сгруппированные в ноль или больше строк, где строки представляют собой последовательности из нуля или более символов, отличных от новой строки, плюс завершающий символ новой строки, обычно LF.

Кроме того, POSIX определяет файл для печати как текстовый файл, символы которого можно печатать, пробелами или обратными пробелами в соответствии с региональными правилами. Это исключает большинство управляющих символов, которые не печатаются.

Текстовые файлы Apple Macintosh

До появления Mac OS X (теперь называется macOS) классическая система Mac OS считала содержимое файла (ветвь данных) текстовым файлом, когда его ветвь ресурсов указывала, что тип файла был «ТЕКСТ». Строки текстовых файлов Macintosh заканчиваются символами CR.

Будучи сертифицированной Unix, macOS использует формат POSIX для текстовых файлов. Uniform Type Identifier (UTI), используемый для текстовых файлов в macOS, - "public.plain-text"; дополнительные, более конкретные UTI: «public.utf8-plain-text» для текста в кодировке utf-8, «public.utf16-external-plain-text» и «public.utf16-plain-text» для utf-16- закодированный текст и "com.apple.traditional-mac-plain-text" для классических текстовых файлов Mac OS.

Рендеринг

При открытии текстовым редактором удобочитаемое содержимое отображается в Пользователь. Часто это простой текст файла, видимый пользователю. В зависимости от приложения управляющие коды могут отображаться либо как буквальные инструкции, выполняемые редактором, либо как видимые escape-символы , которые можно редактировать как обычный текст. Хотя в текстовом файле может быть простой текст, управляющие символы в файле (особенно символ конца файла) могут отображать простой текст, невидимый определенным методом.

См. Также
Примечания и ссылки
Внешние ссылки
Последняя правка сделана 2021-06-10 03:38:52
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте