Электронный текст

редактировать

электронный текст (от «электронный текст»; иногда записывается как электронный текст ) - это общий термин для любого документа, который читается в цифровой форме, и особенно документа, который в основном является текстом. Например, компьютерная книга по искусству с минимальным количеством текста или набором фотографий или сканированных страниц обычно не называется «электронным текстом». Этот термин обычно является синонимом электронной книги.

. Электронный текст может быть двоичным или простым текстовым файлом, просматриваемым с любым открытым исходным кодом или проприетарное программное обеспечение. Электронный текст может иметь разметку или другую информацию форматирования или нет.

Электронный текст может быть электронным изданием произведения, изначально составленного или опубликованного на других носителях, или может быть изначально создан в электронной форме.

Содержание
  • 1 Источники электронного текста
  • 2 «Простой текст»
  • 3 См. Также
  • 4 Ссылки
  • 5 Внешние ссылки
Источники электронного текста

Электронные тексты, или электронные документы, появились задолго до Интернета, Интернета и специализированного оборудования для чтения электронных книг. Роберто Буса начал разработку электронного издания Аквинского в 1940-х годах, в то время как крупномасштабные платформы электронного редактирования текста, гипертекста и онлайн-чтения, такие как Augment и FRESS появился в 1960-х годах. Эти ранние системы широко использовали форматирование, разметку, автоматические оглавления, гиперссылки и другую информацию в своих текстах, а также в некоторых случаях (например, FRESS) не поддерживали только текст, но также и графика.

«Просто текст»

В некоторых сообществах «электронный текст» используется гораздо более узко, для обозначения электронных документов, которые, так сказать, "простой ванильный ASCII ". Под этим подразумевается не только то, что документ представляет собой файл с простым текстом, но и то, что в нем нет никакой информации, кроме «самого текста» - без выделения жирным шрифтом или курсивом, границ абзаца, страницы, главы или сноски. и т.д. Майкл С. Харт, например, утверждал, что это «единственный текстовый режим, который удобен как для глаз, так и для компьютера». Харт правильно указал, что проприетарные форматы текстовых процессоров делают тексты совершенно недоступными; но это не имеет отношения к стандартным форматам открытых данных. Узкий смысл «электронного текста» сейчас необычен, потому что понятие «просто ванильный ASCII» (привлекательный на первый взгляд) вызывает серьезные трудности:

Во-первых, этот узкий тип « электронный текст »ограничен английскими буквами. Ни даже испанский - или гласные с ударением, используемые во многих европейских языках, не могут быть представлены (если только это неуклюже и двусмысленно, как «~ n» «a '»). Азиатская, славянская, греческая и другие системы письма невозможны.

Во-вторых, диаграммы и изображения не могут быть размещены, и во многих книгах есть хотя бы некоторый такой материал; часто это важно для книги.

В-третьих, «электронные тексты» в этом узком смысле не имеют надежного способа отличить «текст» от других вещей, встречающихся в произведении. Например, номера страниц, заголовки и сноски могут быть опущены или могут просто отображаться как дополнительные строки текста, возможно, с пустыми строками до и после (или нет). Вместо этого декоративная разделительная линия может быть представлена ​​линией звездочек (или нет). Заголовки глав и разделов также представляют собой просто дополнительные строки текста: их можно было бы определить по заглавным буквам, если бы в оригинале они были заглавными (или нет). Даже для того, чтобы узнать, какие соглашения (если таковые имеются) использовались, каждая книга превращается в новое исследование или проект обратной инженерии.

Вследствие этого такие тексты нельзя надежно переформатировать. Программа не может достоверно сказать, где находятся сноски, верхние или нижние колонтитулы или, возможно, даже абзацы, поэтому она не может переупорядочить текст, например, чтобы он соответствовал более узкому экрану, или прочитать его вслух для слабовидящих. Программы могут применять эвристику, чтобы угадать структуру, но это может легко потерпеть неудачу.

Четвертый и, возможно, удивительно важный вопрос, электронный текст «в виде обычного текста» не дает возможности представить информацию о произведении. Например, это первое или десятое издание? Кто его подготовил, и какие права они оставляют за собой или передают другим? Это необработанная версия прямо со сканера или она была проверена и исправлена? Метаданные, относящиеся к тексту, иногда включаются в электронный текст, но по этому определению нет способа сказать, заданы ли они заранее или где. В лучшем случае текст титульного листа может быть включен (или не включен), возможно, с центрированием, имитируемым отступом.

В-пятых, тексты с более сложной информацией вообще невозможно обработать. Двуязычное издание или критическое издание со сносками, комментариями, критическим аппаратом, перекрестными ссылками или даже простейшими таблицами. Это приводит к бесконечным практическим проблемам: например, если компьютер не может надежно различать сноски, он не может найти фразу, которую прерывает сноска.

Даже необработанный сканер OCR вывод обычно дает больше информации, чем это, например, использование полужирного шрифта и курсива. Если эта информация не сохраняется, восстановление ее требует больших затрат времени и средств; более сложная информация, например, какая у вас версия, может быть вообще не восстановлена.

Если на самом деле, даже в «обычном тексте» используется какая-то «разметка» - обычно управляющие символы, пробелы, табуляции и т. П.: Пробелы между словами; два возврата и 5 пробелов для абзаца. Основное отличие от более формальной разметки состоит в том, что в «простых текстах» используются неявные, обычно недокументированные соглашения, которые поэтому непоследовательны и трудны для распознавания.

Узкий смысл электронного текста как «простого ванильного ASCII» упал в немилости. Тем не менее, многие такие тексты находятся в свободном доступе в Интернете, возможно, в той же степени, потому что их легко создать, или в силу любого предполагаемого преимущества переносимости. В течение многих лет Проект Гутенберг сильно поддерживал эту модель текста, но со временем начал разрабатывать и распространять более функциональные формы, такие как HTML.

См. Также
Ссылки
Внешние ссылки
Последняя правка сделана 2021-05-18 13:43:25
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте