Прямой доступ к памяти (DMA ) - это функция компьютерных систем, которая позволяет использовать определенные аппаратные подсистемы для доступа к основной системной памяти (оперативной памяти ) независимо от центрального процессора (CPU).
Без DMA, когда ЦП использует запрограммированный ввод / вывод, он обычно полностью занят на протяжении всей операции чтения или записи и, таким образом, недоступен для выполнения другой работы. При использовании DMA ЦП сначала инициирует передачу, затем выполняет другие операции во время передачи и, наконец, получает прерывание от контроллера DMA (DMAC) по завершении операции. Эта функция полезна в любое время, когда ЦП не может поддерживать скорость передачи данных, или когда ЦП должен выполнять работу в ожидании относительно медленной передачи данных ввода-вывода. Многие аппаратные системы используют DMA, включая контроллеры дисководов, графические карты, сетевые карты и звуковые карты. DMA также используется для передачи данных внутри кристалла в многоядерных процессорах. Компьютеры, у которых есть каналы DMA, могут передавать данные на устройства и с них с гораздо меньшей нагрузкой на ЦП, чем компьютеры без каналов DMA. Точно так же обрабатывающий элемент внутри многоядерного процессора может передавать данные в свою локальную память и из нее, не занимая процессорное время, что позволяет выполнять вычисления и передачу данных параллельно.
DMA также может использоваться для копирования «из памяти в память» или перемещения данных в памяти. DMA может выгружать дорогостоящие операции с памятью, такие как большие копии или операции разброс-сборка, с ЦП на выделенный механизм DMA. Примером реализации является Технология ускорения ввода-вывода. DMA представляет интерес в архитектурах сеть на кристалле и вычислений в памяти.
Стандартный DMA, также называемый сторонним DMA, использует DMA контроллер. Контроллер DMA может генерировать адреса памяти и инициировать циклы чтения или записи памяти. Он содержит несколько аппаратных регистров , которые могут быть записаны и прочитаны ЦП. К ним относятся регистр адреса памяти, регистр подсчета байтов и один или несколько регистров управления. В зависимости от того, какие функции предоставляет контроллер DMA, эти регистры управления могут определять некоторую комбинацию источника, пункта назначения, направления передачи (чтение с устройства ввода-вывода или запись в устройство ввода-вывода), размер блок передачи и / или количество байтов для передачи в одном пакете.
Для выполнения операции ввода, вывода или преобразования памяти в память главный процессор инициализирует контроллер прямого доступа к памяти с подсчетом числа из слов для передачи и адреса памяти для использования. Затем ЦП дает команду периферийному устройству инициировать передачу данных. Затем контроллер DMA предоставляет адреса и линии управления чтением / записью в системную память. Каждый раз, когда байт данных готов к передаче между периферийным устройством и памятью, контроллер DMA увеличивает свой внутренний адресный регистр до тех пор, пока не будет передан полный блок данных.
В системе управления шиной, также известной как система прямого доступа к памяти первой стороны, ЦП и периферийные устройства могут получать управление шиной памяти. Если периферийное устройство может стать мастером шины, оно может напрямую записывать в системную память без участия ЦП, обеспечивая адрес памяти и управляющие сигналы по мере необходимости. Должны быть предусмотрены некоторые меры для перевода процессора в состояние удержания, чтобы не возникало конфликта шины.
В пакетном режиме весь блок данных передается в одной непрерывной последовательности. Как только контроллер DMA получает доступ к системной шине со стороны ЦП, он передает все байты данных в блоке данных, прежде чем отдать управление системными шинами обратно ЦП, но делает ЦП неактивным на относительно длительные периоды времени. Этот режим также называется «Режим блочной передачи».
Режим перехвата цикла используется в системах, в которых ЦП не должен отключаться на время, необходимое для режимов пакетной передачи. В режиме перехвата цикла контроллер DMA получает доступ к системной шине так же, как и в пакетном режиме, используя сигналы BR (Bus Request ) и BG (Bus Grant ), которые - это два сигнала, управляющих интерфейсом между ЦП и контроллером прямого доступа к памяти. Однако в режиме перехвата циклов после передачи одного байта данных управление системной шиной деактивируется ЦП через BG. Затем он снова непрерывно запрашивается через BR, передавая по одному байту данных за запрос, пока не будет передан весь блок данных. Постоянно получая и освобождая управление системной шиной, контроллер прямого доступа к памяти чередует передачи инструкций и данных. ЦП обрабатывает инструкцию, затем контроллер DMA передает одно значение данных и так далее. С одной стороны, в режиме перехвата цикла блок данных не передается так быстро, как в пакетном режиме, но, с другой стороны, ЦП не простаивает так долго, как в пакетном режиме. Режим Cycle Stealing полезен для контроллеров, которые отслеживают данные в реальном времени.
Прозрачный режим занимает больше всего времени для передачи блока данных, но он также является наиболее эффективным с точки зрения общей производительности системы. В прозрачном режиме контроллер DMA передает данные только тогда, когда ЦП выполняет операции, не использующие системные шины. Основное преимущество прозрачного режима состоит в том, что ЦП никогда не прекращает выполнение своих программ, а передача DMA бесплатна с точки зрения времени, а недостатком является то, что аппаратное обеспечение должно определять, когда ЦП не использует системные шины, что может быть сложным.. Это также называется «режимом скрытой передачи данных DMA».
DMA может привести к проблемам когерентности кеша. Представьте себе ЦП, оснащенный кэш-памятью и внешней памятью, к которой могут напрямую обращаться устройства, использующие DMA. Когда ЦП обращается к ячейке X в памяти, текущее значение сохраняется в кеше. Последующие операции с X обновят кэшированную копию X, но не версию X во внешней памяти, предполагая, что имеется кэш обратной записи. Если кэш не будет сброшен в память до того, как устройство в следующий раз попытается получить доступ к X, устройство получит устаревшее значение X.
Аналогично, если кэшированная копия X не становится недействительной, когда устройство записывает новое значение в память, после чего ЦП будет работать с устаревшим значением X.
Эту проблему можно решить одним из двух способов при проектировании системы: системы с согласованным кэшированием реализуют метод на оборудовании, называется отслеживанием шины, посредством чего внешние записи передаются контроллеру кеша, который затем выполняет аннулирование кеша для записи DMA или очистку кеша для чтения DMA. Некогерентные системы оставляют это на усмотрение программного обеспечения, где ОС должна затем гарантировать, что строки кэша очищаются до начала исходящей передачи DMA и становятся недействительными до доступа к диапазону памяти, затронутому входящей передачей DMA. ОС должна убедиться, что в это время к диапазону памяти не обращаются никакие запущенные потоки. Последний подход вводит некоторые накладные расходы на операцию DMA, поскольку для большинства аппаратных средств требуется цикл для аннулирования каждой строки кэша по отдельности.
Также существуют гибриды, в которых вторичный кэш L2 является когерентным, а кэш L1 (обычно на CPU) управляется программным обеспечением.
В исходном IBM PC (и последующем PC / XT ) было только один контроллер DMA Intel 8237, способный обеспечить четыре канала DMA (пронумерованные 0–3). Эти каналы DMA выполняли 8-битные передачи (поскольку 8237 был 8-битным устройством, идеально подходящим для архитектуры CPU / шины ПК i8088 ), могли адресовать только первый (i8086 / 8088-standard) мегабайт ОЗУ и были ограничены адресацией отдельных сегментов размером 64 кБ в этом пространстве (хотя исходный и целевой каналы могли адресовать разные сегменты). Кроме того, контроллер можно было использовать только для передачи на устройства ввода-вывода шины расширения, от них или между ними, так как 8237 мог выполнять передачу данных из памяти в память только с использованием каналов 0 и 1, из которых канал 0 на ПК (XT) был выделен для динамической памяти обновления. Это предотвратило его использование в качестве универсального «Blitter », и, следовательно, перемещение блочной памяти на ПК, ограниченное общей скоростью PIO процессора, было очень медленным.
В IBM PC / AT улучшенная AT Bus (более известная как ISA, или «Промышленная стандартная архитектура») добавлен второй контроллер DMA 8237, чтобы обеспечить три дополнительных, и, как было подчеркнуто конфликтами ресурсов с дополнительной возможностью расширения XT по сравнению с исходным ПК, очень необходимых каналов (5–7; канал 4 используется как каскад к первому 8237). Регистр страницы также был изменен для адресации полного адресного пространства памяти 16 Мбайт ЦП 80286. Этот второй контроллер также был интегрирован таким образом, чтобы обеспечивать возможность выполнения 16-битных передач, когда устройство ввода-вывода используется в качестве источника данных и / или назначения (поскольку он фактически обрабатывает данные только для передачи из памяти в память, иначе просто управление потоком данных между другими частями 16-битной системы, делая ширину собственной шины данных относительно несущественной), удваивая пропускную способность при использовании трех верхних каналов. Для совместимости нижние четыре канала DMA по-прежнему были ограничены только 8-битными передачами, и хотя передачи из памяти в память теперь были технически возможны из-за освобождения канала 0 от необходимости обрабатывать обновление DRAM, с практической точки зрения они имели ограниченную ценность из-за связанной с этим низкой пропускной способности контроллера по сравнению с тем, что теперь может достичь ЦП (т.е. 16-битный, более оптимизированный 80286, работающий как минимум на 6 МГц, по сравнению с 8-битным контроллером заблокирован на частоте 4,77 МГц). В обоих случаях проблема с границей сегмента 64 кБ осталась, при этом отдельные передачи не могли пересекать сегменты (вместо этого «зацикливались» на начало того же сегмента) даже в 16-битном режиме, хотя это было в На практике проблема скорее связана со сложностью программирования, чем с производительностью, поскольку постоянная потребность в обновлении DRAM (независимо от его обработки) для монополизации шины примерно каждые 15 мкс предотвращает использование больших (и быстрых, но бесперебойных) передач блоков.
Из-за их отстающей производительности (1,6 МБ / с, максимальная скорость передачи 8-бит на частоте 5 МГц, но не более 0,9 МБ / с на ПК / XT и 1,6 МБ / с для 16-битных передач в AT из-за накладных расходов шины ISA и других помех, таких как прерывания обновления памяти) и недоступности каких-либо классов скорости, которые позволили бы установить прямые замены, работающие на скоростях выше, чем стандартные тактовые частоты 4,77 МГц исходного ПК, эти устройства фактически устарели с конца 1980-х годов. В частности, появление процессора 80386 в 1985 году и его способность к 32-битной передаче (хотя значительные улучшения в эффективности вычисления адресов и блочной памяти перемещаются в ЦП Intel после 80186 означало, что передачи PIO даже по 16-битной шине 286 и 386SX могут легко опередить 8237), а также дальнейшее развитие до (EISA ) или замены (MCA, VLB и PCI ) шины «ISA» с их собственными гораздо более производительными подсистемами DMA (до максимального 33 МБ / с для EISA, 40 МБ / с MCA, обычно 133 МБ / с VLB / PCI) сделали оригинальные контроллеры DMA больше похожими на жернов для производительности, чем на ускоритель. Они поддерживались в той степени, в которой они необходимы для поддержки встроенного устаревшего оборудования ПК на более поздних машинах. Части устаревшего оборудования, которые продолжали использовать ISA DMA после того, как 32-битные шины расширения стали обычным явлением, были карты Sound Blaster, которые должны были поддерживать полную аппаратную совместимость со стандартом Sound Blaster; и устройства Super I / O на материнских платах, которые часто включают встроенный контроллер гибких дисков, инфракрасный контроллер IrDA, когда выбран режим FIR (быстрый инфракрасный порт) и контроллер параллельного порта IEEE 1284, когда выбран режим ECP. В случаях, когда все еще использовались оригинальные 8237 или совместимые с ними устройства, передача на эти устройства или с этих устройств может по-прежнему ограничиваться первыми 16 МБ основной RAM независимо от фактического адресного пространства системы или объема установленной памяти.
Каждый канал DMA имеет 16-битный адресный регистр и 16-битный счетный регистр, связанный с ним. Чтобы инициировать передачу данных, драйвер устройства устанавливает адрес канала DMA и регистры подсчета вместе с направлением передачи данных, чтения или записи. Затем он инструктирует оборудование DMA начать передачу. Когда передача завершена, устройство прерывает CPU.
Скаттер-сборка или векторный ввод / вывод DMA позволяет передавать данные в и из нескольких областей памяти за одну транзакцию DMA. Это эквивалентно объединению в цепочку нескольких простых запросов DMA. Мотивация состоит в том, чтобы разгрузить несколько задач ввода / вывода и копирования данных с CPU.
DRQ означает запрос данных; DACK для подтверждения данных. Эти символы, которые можно увидеть на аппаратных схемах компьютерных систем с функциями прямого доступа к памяти, представляют собой линии электронной сигнализации между центральным процессором и контроллером прямого доступа к памяти. Каждый канал DMA имеет одну строку запроса и одну строку подтверждения. Устройство, использующее DMA, должно быть настроено для использования обеих линий назначенного канала DMA.
16-битное управление шиной, разрешенное ISA.
Стандартные назначения ISA DMA:
A Архитектура PCI не имеет центрального контроллера DMA, в отличие от ISA. Вместо этого любой компонент PCI может запросить управление шиной («стать мастером шины ») и запросить чтение и запись в системную память. Точнее, компонент PCI запрашивает владение шиной у контроллера шины PCI, который выполняет арбитраж, если несколько устройств запрашивают владение шиной одновременно, поскольку одновременно может быть только один мастер шины. Когда компоненту предоставляется право собственности, он будет выдавать обычные команды чтения и записи на шине PCI, которые будут запрашиваться контроллером шины и будут перенаправлены на контроллер памяти с использованием схемы, специфичной для каждого набора микросхем.
Например, на современном ПК на базе AMD Socket AM2 южный мост будет перенаправлять транзакции на контроллер памяти (который встроен в кристалл ЦП) с помощью HyperTransport, который, в свою очередь, преобразует их в операции DDR2 и отправит их по шине памяти DDR2. В результате, передача PCI DMA включает множество этапов; однако это не создает особых проблем, поскольку устройство PCI или сама шина PCI на порядок медленнее, чем остальные компоненты (см. список полос пропускания устройства ).
Современный процессор x86 может использовать более 4 ГБ памяти, используя Physical Address Extension (PAE), 36-битный режим адресации или собственный 64-битный режим x86-64 процессоры. В таком случае устройство, использующее DMA с 32-битной адресной шиной, не может адресовать память выше линии 4 ГБ. Новый механизм (DAC), если он реализован как на шине PCI, так и на самом устройстве, обеспечивает 64-битную адресацию DMA. В противном случае операционной системе необходимо было бы обойти проблему, используя дорогостоящие двойные буферы (номенклатура DOS / Windows), также известные как отказов буферов (FreeBSD / Linux), или он может использовать IOMMU для предоставления услуг трансляции адресов, если таковой имеется.
В качестве примера механизма DMA, встроенного в ЦП общего назначения, новые наборы микросхем Intel Xeon включают в себя механизм DMA, называемый I / O Технология ускорения (I / OAT), которая может разгружать копирование памяти с основного процессора, освобождая его для выполнения другой работы. В 2006 году разработчик ядра Linux от Intel Эндрю Гровер провел тесты с использованием ввода-вывода для разгрузки копий сетевого трафика и обнаружил не более чем 10% -ное улучшение использования ЦП с получением рабочих нагрузок.
В процессоры Intel Xeon E5 были внесены дополнительные ориентированные на производительность усовершенствования механизма DMA с их функцией Data Direct I / O (DDIO )., позволяя «окнам» DMA располагаться в кэшах ЦП вместо системной RAM. В результате кэши ЦП используются в качестве основного источника и места назначения для ввода-вывода, позволяя контроллерам сетевого интерфейса (сетевые адаптеры) передавать DMA напрямую в кэш последнего уровня локальных ЦП и избегать дорогостоящего извлечения I / O данные из системной RAM. В результате DDIO снижает общую задержку обработки ввода-вывода, позволяет полностью выполнять обработку ввода-вывода в кэше, предотвращает превращение доступной полосы пропускания / задержки ОЗУ в узкое место производительности и может снизить энергопотребление, разрешив ОЗУ, чтобы оставаться дольше в состоянии с низким энергопотреблением.
В системах на кристалле и встроенных системах, стандартная системная шина Инфраструктура представляет собой сложную шину на кристалле, такую как Высокопроизводительная шина AMBA. AMBA определяет два типа компонентов AHB: ведущий и ведомый. Подчиненный интерфейс аналогичен запрограммированному вводу / выводу, через который программное обеспечение (работающее на встроенном ЦП, например, ARM ) может записывать / читать регистры ввода / вывода или (реже) блоки локальной памяти внутри устройства. Устройство может использовать главный интерфейс для выполнения транзакций DMA в / из системной памяти без значительной нагрузки на ЦП.
Следовательно, устройства с высокой пропускной способностью, такие как сетевые контроллеры, которым необходимо передавать огромные объемы данных в / из системной памяти, будут иметь два интерфейсных адаптера к AHB: главный и подчиненный интерфейс. Это связано с тем, что встроенные в микросхемы шины, такие как AHB, не поддерживают тройное состояние шины или изменение направления любой линии на шине. Как и PCI, центральный контроллер DMA не требуется, поскольку DMA управляет шиной, но требуется арбитр в случае наличия нескольких мастеров в системе.
Внутри устройства обычно присутствует многоканальный механизм прямого доступа к памяти (DMA) для выполнения нескольких одновременных операций разброс-сборка, как запрограммировано программным обеспечением.
В качестве примера использования DMA в многопроцессорной системе-на-кристалле, процессор Cell IBM / Sony / Toshiba включает в себя Механизм DMA для каждого из его 9 элементов обработки, включая один элемент процессора Power (PPE) и восемь элементов синергетического процессора (SPE). Поскольку инструкции загрузки / сохранения SPE могут читать / записывать только свою собственную локальную память, SPE полностью зависит от DMA для передачи данных в и из основной памяти и локальных запоминающих устройств других SPE. Таким образом, DMA действует как основное средство передачи данных между ядрами внутри этого ЦП (в отличие от архитектур CMP с согласованным кешем, таких как отмененный Intel универсальный GPU, Larrabee ).
DMA в ячейке полностью когерентный кэш (обратите внимание, однако, локальные хранилища SPE, управляемые DMA, не действуют как глобально согласованный кеш в стандартном смысле ). Как при чтении («получить»), так и при записи («положить») команда DMA может передавать либо отдельную область блока размером до 16 КБ, либо список от 2 до 2048 таких блоков. Команда DMA выдается путем указания пары локального адреса и удаленного адреса: например, когда программа SPE выдает команду put DMA, она указывает адрес своей собственной локальной памяти в качестве источника и адрес виртуальной памяти (указывающий на либо основная память, либо локальная память другого SPE) в качестве цели вместе с размером блока. Согласно эксперименту, эффективная пиковая производительность DMA в ячейке (3 ГГц, при равномерном трафике) достигает 200 ГБ в секунду.
Процессоры с оперативной памятью и DMA (например, процессоры цифровых сигналов и процессор Cell ) могут выиграть от программного перекрытия операций памяти DMA с обработкой посредством двойной буферизации или мультибуферизации. Например, внутренняя память разделена на два буфера; процессор может работать с данными в одном, в то время как механизм DMA загружает и сохраняет данные в другом. Это позволяет системе избежать задержки памяти и использовать пакетные передачи за счет необходимости предсказуемого шаблона доступа к памяти.