Массив тандемных повторов белка определяется как несколько (как минимум двух) соседних копий, имеющих одинаковые или похожие мотивы последовательности. Эти периодические последовательности генерируются внутренними дупликациями как в кодирующих, так и в некодирующих геномных последовательностях. Повторяющиеся единицы тандемных повторов белков значительно разнообразны: от повторов одной аминокислоты до доменов из 100 или более остатков.
Схематическое изображение последовательности тандемных повторов.В белках «повтором» является любой блок последовательности, который возвращается более одного раза в последовательность либо в идентичной, либо в очень похожей форме. Степень сходства может сильно варьировать, при этом некоторые повторы сохраняют только несколько консервативных аминокислотных положений и характерную длину. Сильно вырожденные повторы очень трудно обнаружить по одной последовательности. Структурное сходство может помочь выявить повторяющиеся закономерности в последовательности.
Повторяемость сама по себе ничего не указывает на структуру белка. Как "практическое правило", короткие повторяющиеся последовательности (например, длиной менее 10 аминокислот) могут быть внутренне неупорядоченными и не являться частью каких-либо свернутых белковых доменов.. Повторы, которые имеют длину не менее 30-40 аминокислот, с гораздо большей вероятностью будут свернуты как часть домена. Такие длинные повторы часто указывают на присутствие в белке соленоидного домена.
Примерно половина участков тандемных повторов имеет внутренне неупорядоченную конформацию, которая естественно развернута. Примеры неупорядоченных повторяющихся последовательностей включают 7-мерные пептидные повторы, обнаруженные в субъединице RPB1 РНК-полимеразы II или тандемном бета-катенине или аксин связывает линейные мотивы в APC (аденоматозный полипоз coli). Другая половина областей со стабильной трехмерной структурой имеет множество форм и функций. Примеры коротких повторов, демонстрирующих упорядоченные структуры, включают трехосновный коллагеновый повтор или пяти-остатковый пентапептидный повтор, который формирует структуру бета-спирали.
В зависимости от длины повторяющихся единиц их белковые структуры можно подразделить на пять классов:
Некоторыми хорошо известными примерами белков с тандемными повторами являются коллаген, который играет ключевую роль в устройстве внеклеточного матрикса; альфа-спиральные спиральные спирали, имеющие структурные функции и функции олигомеризации; белки с богатыми лейцином повтора, которые специфически связывают ряд глобулярных белков своими вогнутыми поверхностями; и белки «цинковые пальцы», которые регулируют экспрессию генов путем связывания ДНК.
Белки тандемных повторов часто функционируют как модули белок-белкового взаимодействия. Повтор WD40 является ярким примером этой функции.
Тандемные повторы повсеместно встречаются в протеомах и встречаются как минимум в 14 % всех белков. Например, они присутствуют почти в каждом третьем человеческом белке и даже в каждом втором белке из Plasmodium falciparum или Dictyostelium discoideum. Тандемные повторы с короткими повторяющимися единицами (особенно гомореповторы) встречаются чаще, чем другие.
Белковые тандемные повторы могут быть обнаружены либо по последовательности, либо аннотированы по структуре. Были созданы специализированные методы для идентификации повторяющихся белков.
Стратегии, основанные на последовательностях, основанные на поиске гомологии или назначении домена, в основном недооценивают TR из-за присутствия сильно вырожденных повторяющихся единиц. Недавнее исследование, направленное на понимание и улучшение охвата протеома человека Pfam, показало, что пять из десяти крупнейших кластеров последовательностей, не аннотированных Pfam, являются повторяющимися областями. В качестве альтернативы методы, не требующие предварительных знаний для обнаружения повторяющихся подстрок, могут быть основаны на самосравнении, кластеризации или скрытых марковских моделях. Некоторые другие полагаются на измерения сложности или используют преимущества мета-поиска для объединения результатов из разных источников.
Структурные методы вместо этого используют преимущества модульности доступных структур PDB для распознавания повторяющихся элементов.