научная статья по теме ВЫБОР ЭТАЛОНА ДЛЯ ОПРЕДЕЛЕНИЯ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ МОЛЕКУЛ ДНК Метрология

научная статья по теме ВЫБОР ЭТАЛОНА ДЛЯ ОПРЕДЕЛЕНИЯ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ МОЛЕКУЛ ДНК Метрология

Текст научной статьи на тему «ВЫБОР ЭТАЛОНА ДЛЯ ОПРЕДЕЛЕНИЯ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ МОЛЕКУЛ ДНК»

МЕДИЦИНСКИЕ И БИОЛОГИЧЕСКИЕ ИЗМЕРЕНИЯ

Выбор эталона для определения нуклеотидных последовательностей

С. С. ГОЛУБЕВ*, С. А. КОНОНОГОВ*, Н. В. РАВИН**, К. Г. СКРЯБИН**

* Всероссийский научно-исследовательский институт метрологической службы, Москва,

Россия, e-mail: kononogov@vniims.ru ** Центр «Биоинженерия» РАН, Москва, Россия, e-mail: office@biengi.ac.ru

Предложено использовать в качестве эталонной последовательности для калибровки и метрологического обеспечения геномных анализаторов (секвенаторов) фрагмент последовательности ДНК плазмиды pUC18, состоящий из 271 пары оснований и получаемый по эталонной методике. Данная последовательность является оптимальной для определения метрологических характеристик геномных анализаторов из-за своей стабильности и наличия нескольких участков с повторяющимися нуклеотидами. Приведен пример вычисления характеристики геномного анализатора — вероятности ошибки при измерении геномной последовательности.

Ключевые слова: ДНК, эталон, метрологическое обеспечение, генетическая последовательность, геномный анализатор.

The fragment of pUC18 plasmid is offered as reference sequence for calibration and metrological assurance of genome analyzers. This fragment consists of 271 nucleotides pairs and is received by reference method. This sequence is optimal for determination of metrological characteristics of genome analyzers because of its stability and availability of several areas with repeating nucleotides. The example of genome analyzer's characteristic calculation — the probability of errors at measuring of genome sequence — is given.

Key words: DNA, etalon, reference sequence, metrological assurance, genetic sequence, genome analyzer.

Носителем генетической информации у всех живых организмов являются молекулы нуклеиновых кислот, в подавляющем большинстве случаев дезоксирибонуклеиновой (ДНК). Она представляет собой длинную полимерную молекулу, состоящую из последовательности пуриновых и пиримиди-новых оснований. При этом в ДНК живых организмов может быть только четыре вида таких оснований — аденин, тимин, гуанин и цитозин. Таким образом, генетическая информация организма на молекулярном уровне определяется последовательностью этих оснований в цепи ДНК. В реальных геномах количество оснований в этих полимерных цепочках насчитывает миллионы и миллиарды единиц.

В современной биологической науке принято записывать последовательность не в виде химической формулы ДНК, а в виде последовательности букв А, Т, Г и Ц (А, Т, G и С в англоязычной записи), обозначающих соответствующие нук-леотидные основания. Нуклеотидная последовательность ДНК может иметь вид, например, AATGCA. .

Необходимо пояснить сложившуюся терминологическую особенность. В классической химии принято давать названия соединений исходя из состава молекулы и ее структуры, изображаемой, как правило, структурной формулой. В данном случае под термином ДНК понимают множество структурно различных молекул. Каждый вид живого организма обладает своей уникальной последовательностью ДНК, которая и определяет его характеристики. Более того, ДНК даже у отдельных организмов одного вида (например, разных людей) могут отличаться. Однако в сложившейся терминологии любую последовательность оснований принято называть ДНК.

Для чтения нуклеотидной последовательности ДНК применяют геномные анализаторы (секвенаторы). Почти во всех

современных приборах использован принцип секвенирова-ния путем синтеза, т. е. нуклеотидная последовательность ДНК определяется последовательностью включения отдельных нуклеотидов во вновь синтезируемую по принципу комплементарности нуклеотидную цепь. Такой процесс аналогичен ферментативной репликации ДНК в клетке, осуществляемой ДНК-полимеразами. Здесь необходимо отметить, что речь идет не об образце, состоящем из одной цепочки, а о препарате, содержащем наработанные тысячи идентичных копий цепочки ДНК исследуемого организма. Современное состояние молекулярной биологии позволяет искусственно реализовывать процесс репликации — воспроизведения, или тиражирования, молекул, свойственный всем живым организмам.

Один из методов высокопроизводительного секвениро-вания ДНК — параллельное пиросеквенирование [1]. Для его проведения микрочастицы, на которых иммобилизованы миллионы идентичных копий индивидуальных одноце-почечных фрагментов ДНК, помещают в микроячейки, расположенные на плоской пластине. Во время работы геномного анализатора растворы нуклеотидов А, С, G и Т последовательно добавляются в проточную ячейку, содержащую пластину, и удаляются после реакции. Затем цикл внесения — удаления последовательно каждого из четырех нуклеотидов повторяется. Если на определенном цикле через микроячейку проходит нуклеотид, комплементарный матрице, иммобилизованной в этой микроячейке, то цепь удлиняется из-за встраивания этого нуклеотида специальным ферментом — полимеразой. Добавление нуклеотида приводит к высвобождению пирофосфата и далее к реакции, в результате которой генерируется световой сигнал, регистрируемый ПЗС-камерой прибора для каждой микроячейки. Ин-

тенсивность сигнала пропорциональна количеству нукпео-тидов, встроенных в цепь ДНК. Таким образом, последовательность растворов, которые дают хемилюминесцентный сигнал в конкретной микроячейке, позволяет определить нуклеотидную последовательность матрицы ДНК.

В связи с широким использованием секвенирования ДНК как в научных исследованиях, так и в практических областях деятельности (биотехнологии, медицине, сельском хозяйстве и т. д.) возникает необходимость метрологического обеспечения данных процессов. Идет дискуссия о том, является ли процесс установления генетической последовательности измерением или же это определение качественного свойства и понятие измерения к нему не относится. С точки зрения авторов, генетическая последовательность — это новая величина, поэтому ее определение является измерением. Ее действительно нельзя выразить числом (конечно, буквы можно заменить цифрами и последовательность AATGCT записать, например, как 114234, но к такой форме записи не будет применима привычная алгебра). Однако при условии сколь угодно длинной последовательности (а в природе реализуется именно эта ситуация, длины последовательностей кода хоть и конечны, но чрезвычайно велики) многообразие получающихся цепочек ДНК также сколь угодно велико. Более того, можно ввести понятие равенства как для всей

Рис. 1. Рестрикционная карта плазмиды риС18

j^cтGJ\GhG^:G САССАТАТОС ССТбТСАААТ АССССАСАвА ТСССТААбСА СААААТАССС

ТСАСТСТСАС ОТС6ТАТАС6 ССАСАСТТТА тсссетстст АСССАТТССТ СТТТТАТСБС

САТСАСССвС САТТССССАТ ТСАОССТбСб СААСТСГТСС СААСбССйАТ ССбТСССбСС

6ТА6ТСССС6 СТААССОСТА АбТСССАССС СГТСАСААСС СТТСССССТА СССАСОСССС

СТСТТСССТА ТТАССССАбС ТССССАААСб СбСАТСТССТ ССААбССбАТ ТААСГТСбОТ

САСААбССАТ ААТССССТСС АССССТТТСС СССТАСАССА СбТТССССТА АТТСААСССА

ААССССАССС ТТТТСССАОТ САСбАСбТТе ТААААССАСС СССАСТСССА АБСТТССАТС

ттсссстссс ААААв в йТ С А СТССТССААС АТТТЮСТСС СССГСАСОСТ ТССААССТАС

ССТбСАССГС вАСТСТАСАС САТСССССбб т

ССАОЗТССАС СТСАСАТСТС СТАСбССССС А

Рис. 2. Фрагмент плазмиды риС18, состоящий из 271 пары нуклеотидов; темным фоном отмечена

цепочки в целом, так и для ее фрагментов. Последнее особенно важно с учетом механизмов синтеза органических молекул внутри живых организмов по имеющимся последовательностям ДНК.

Последовательность ДНК состоит из двух комплементарных цепочек. Комплементарность — одно из основных свойств цепочек ДНК (последовательности «букв»). Оно проявляется в том, что каждому нуклеотиду прямой последовательности А, Т, G или С соответствует комплементарный нуклеотид обратной последовательности (по закону А ^ Т, G ^ С), образующей вторую (обратную) цепочку. При этом комплементарная цепочка записывается с противоположного конца из-за химического строения молекулы ДНК (например, комплементарная последовательность цепочки AACTGT будет иметь вид ACAGTT).

В действительности биологи давно уже оперируют такими последовательностями в качестве новой величины, однако необходимая для этого база для технологических процессов и измерений на сегодняшний день полностью отсутствует. Поэтому актуальной является разработка метрологического обеспечения процесса определения (измерения) цепочки последовательности генетического кода.

Важная задача современной метрологии — переопределение единиц физических величин через фундаментальные физические константы — численные параметры окружающего мира, значения которых определяются природой и (относительно) стабильны во времени [2]. В молекулярной биологии также существует возможность в качестве эталонной выбрать короткую последовательность, представляющую фрагмент генома хорошо изученного организма. Необходимость в такой эталонной последовательности обусловлена следующим.

Приборы для чтения нуклеотидных последовательностей — геномные анализаторы — при прочтении цепочек могут допускать ошибки, следовательно, найденные с их помощью последовательности могут отличаться от реального значения одним или несколькими нуклеотидами в определенных позициях. Соответственно, конечной задачей метрологического обеспечения этой области является установление вероятности ошибки при прочтении нуклеотидной последовательности. Таким образом, на выходе процесса секвени-рования помимо цепочки AATGCT. которую можно условно записать функцией С(М) (в данном случае С(1) = А, С(2) = А,

С(3) = T и т. д.), должна быть еще функция Р(/\/), значения которой представляют собой вероятность ошибки в М-м нук-леотиде.

Опыт работы и принцип действия пиросек-венатора показывают, что вероятность ошибок чтения повышается в тех местах, где подряд расположено несколько одинаковых нуклео-тидов. Поскольку интенсивность сигнала пропорциональна количеству нуклеотидов, встроенных в цепь ДНК

на данном цикле секвенирования, с ростом числа идущих подряд одинаковых нуклеотидов относительная разница в интенсивности сигнала будет снижаться. Поэтому эталонная последовательность должна по возможности содержать участки по

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

📎📎📎📎📎📎📎📎📎📎