Биостатистика

редактировать

Биостатистика - это разработка и применение статистических методов к широкому кругу тем в биология. Он включает в себя планирование биологических экспериментов, сбор и анализ данных этих экспериментов и интерпретацию результатов.

Содержание
  • 1 История
    • 1.1 Биостатистика и генетика
  • 2 Планирование исследований
    • 2.1 Вопрос исследования
    • 2.2 Определение гипотезы
    • 2.3 Выборка
    • 2.4 План эксперимента
    • 2.5 Данные коллекция
  • 3 Анализ и интерпретация данных
    • 3.1 Описательные инструменты
    • 3.2 Логическая статистика
  • 4 Статистические соображения
    • 4.1 Степень и статистическая ошибка
    • 4.2 p-
    • 4.3 Множественное тестирование
    • 4.4 Проверка соответствия спецификации и надежности
    • 4.5 Критерии выбора модели
  • 5 Разработки и большие данные
    • 5.1 Использование данных с высокой пропускной способностью
    • 5.2 Достижения биоинформатики в базах данных, интеллектуального анализа данных и биологической интерпретации
    • 5.3 Использование методов, требующих большого объема вычислений
  • 6 Приложения
    • 6.1 Общественное здравоохранение
    • 6.2 Количественная генетика
    • 6.3 Экспрессивные данные
    • 6.4 Другие исследования
  • 7 Инструменты
  • 8 Объем и программы обучения
  • 9 Специализированные журналы
  • 10 См. Также
  • 11 Ссылки
  • 12 Внешние ссылки
История

Биостатистика и генетика

Биостатистическое моделирование строительства части многих современных биологических теорий. Генетические исследования с самого начала использовали концепции для понимания наблюдаемых экспериментальных результатов. Некоторые ученые-генетики даже внесли свой вклад в развитие статистики, разработав методы и инструменты. Грегор Мендель начал генетические исследования, изучающие закономерности генетической сегрегации в семействах гороха, и использовал статистику для объяснения собранных данных. В начале 1900-х годов, после переоткрытия работ Менделя по менделевскому наследованию, генетикой и эволюционным дарвинизмом возникли пробелы в понимании. Фрэнсис Гальтон попытался дополнить открытие Менделя человеческими данными и другую модель, исходящую от каждого предка, составляющую бесконечный ряд. Он назвал это теорией «Закона наследственности ». С его идеями категорически не соглашался Уильям Бейтсон, который следовал выводам Менделя о том, что генетическая наследственность передается исключительно от родителей, по половине от каждого из них. Это к ожесточенным спорам между специалистами по биометрии, которые поддерживали идеи Гальтона, такими как Уолтер Велдон, Артур Дукинфилд Дарбишир и Карл Пирсон, и менделианцами, которые поддерживали идеи Бейтсона (и Менделя), такие как Чарльз Дэвенпорт и Вильгельм Йоханссен. Позже биометристы не могли воспроизвести выводы Гальтона в различных экспериментах, и идеи Менделя преобладали. К 1930-м годам модели, построенные на статистических рассуждениях, помогли разрешить эти различия и сделать современный неодарвиновский эволюционный синтез.

Разрешение этих различий также позволяет определить концепцию популяционной генетики и объединило генетику и эволюцию. Три ведущих деятеля в создании популяционной генетики и опираются на статистику и использование ее в биологии.

Эти и другие биостатисты, математические биологи и склонные к статистике генетики помогли объединить эволюционную биологию и генетику в единое, связное целое, которое можно смоделировать количественно.

Параллельно с этим общим развитием новаторская работа Д'Арси Томпсона в книге «О росте и форме» также помогла добавить количественную дисциплину в биологические исследования.

<4040>Несмотря на то, что важны важные и частные рекомендации, не менее, среди биологов может быть тенденция, не качественно очевидны. Один анекдот Томаса Ханта Моргана, запрещающий калькулятора Фридена из своего отдела в Калифорнийском технологическом институте, говоря: «Ну, я похож на парня, который ищет золото на берега реки Сакраменто в 1849 году. Обладая небольшим интеллектом, я могу дотянуться до больших самородков золота. Предложено для разработки россыпных месторождений."

планирование исследований

Любое исследование в области наук о жизни предложено для моего отдела тратить скудные ресурсы на разработку россыпных месторождений."

Ответ на научный вопрос, который у нас может проблема. Чтобы ответить на этот вопрос с помощью высокой достоверности, нам нужны точные результаты. Правильное определение основного гипотезы и плана исследования уменьшит количество ошибок при принятии решения о понимании явлений. План исследования может быть в себя исследование вопрос, гипотеза, пассивная проверка, план эксперимента, методы сбора данных, анализ данных перспективы и затраты изменились. Важно проводить исследование, основанное на трех основных принципах экспериментальной статистики: рандомизация, репликация и локальный.

Вопрос исследования

Вопрос исследования определяют цель исследования. Исследование будет управлять вопросом, поэтому оно должно быть кратким и в то же время сосредоточенным на интересных и новых темах, которые могут улучшить науку, знания и эту область. Чтобы определить способ задания научного вопроса, может потребоваться исчерпывающий обзор литературы. Таким образом, исследование может быть полезным для повышения ценностей научного сообщества.

Определение гипотезы

Как только цель исследования определена, можно предложить возможные ответы на исследовательский вопрос, трансформируя это вопрос в гипотезу. Основное предложение называется нулевая гипотеза (H0) и обычно основывается на постоянном знании темы или очевидном возникновении явления, подтвержденном глубоким обзором литературы. Можно сказать, что это стандартный ответ для данных в ситуации в тест. В общем, H O предполагает отсутствие связи между обработками. С другой стороны, альтернативная гипотеза отрицание H O. Предполагается некоторая степень связи между лечением и результатом. Хотя эта гипотеза подтверждается исследованием вопросов и ожидаемыми и неожиданными ответами на них.

В качестве рассмотрим группы похожих животных (например, мышей) с двумя системами питания. Вопрос исследования: какая диета самая лучшая? В случае H 0 будет означать, что нет разницы между двумя диетами в отношении метаболизма мышей (H0: μ 1 = μ 2), и альтернативная гипотеза будет заключаться в том, что диеты по-разному метаболизм животных (H 1 : μ 1 ≠ μ 2).

Гипотеза определяется исследователем в соответствии с его / ее интересами к ответу на главный вопрос. Кроме того, альтернативная гипотеза может быть более чем одной гипотезой. Он может предполагать не только различие между предполагаемыми, но и степенью меньше).

Выборка

Обычно цель исследования - понять влияние эффектов на популяцию. В биологии, популяция определяется как все особи данного вида в определенной области в данный момент времени. В биостатистике это понятие применяется для изучения коллекций. Хотя в биостатистике популяция - это не только особи, но и совокупность одного конкретного компонента их организмов в виде всего генома, или все сперматозоиды клетки, например, для животных, или общую площадь листа для растений.

Невозможно получить меры для всех элементов совокупности. По этой причине процесс выборки очень важен для статистического вывода. Выборка означает случайное получение репрезентативной части всей совокупности, чтобы сделать апостериорные выводы о совокупности. Образом, образец может уловить наибольшую изменчивость в общей совокупности. Размер выборки зависит от объема исследования и заканчивающихся доступных ресурсов. В клиническом исследовании тип исследования, такой как неполноценность, эквивалентность и превосходство, является ключевым при определении размера выборки.

План эксперимента

Дизайн эксперимента поддерживает эти эксперименты, основные принципы статистики инструментов. Существует основных три экспериментальных дизайна для случайного распределения обработок на всех графики эксперимента. Это полностью рандомизированный план, рандомизированный блочный план и факторный план. Внутри эксперимента лечение можно организовать разными способами. В сельском хозяйстве правильный план эксперимента является источником хорошего исследования, и расположение обработок в рамках исследования имеет важное значение, поскольку окружающая среда в соглашении степени влияет на участки (растения, домашний скот, микроорганизмы ). Эти основные устройства можно найти в литературе под названиями «решетки », «неполные блоки», «разделенный участок », «расширенные блоки» и многие другие. Все планы входящие контрольные графики, исследователем, для обеспечения оценки ошибки во время вывод.

В клинических исследованийх образцы обычно меньше, чем в других биологических исследованиях, и в большинстве случаев эффект окружающей среды можно контролировать или измерять. Обычно используются рандомизированные контролируемые клинические испытания, где результаты обычно сравниваются с дизайнами наблюдательного исследования, такими как случай - контроль или когорта.

Сбор данных

При планировании исследования необходимо использовать методы сбора данных, поскольку они сильно влияют на размер выборки и дизайн эксперимента.

Сбор данных зависит от типа данных. Для качественных данных сбор может производиться с помощью структурированных вопросов или путем наблюдения, с учетом наличия или интенсивности заболеваний, с использованием критерия оценки для категорий уровней возникновения. Для количественных данных сбор осуществляется путем измерения числовой информации с помощью.

В исследованиях в области сельского хозяйства и биологии данные об урожайности и ее составляющие могут быть получены с помощью метрических показателей. Тем не менее, повреждения растений вредителями и получают путем наблюдения с учетом шкал для повреждений. В частности, в генетических исследованиях современные методы сбора данных в полевых и лабораторных условиях рассматривать как высокопроизводительные платформы фенотипирования и генотипирования. Эти инструменты позволяют проводить более масштабные эксперименты, в то же время использовать возможности многих графиков, чем метод сбора данных, основанный только на человеке. Наконец, все собранные данные должны быть сохранены в организованном фрейме данных для дальнейшего анализа.

Анализ и интерпретация данных

Инструменты описания

Данные могут быть представлены с помощью таблиц или графического представления, например линейных диаграмм, гистограммы, гистограммы, точечная диаграмма. Кроме того, меры центральной тенденции и изменчивости могут быть очень полезны для описания обзора данных. Вот несколько примеров:

  • Таблицы типов данных

Одним из таблиц является таблица частота, которая состоит из упорядоченных по строкам и столбцам, где частота - это количество вхождений или повторений данных. Частота может быть:

Абсолютная : представляет количество раз появления определенного значения;

N = f 1 + f 2 + f 3 +... + fn {\ displaystyle N = f_ {1} + f_ {2} + f_ {3} +... + f_ {n}}{\ displaystyle N = f_ {1} + f_ {2} + f_ {3} +... + f_ {n}}

Relative : получается делением абсолютной частоты на общее число;

ni = fi N {\ displaystyle n_ {i} = {\ frac {f_ {i}} {N}}}{\ displaystyle n_ {i} = {\ frac {f_ {i}} {N}}}

В следующем примере у нас есть количество генов в десяти оперонах одного и того же организма.

Гены = 2, 3, 3, 4, 5, 3, 3, 3, 3, 4 {\ displaystyle Genes = 2,3,3,4,5,3,3,3,3,3,4 }{\ displaystyle Genes = 2, 3,3,4,5,3,3,3,3,4}

Число геновАбсолютная частотаОтносительная частота
100
210,1
360,6
420,2
510,1
  • Линейный график
Рисунок A: Пример линейного графика . Уровень рождаемости в Бразилии (2010–2016 гг.); Рисунок B: Пример гистограммы. Уровень рождаемости в Бразилии за декабрьские месяцы с 2010 по 2016 год; Рисунок C: Пример прямоугольной диаграммы : количество протеоме восьми различных организмов (A-H); Рисунок D: Пример диаграммы рассеяния.

Линейные графики Изменить изменение значений по сравнению с другим показателем, например, временем. Как правило, значения представляют на вертикальной оси, а изменение во времени - на горизонтальной оси.

  • Гистограмма

A гистограмма - это диаграмма, на которой категориальные данные представлены в виде столбцов с высотой (вертикальная полоса) или ширины (горизонтальная полоса), пропорциональной представлению значений. Столбчатые диаграммы представляют изображение, которое также может быть представлено в табличном формате.

В таблице столбцов у нас есть коэффициент рождаемости в Бразилии за декабрьские месяцы с 2010 по 2016 год. резкое падение в декабре 2016 г. отражает вспышку вируса Зика на уровне рождаемости в Бразилии.

  • Гистограммы
Пример гистограммы.

Гистограмма (или частотное распределение) представляет собой графическое представление набора данных, сведенного в таблицу и разделенного на однородные или неоднородные классы. Впервые он представлен Карлом Пирсоном.

  • График разброса

A График разброса - это математическая диаграмма, использующая декартовы координаты для отображения показателей набора данных. Диаграмма разброса показывает данные в виде набора точек, каждую из которых представлены данные одной переменной положения на горизонтальной оси. Их также называют диаграммой рассеяния, диаграммой рассеяния, диаграммой рассеяния или диаграммой рассеяния .

  • средним

средним арифметическим - это набора суммы значений (x 1 + x 2 + x 3 + ⋯ + xn {\ displaystyle {x_ {1} + x_ {2} + x_ {3} + \ cdots + x_ {n}}}{\ displaystyle {x_ {1} + x_ {2} + x_ {3} + \ cdots + x_ {n}}} ), разделенное на количество элементов этой коллекции (n {\ displaystyle {n}}{n} ).

Икс ¯ знак равно 1 N (∑ я = 1 nxi) = Икс 1 + Икс 2 + ⋯ + xnn {\ displaystyle {\ bar {x}} = {\ frac {1} {n}} \ left ( \ sum _ {i = 1} ^ {n} {x_ {i}} \ right) = {\ frac {x_ {1} + x_ {2} + \ cdots + x_ {n}} {n}}}{\ displaystyle {\ bar {x}} = {\ frac {1} {n}} \ left (\ sum _ {i = 1} ^ {n} { x_ {i}} \ right) = {\ frac {x_ {1} + x_ {2} + \ cdots + x_ {n}} {n}}}

  • Медиана

медиана - это значение в середине набора данных.

  • Режим

Режим - это значение набора данных, которое встречается чаще всего.

Сравнение среднего, медианного и режима значений = {2,3,3,3,3, 3,4,4,11}
ТипПримерРезультат
Среднее (2 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 11) / 94
Медиана 2, 3, 3, 3, 3, 3, 4, 4, 113
Режим2, 3, 3, 3, 3, 3, 4, 4, 113
  • прямоугольная диаграмма

прямоугольная диаграмма - это метод графического изображения числовых данных. Максимальные и минимальные значения представлены линиями, а межквартильный диапазон (IQR) составляет 25–75% данных. Выбросы могут быть обозначены кружками.

  • Коэффициенты корреляции

Хотя корреляции между двумя различными типами данных можно вывести с помощью графиков, таких как диаграмма рассеяния, необходимо подтвердить это с помощью числовой информации. По этой причине требуются коэффициенты корреляции. Они соответствует числовое значение, отражает силу связи.

  • Коэффициент корреляции Пирсона
Диаграмма разброса, демонстрирующая корреляцию Пирсона для различных значений ρ.

Коэффициент корреляции Пирсона является мерой связи между две переменные, X и Y. Этот коэффициент, обычно представленный как ρ (rho) для генеральной совокупности и r для выборки, принимает значения от -1 до 1, где ρ = 1 представляет идеальную положительную корреляцию, ρ = -1 представляет собой идеальная отрицательная корреляция, а ρ = 0 не является линейной корреляцией.

Выводная статистика

Используется для выводов о неизвестной совокупности на основе оценок и / или гипотез тестирование. Другими словами, желательно получить параметры для описания представляющей интерес совокупности, но, поскольку данные ограничены, необходимо использовать репрезентативную выборку для их оценки. Таким образом, можно проверить ранее определенные гипотезы и применить выводы ко всей совокупности. стандартная ошибка среднего - это мера изменчивости, которая имеет решающее значение для умозаключений.

Проверка гипотез важна для того, чтобы делать выводы о группах населения, стремящихся ответить на вопросы исследования, как установлено в Раздел «Планирование исследований». Авторы определили четыре шага, которые необходимо установить:

  1. Гипотеза, которую нужно проверить: как было сказано ранее, мы должны работать с определением нулевой гипотезы (H0), которая будет проверяться, и альтернативная гипотеза. Но они должны быть определены до проведения эксперимента.
  2. Уровень значимости и правило принятия решения: правило принятия решения зависит от уровня значимости, или, другими словами, от допустимой частоты ошибок (α). Легче думать, что мы определяем критическое значение, определяющее статистическую значимость, когда с ним сравнивается тестовая статистика. Таким образом, α также должен быть предварительно определен перед экспериментом.
  3. Эксперимент и статистический анализ: это когда эксперимент действительно реализуется согласно соответствующему плану эксперимента, данные собираются и более подходящие оцениваются статистические тесты.
  4. Вывод: делается, когда нулевая гипотеза отклоняется или не отклоняется, на основании свидетельств того, что сравнение значений p и α приносит. Указывается, что неспособность отклонить H 0 просто означает, что недостаточно доказательств, чтобы поддержать его отклонение, но не то, что эта гипотеза верна.

Доверительный интервал - это диапазон значений, который может содержать истинное реальное значение параметра при заданном уровне уверенности. Первым шагом является оценка наиболее объективнойоценки количества совокупности. Верхнее значение интервала получается суммой этой оценки с умножением стандартной ошибкой среднего и уровнем достоверности. Вычисление более низкого значения аналогично, но вместо суммы вычитание.

Статистические соображения

Степень и статистическая ошибка

При проверке гипотезы есть возможны два типа статистических ошибок: ошибка типа I и ошибка типа II. Ошибка типа I или ложное срабатывание - это неправильное отклонение истинной нулевой гипотезы, ошибка типа II или ложноотрицательный - отказ от отклонения ложной нулевой гипотезы. Уровень значимости , обозначенный символом α, представляет собой частоту ошибок типа I и должен быть выбран перед выполнением теста. Частота ошибок типа II обозначается β, а статистическая мощность теста равна 1 - β.

p-значение

p-value - это вероятность достижения результатов столь же или более экстремальных, чем наблюдаемые, при условии нулевой гипотезы (H0) верно. Это также называется расчетной вероятностью. Обычно значение p путают с уровнем значимости (α), но α является общественным порогом для получения значимых результатов. Если p меньше α, нулевая гипотеза (H 0) отклоняется.

Множественное тестирование

На нескольких тестах одной и той же гипотезы вероятность возникновения из ложных срабатываний (частота семейных ошибок) увеличивается, и для контроля этого случаев используются некоторые стратегии. Обычно это достигается за счет использования более жесткого порога для отклонения нулевых гипотез. Поправка Бонферрони достаточно приемлемый глобальный уровень знач, обозначаемый α *, и каждый тест индивидуально сравнивается со значением α = α * / м. Это гарантирует, что частота ошибок в семье во всех m тестах меньше или равна α *. Когда m велико, поправка Бонферрони может быть слишком консервативной. Альтернативой поправке Бонферрони: контроль ложного обнаружения (FDR). FDR контролирует ожидаемые отклонения нулевых гипотез (так называемые открытия), которые являются ложными (неверные отклонения). Эта процедура гарантирует, что для тестов частота ложного обнаружения не соответствует q *. Таким образом, FDR менее консервативен, чем поправка Бонферрони, и имеет большую мощность за счет большего количества ложных срабатываний.

Ошибки в спецификации и проверки устойчивости

Основная проверяемая гипотеза (например, отсутствие связи между лечением и исходами) часто сопровождается другими техническими предположениями (например, о распределении вероятностей результатов), которые также являются частью нулевой гипотезы. Когда технические допущения нарушаются практика, нуль может часто выполняться, даже если основная гипотеза верна. Считается, что такие отказы связаны с неправильной спецификацией модели. Проверка того, не меняется ли статистического теста при отсутствии ошибочного результата технических допущений (так называемые проверки устойчивости), стандартного метода борьбы с ошибками в спецификации.

Критерии выбора модели

Выбор критериев модели будет выбирать или моделировать более приближенную истинную модель. Информационный критерий Акаике (AIC) и Байесовский информационный критерий (BIC) являются примерами асимптотически эффективных критериев.

Разработки и большие данные

Последние разработки оказали большое влияние на биостатистику. Двумя важными изменениями стали возможность сбора данных с высокой пропускной способностью и выполнять гораздо более сложный анализ с использованием вычислительных методов. Это связано с такими областями, как секвенирование технологий, биоинформатика и машинное обучение (машинное обучение в биоинформатике ).

Использование в данных с высокой пропускной способностью

Новые биомедицинские технологии, такие как микроматрицы, секвенаторы нового поколения (для геномики) и масс-спектрометрия (для протеомики) генерирует огромные объемы данных, позволяя выполнять множество тестов одновременно. Чтобы отделить сигнал от шума, требуется тщательный анализ с использованием биостатистических методов. Например, микроматрица может установить, какие из них имеют различную экспрессию в пораженных клетках по сравнению с нормальными клетками. Однако только часть генов будет дифференциально экспрессироваться.

Мультиколлинеарность часто возникают в условиях высокопроизводительной биостатистики. Из-за высокой взаимной корреляции между предикторами (такими как уровни экспрессии гена ) информация одного предиктора может содержаться в другом. Возможно, только 5% предикторов отвечает за 90% вариабельности ответа. В таком случае можно применить биостатистический метод уменьшения размера (например, с помощью анализа главных компонентов). Классические статистические методы, такие как линейная или логистическая регрессия и линейный дискриминантный анализ, не работают хорошо для большой размерности (т. Е. Количество наблюдений меньше, чем количество признаков или предикторов p: n < p). As a matter of fact, one can get quite high R-values despite very low predictive power of the statistical model. These classical statistical techniques (esp. наименьших квадратов линейная регрессия) были разработаны для низкоразмерных данных (т. е. где количество наблюдений n намного больше, чем количество предикторов p: n>>p). В случаях высокой размерности всегда рассматривать независимый набор проверочных тестов и соответствующую остаточную сумму квадратов (RSS) и R набора проверочных тестов, а не обучающего набора.

Часто бывает полезно объединить информацию от нескольких предикторов вместе. Например, Анализ обогащения набора генов (GSEA) рассматривает возмущение целых (функционально связанных) наборов генов, а не отдельных генов. Эти наборы генов могут быть известными биохимическими путями или другими функционально связанными генами. Преимущество этого подхода заключается в том, что он более надежен: более вероятно, что один ген ложно нарушенным, чем ложно нарушен весь путь. Кроме того, с помощью этого подхода можно интегрировать накопленные знания о биохимических путях (например, путь передачи сигналов JAK-STAT ).

Достижения биоинформатики в базах данных, аналитических данных и биологической интерпретации

Разработка биологических баз данных позволяет хранить биологические данные и управлять ими с помощью доступа для пользователей вокруг мира. Они полезны для исследователей, которые хранят данные, извлекают информацию и файлы (необработанные или обработанные), полученные в результате других экспериментов, или индексируют научные статьи, как PubMed. Другая возможность - поиск желаемого термина (ген, белок, болезнь, организм и т. Д.) И проверка всех результатов, связанных с этим поиском. Существуют базы данных, посвященные SNP (dbSNP ), знания о характеристиках генов и их путей (KEGG ) и описанию функций генов с классификацией по клеточному компоненту., молекулярная функция и биологический процесс (Генная онтология ). Помимо базовых данных, конкретных молекулярных данных, существуют другие, достаточно обширные в том смысле, что они содержат информацию об организме или группе организма. Примером базы данных, предназначенной только для одного организма, является генетическая и молекулярная база данных Arabidopsis thaliana - TAIR. Фитозома, в свою очередь, хранит файлы, сборок и аннотаций десятков геномов растений, а также инструменты визуализации и анализа. Более того, существует взаимосвязь между некоторыми базами данных в обмене / совместном использовании информации, и основной инициативой Международное сотрудничество базовых данных нуклеотидных последовательностей (INSDC), которое связывает данные из DDBJ, EMBL-EBI и NCBI.

В настоящее время увеличение размера и сложности набором молекулярных данных приводит использование мощных статистических методов, предоставляющих алгоритмы информатики, разработанных в области машинного обучения. Таким образом, интеллектуальный анализ и машинное обучение позволяют обнаруживать закономерности в данных со сложной структурой, например, биологические, с помощью методов контролируемого и неконтролируемого обучения, регрессии, обнаружения кластеры и анализ правил ассоциации, среди прочего. Чтобы указать на некоторые из них, самоорганизующиеся карты и k-средства являются примерами кластерных алгоритмов; реализация нейронных сетей и поддержка векторных машин модели являются примерами распространенных алгоритмов машинного обучения.

Совместная работа молекулярных биологов, биоинформатиков, статистиков и компьютерных специалистов важна для правильного проведения эксперимента, начиная от планирования, создания и анализа данных и заканчивая биологической интерпретацией результатов.

Использование вычислительно-ресурсоемких методов

С другой стороны, появление компьютерных технологий и относительно дешевых вычислительных ресурсов сделало возможное использование ресурсоемких биостатистических методов, таких как начальной загрузки и методов.

В последнее время случайные леса приобрели популярность как метод выполнения статистической классификации. Методы случайного леса генерируют панель деревьев решений. Деревья могут решений иметь преимущество, что вы их рисовать и интерпретировать (даже имея базовое понимание математики и статистики). Таким образом, случайные леса использовались для системы поддержки клинических решений.

Приложения

Общественное здравоохранение

Общественное здравоохранение, включая эпидемиологию, службы здравоохранения, питание, гигиена окружающей среды, а также политика и управление здравоохранением. В этом содержании лекарство важно учитывать и анализ клинических испытаний. В качестве примера можно привести тяжести состояния пациента с прогнозом исхода заболевания.

Благодаря новой технологии и знаниям в области генетики биостатистика теперь также используется для системной медицины, которая заключается в более индивидуализированной медицине. Для этого выполняется интеграция данных из разных источников, включая стандартные данные пациента, клинико-патологические параметры, молекулярные и генетические данные, а также данные, полученные с помощью дополнительных технологий new-omics.

Количественная генетика

Изучение популяционной генетики и статистической генетики с целью увязки вариации генотипа с вариацией фенотипа. Другими словами, желательно выявить генетическую измеримого признака, находящегося под полигенным контролем. Область генома, которая отвечает за непрерывный признак, называется Локус количественного признака (QTL). Изучение QTL стало возможным благодаря использованию молекулярных маркеров и измерения признаков в популяциях, но для их картирования необходимо получение популяции в результате экспериментального скрещивания, например F2 или рекомбинантных инбредных штаммов / линии (RILs). Чтобы сканировать область QTL в геноме, необходимо построить генную карту на основе сцепления. Некоторые из наиболее известных алгоритмов сопоставления QTL - это сопоставление интервалов, сопоставление составных интервалов и сопоставление с несколькими интервалами.

Однако разрешение картирования QTL ухудшается из-за количества проанализированной рекомбинации, что является проблемой для видов, у которых это сложно получить крупное потомство. Кроме того, разнообразие аллелей ограничено индивидами, происходящими от противоположных родителей, что ограничивает исследования разнообразия аллелей, когда у нас есть группа индивидов, представляющих естественную популяцию. По этой причине было предложено исследование общегеномной ассоциации для идентификации QTL на основе неравновесия по сцеплению, то есть неслучайной ассоциации между признаками и молекулярными маркерами. Это было усилено разработкой высокопроизводительного SNP-генотипирования.

В селекции животных и растений, использование маркеров в селекции с целью селекция, в основном молекулярная, способствовала развитию селекции с помощью маркеров. В то время как отображение QTL ограничено из-за разрешения, GWAS не имеет достаточной мощности при редких вариантах малого эффекта, которые также зависят от окружающей среды. Таким образом, концепция геномного отбора (GS) возникает для того, чтобы использовать все молекулярные маркеры в отборе и позволять прогнозировать эффективность кандидатов в этом отборе. Предложение состоит в том, чтобы генотипировать и фенотипировать обучающуюся популяцию, разработать модель, которая может получить геномные оценочные значения племенной ценности (GEBV) людей, принадлежащих к генотипированной, но не фенотипированной популяции, называемой тестируемой популяцией. Этот вид исследования может также включать популяцию валидации, используя концепцию перекрестной валидации, в которой реальные результаты фенотипа, измеренные в этой популяции, сравниваются с результатами фенотипа на основе прогноза, что раньше проверить точность модели.

Вкратце, некоторые моменты применения количественной генетики:

Данные экспрессии

Исследования дифференциальной экспрессии генов из данных RNA-Seq, как для RT-qPCR и микрочипов, требуют сравнения Цель состоит в том, чтобы идентифицировать гены, у которых наблюдается значительное изменение численности между различными условиями. Затем эксперименты разрабатываются соответствующим образом, с повторениями для каждого состояния / лечения, рандомизации и блокирования, если необходимо. используется информация о картированных данных, которые суммированы в некоторой генетической единице, как экзоны, которые занимаются сексом с гена. Результаты показывают микроматрицы могут быть аппроксимированы нормальным распределением, данные подсчета RNA-Seq лучше объясняются другими распределениями. Первым использованным распределением было распределение Пуассона, но оно недооценивает ошибку выборки, что приводит к ложноположительным результатам. С помощью методов оценивают параметр нестабильности биномиального распределения. Обобщенные линейные модели используются для выполнения тестов на статистическую значимость, и, поскольку количество генов велико, необходимо соответствовать требованиям множественных тестов. Некоторые примеры других данных анализа геномики получены из экспериментов с микрочипами или протеомикой. Часто касается болезней или стадий заболеваний.

Другие исследования

Инструменты

Есть много инструментов, которые могут быть для статистического анализа биологических данных. Большинство из них полезны в других областях знаний, охватывающих большое количество приложений (в алфавитном). Вот краткое описание некоторых из них:

  • ASReml : Специальное программное обеспечение, разработанное VSNi, которое также может быть сообществом в среде R. Он разработан для оценки компонентов дисперсии в рамках общей линейной смешанной модели с использованием ограниченного максимального правдоподобия (РЭМЛ). Допускаются модели с фиксированными эффектами и случайными эффектами, а также вложенные или скрещенные. Дает возможность исследовать различные структуры матриц дисперсия-ковариация.
  • CycDesigN: компьютерный пакет, который помогает исследователям создать экспериментальные планы и проанализировать данные, созданные из дизайна, представленного в одном из три класса обрабатываются CycDesigN. Эти классы являются разрешимыми, неразрешимыми, частично воспроизводимыми и перекрестными дизайнами. Он включает менее используемые конструкции, латинизированные, а также t-латинизированные конструкции.
  • Оранжевый : программный интерфейс для высокоуровневой обработки данных, интеллектуального анализа данных и визуальных данных. Включите инструменты для экспрессии генов и геномики.
  • R : среда с открытым исходным кодом и язык программирования, предназначенные для статистических вычислений и графики. Это реализация языка S, поддерживаемая CRAN. Помимо функций чтения таблиц данных, сбора описательной статистики, разработки и оценки моделей, его репозиторий пакетов, разработанных исследователями со всего мира. Это позволяет разрабатывать функции, предназначенные для статистического анализа данных, поступающих из конкретных приложений. В случае биоинформатики, например, есть пакеты, расположенные в главном репозитории (CRAN) и в других, как Bioconductor. Также возможно использовать используемые пакеты, которые используются в хостинг-сервисах GitHub.
  • SAS : программное обеспечение для анализа, широко используемое в сфере университетов, в сфере услуг и в промышленности. Разработанная компания с таким же названием (SAS Institute ), он использует язык SAS для программирования.
  • PLA 3.0: программное обеспечение для биостатистического анализа регулируемых сред (например, тестирование на наркотики), который поддерживает количественные тесты (параллельная линия, параллельная логистика, коэффициент наклона) и дихотомические тесты (количественный ответ, бинарные анализы). Он также поддерживает методы взвешивания для комбинированных вычислений и автоматическое агрегирование данных независимых анализов.
  • Weka : Java программное обеспечение для машинного обучения и интеллектуального данных., включая инструменты и методы для визуализации, кластеризации, регрессии, ассоциации и классификации. Есть инструменты для перекрестной проверки, начальная загрузка и модуль сравнения алгоритмов. Weka также может работать на других языках программирования, таких как Perl или R.
Объем и учебные программы

Почти все образовательные программы по биостатистике находятся на аспирантском уровне. Чаще всего их можно найти в школах общественного здравоохранения, связанных с школами медицины, лесоводства или сельского хозяйства, или в качестве основных приложений в секторе экономики.

В разных кафедрах, где в нескольких университетах есть специализированные кафедры биостатистики, многие другие ведущие университеты объединяют факультеты биостатистики со статистикой или другими кафедрами, такими как эпидемиология. Таким образом, отделы, носящие название «биостатистика», могут существовать в совершенно разных структурах. Например, были созданы новые кафедры биостатистики, специализирующиеся на биоинформатике и вычислительной биологии, тогда как старые кафедры, обычно связанные со школами общественного здравоохранения. направления, включая эпидемиологические исследования и клинические испытания, а также биоинформатику. Между этими двумя факультетами может заключаться глобальная организация по минимальному до очень тесного сотрудничества. В целом, разница между статистической программой и программой биостатистики двоякая: (i) статистические отделы часто проводят теоретические / методологические исследования, которые менее распространены в программах биостатистики, и (ii) отделы статистики имеют исследования, которые могут включать биомедицинские приложения. но также и другие области, такие как промышленность (контроль качества ), бизнес и экономика, а также биологические области помимо медицины.

Специализированные журналы
См. Также: Список журналов по биостатистике
  • Биостатистика
  • Международный журнал биостатистики
  • Журнал эпидемиологии и биостатистики
  • Биостатистика и общественное здравоохранение
  • Биометрия
  • Биометрика
  • Биометрический журнал
  • Связь в биометрии и растениеводстве
  • Статистические приложения в генетике и молекулярная биология
  • Статистические методы в медицинских исследованиях
  • Фармацевтическая статистика
  • Статистика в медицине
См. также
Ссылки
Внешние ссылки

СМИ, связанные с Биостатистикой на Wikimedia Commons

Последняя правка сделана 2021-05-12 06:55:51
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте