Набор данных о цветках ириса

редактировать
Диаграмма рассеяния набора данных

Набор данных о цветках ириса или Набор данных Fisher's Iris - это многомерный набор данных, представленный британским статистиком, евгенистом и биологом. Рональд Фишер в своей статье 1936 г. Использование множественных измерений в таксономических задачах в качестве примера линейного дискриминантного анализа. Иногда его называют набором данных ириса Андерсона, потому что Эдгар Андерсон собрал данные для количественной оценки морфологической вариации цветков ириса трех родственных видов.. Два из трех видов были собраны на полуострове Гаспе «все с одного пастбища, собраны в один день и измерены в одно и то же время одним и тем же человеком с помощью одного и того же прибора». Статья Фишера была опубликована в журнале Annals of Eugenics, что вызвало споры о продолжающемся использовании набора данных Iris для обучения статистическим методам сегодня.

Набор данных состоит из 50 образцов каждого из трех видов ириса (Iris setosa, Iris virginica и Iris versicolor ). Для каждого образца измеряли четыре элемента : длину и ширину чашелистиков и лепестков в сантиметрах. Основываясь на комбинации этих четырех характеристик, Фишер разработал линейную дискриминантную модель, позволяющую отличать виды друг от друга.

Содержание

  • 1 Использование набора данных
  • 2 Набор данных
    • 2.1 Код R, иллюстрирующий использование
    • 2.2 Код Python, иллюстрирующий использование
  • 3 См. Также
  • 4 Ссылки
  • 5 Внешние ссылки

Использование набора данных

Неудовлетворительно кластеризация k-средних (данные не могут быть сгруппированы в известные классы) и фактические виды, визуализированные с помощью ELKI Пример так называемая «карта метро» для набора данных Iris Лишь небольшая часть Iris-virginica смешана с Iris-versicolor. Все остальные образцы разных видов ирисов принадлежат разным узлам.

На основе линейной дискриминантной модели Фишера этот набор данных стал типичным тестовым примером для многих методов статистической классификации в машинном обучении такие как машины поддержки векторов.

Использование этого набора данных в кластерном анализе, однако, не является обычным явлением, поскольку набор данных содержит только два кластера с довольно очевидным разделением. Один из кластеров содержит Iris setosa, а другой кластер содержит как Iris virginica, так и Iris versicolor, и его невозможно разделить без информации о видах, которую использовал Фишер. Это делает набор данных хорошим примером для объяснения разницы между контролируемыми и неконтролируемыми методами в интеллектуальном анализе данных : линейную дискриминантную модель Фишера можно получить, только если известны виды объектов: метки классов и кластеры не обязательно являются то же самое.

Тем не менее, все три вида Ириса отделимы в проекции на нелинейную и ветвящуюся главную составляющую. Набор данных аппроксимируется ближайшим деревом с некоторым штрафом за чрезмерное количество узлов, изгибов и растяжений. Затем строится так называемая «карта метро». Точки данных проецируются на ближайший узел. Для каждого узла составляется круговая диаграмма прогнозируемых точек. Площадь круговой диаграммы пропорциональна количеству проецируемых точек. Из диаграммы (слева) видно, что абсолютное большинство образцов разных видов ирисов принадлежат разным узлам. Лишь небольшая часть Iris-virginica смешана с Iris-versicolor (смешанные сине-зеленые узлы на диаграмме). Следовательно, три вида ириса (Iris setosa, Iris virginica и Iris versicolor) можно разделить с помощью неконтролирующих процедур нелинейного анализа главных компонентов. Чтобы различать их, достаточно просто выбрать соответствующие узлы на главном дереве.

Набор данных

Iris setosa

Набор данных содержит набор из 150 записей по пяти атрибутам - длине чашелистика, ширине чашелистика, длине лепестка, ширине лепестка и виду.

Iris versicolor Iris virginica Двойной график спектральной карты набора данных ириса Фишера
Данные ириса Фишера
Порядок набора данныхДлина чашелистикаШирина чашелистикаДлина лепесткаШирина лепесткаВиды
15,13,51,40,2I. setosa
24.93.01.40.2I. setosa
34,73,21,30,2I. setosa
44,63,11,50,2I. setosa
55.03.61.40.3I. setosa
65.43.91.70.4I. setosa
74,63,41,40,3I. setosa
85.03.41.50.2I. setosa
94,42,91,40,2I. setosa
104.93.11.50.1I. setosa
115,43,71,50,2I. setosa
124,83,41,60,2I. setosa
134.83.01.40.1I. setosa
144.33.01.10.1I. setosa
155.84.01.20.2I. setosa
165,74,41,50,4I. setosa
175.43.91.30.4I. setosa
185,13,51,40,3I. setosa
195,73,81,70,3I. setosa
205.13.81,50,3I. setosa
215,43,41,70,2I. setosa
225.13.71,50,4I. setosa
234.63.61.00.2I. setosa
245.13.31.70.5I. setosa
254,83,41,90,2I. setosa
265.03.01.60.2I. setosa
275.03.41.60.4I. setosa
285,23,51,50,2I. setosa
295.23.41.40.2I. setosa
304,73,21,60,2I. setosa
314.83.11.60.2I. setosa
325,43,41,50,4I. setosa
335.24.11.50.1I. setosa
345,54,21,40,2I. setosa
354.93.11,50.2I. setosa
365.03.21.20.2I. setosa
375,53,51,30,2I. setosa
384,93,61,40,1I. setosa
394.43.01.30.2I. setosa
405.13.41,50.2I. setosa
415.03.51.30.3I. setosa
424,52,31,30,3I. setosa
434.43.21.30.2I. setosa
445.03.51.60.6I. setosa
455.13.81.90.4I. setosa
464,83,01,40,3I. setosa
475.13.81.60.2I. setosa
484,63,21,40,2I. setosa
495,33,71,50,2I. setosa
505.03.31.40.2I. setosa
517.03.24.71.4I. versicolor
526,43,24,51,5I. versicolor
536.93.14.91,5I. versicolor
545,52,34,01,3I. разноцветный
556,52,84,61,5I. versicolor
565,72,84,51,3I. versicolor
576,33,34,71,6I. versicolor
584,92,43,31,0I. разноцветный
596,62,94,61,3I. versicolor
605,22,73,91,4I. versicolor
615.02.03.51.0I. versicolor
625.93.04.21,5I. versicolor
636.02.24.01.0I. versicolor
646,12,94,71,4I. versicolor
655,62,93,61,3I. versicolor
666,73,14,41,4I. versicolor
675,63,04,51,5I. versicolor
685,82,74,11,0I. versicolor
696,22,24,51,5I. versicolor
705,62,53,91,1I. versicolor
715.93.24,81,8I. versicolor
726,12,84,01,3I. versicolor
736,32,54,91,5I. разноцветный
746,12,84,71,2I. versicolor
756,42,94,31,3I. versicolor
766,63,04,41,4I. versicolor
776,82,84,81,4I. разноцветный
786,73,05,01,7I. versicolor
796,02,94,51,5I. versicolor
805,72,63,51,0I. versicolor
815,52,43,81,1I. versicolor
825,52,43,71,0I. разноцветный
835,82,73,91,2I. разноцветный
846,02,75,11,6I. versicolor
855,43,04,51,5I. разноцветный
866,03,44,51,6I. versicolor
876,73,14,71,5I. versicolor
886,32,34,41,3I. versicolor
895.63.04.11.3I. versicolor
905,52,54,01,3I. versicolor
915,52,64,41,2I. versicolor
926,13,04,61,4I. versicolor
935,82,64,01,2I. versicolor
945.02.33.31.0I. versicolor
955,62,74,21,3I. versicolor
965,73,04,21,2I. versicolor
975,72,94,21,3I. versicolor
986,22,94,31,3I. versicolor
995.12.53.01.1I. versicolor
1005,72,84,11,3I. versicolor
1016,33,36,02,5I. virginica
1025.82.75.11.9I. virginica
1037.13.05.92.1I. virginica
1046.32.95.61.8I. virginica
1056,53,05,82,2I. virginica
1067.63.06.62.1I. virginica
1074,92,54,51,7I. virginica
1087.32.96.31.8I. virginica
1096,72,55,81,8I. virginica
1107,23,66,12,5I. virginica
1116.53.25.12.0I. virginica
1126,42,75,31,9I. virginica
1136,83,05,52,1I. virginica
1145,72,55,02,0I. virginica
1155,82,85,12,4I. virginica
1166,43,25,32,3I. virginica
1176,53,05,51,8I. virginica
1187,73,86,72,2I. virginica
1197,72,66,92,3I. virginica
1206,02,25,01,5I. virginica
1216,93,25,72,3I. virginica
1225.62.84.92.0I. virginica
1237,72,86,72,0I. virginica
1246,32,74,91,8I. virginica
1256,73,35,72,1I. virginica
1267,23,26,01,8I. virginica
1276,22,84,81,8I. virginica
1286.13.04.91.8I. virginica
1296,42,85,62,1I. virginica
1307.23.05.81.6I. virginica
1317,42,86,11,9I. virginica
1327.93.86.42.0I. virginica
1336,42,85,62,2I. virginica
1346,32,85,11,5I. virginica
1356,12,65,61,4I. virginica
1367,73,06,12,3I. virginica
1376,33,45,62,4I. virginica
1386,43,15,51,8I. virginica
1396,03,04,81,8I. virginica
1406.93.15.42.1I. virginica
1416,73,15,62,4I. virginica
1426.93.15.12.3I. virginica
1435.82.75.11.9I. virginica
1446,83,25,92,3I. virginica
1456,73,35,72,5I. virginica
1466,73,05,22,3I. virginica
1476,32,55,01,9I. virginica
1486.53.05.22.0I. virginica
1496,23,45,42,3I. virginica
1505.93.05.11.8I. virginica

Набор данных iris широко используется в качестве набора данных для новичков в целях машинного обучения. Набор данных включен в R (язык программирования) base и Python в пакет машинного обучения Scikit-learn, так что пользователи могут получить к нему доступ без необходимости искать для него источник.

R код, иллюстрирующий использование

iris class (iris) # "data.frame" iris3 class (iris3) # "array"

Python код, иллюстрирующий использование

из sklearn.datasets import load_iris iris = load_iris () iris

Этот код дает:

{'data': array ([[5.1, 3.5, 1.4, 0.2], [4.9, 3., 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1, 1.5, 0.2],

Было опубликовано несколько версий набора данных.

См. Также

Ссылки

Внешние ссылки

  • «Fisher's Iris Data». (Содержит две задокументированные ошибки). Репозиторий машинного обучения UCI: набор данных Iris.
Последняя правка сделана 2021-05-24 06:43:48
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте