Зашумленные данные

редактировать

Зашумленные данные - это данные, которые повреждены, искажены или имеют низкое отношение сигнал / шум. Неправильные процедуры (или неправильно задокументированные процедуры) для вычитания шума в данных могут привести к ложному ощущению точности или ложным выводам.

Данные = истинный сигнал + шум

Зашумленные данные - это данные с большим количеством дополнительной бессмысленной информации, называемой шумом. Сюда входит повреждение данных, и этот термин часто используется как синоним поврежденных данных. Он также включает любые данные, которые пользовательская система не может правильно понять и интерпретировать. Многие системы, например, не могут использовать не структурированный текст. Шумные данные могут отрицательно повлиять на результаты любого анализа данных и искажать выводы, если с ними не обращаться должным образом. Статистический анализ иногда используется для исключения шума из зашумленных данных.

Источники шума
В этом примере выброса и фильтрации точка t2 является выбросом. Плавный переход к выбросу и от него связан с фильтрацией, и это тоже не действительные данные, а больше шума. Представление отфильтрованных результатов (сглаженных переходов) как фактических измерений может привести к ложным выводам. Этот тип фильтра (скользящее среднее ) сдвигает данные вправо. Средняя скользящая цена в данный момент времени обычно сильно отличается от реальной цены в то время.

Отличия реальных измеренных данных от истинных значений обусловлены множеством факторов, влияющих на измерение.

Случайный шум часто является значительным компонентом шума в данных. Случайный шум в сигнале измеряется как отношение сигнал / шум. Случайный шум содержит почти равные количества широкого диапазона частот и также называется белым шумом (поскольку цвета света объединяются, чтобы получить белый). Случайный шум - неизбежная проблема. Это влияет на процессы сбора и подготовки данных, где часто возникают ошибки. Шум имеет два основных источника: ошибки, вносимые инструментами измерения, и случайные ошибки, вносимые обработкой или экспертами при сборе данных.

Неправильное Фильтрация может добавить шум, если обработан отфильтрованный сигнал как если бы это был непосредственно измеренный сигнал. Например, Свертка -типа цифровые фильтры, такие как скользящее среднее, могут иметь побочные эффекты, такие как запаздывание или усечение пиков. Дифференцирующие цифровые фильтры усиливают случайный шум в исходных данных.

Outlier данные - это данные, которые не входят в набор данных. Это может быть вызвано человеческими ошибками, такими как перестановка цифр, неправильная маркировка, ошибки программирования и т. Д. Если фактические выбросы не удаляются из набора данных, они искажают результаты в небольшой или большой степени в зависимости от обстоятельств. Если действительные данные идентифицированы как выбросы и ошибочно удалены, это также искажает результаты.

Мошенничество : люди могут намеренно исказить данные, чтобы повлиять на результаты и привести к желаемому выводу. Данные, которые выглядят хорошо с небольшими выбросами, хорошо отражаются на собирающем их отдельном человеке, поэтому может быть стимул удалить больше данных как выбросы или сделать данные более гладкими, чем есть на самом деле.

Ссылки
Последняя правка сделана 2021-05-31 11:46:58
Содержание доступно по лицензии CC BY-SA 3.0 (если не указано иное).
Обратная связь: support@alphapedia.ru
Соглашение
О проекте