Enron Corpus

редактировать

Enron Corpus - это база данных, содержащая более 600 000 электронных писем, созданных 158 сотрудниками Enron Corporation в годы, предшествовавшие краху компании в декабре 2001 года. Корпус был сгенерирован с серверов электронной почты Enron Федеральной комиссией по регулированию энергетики (FERC) в ходе ее последующего расследования. Копия базы данных электронной почты была впоследствии приобретена за 10 000 долларов Эндрю МакКаллумом, ученым-компьютерщиком из Университета Массачусетса в Амхерсте. Он предоставил эту копию исследователям, предоставив массу данных, которые были использованы для исследований социальных сетей и компьютерной коммуникации.

Содержание

1 Создание
2 Эксплуатация
3 Ссылки
4 Внешние ссылки

Создание

В ходе юридического расследования краха Enron процесс обнаружения потребовал сбора и сохранения огромных объемов данных, для чего FERC нанял Aspen Systems (теперь часть Lockheed Martin ). Электронные письма были собраны в штаб-квартире Enron Corporation в Хьюстоне в течение двух недель в мае 2002 года Джо Бартлингом, подрядчиком по поддержке судебных разбирательств и анализу данных для Aspen. Помимо электронных писем сотрудников Enron, все корпоративные системы баз данных Enron, размещенные в базах данных Oracle на серверах Sun Microsystems, были захвачены и сохранены, включая его онлайн-торговлю энергией, EnronOnline.

После сбора электронные письма Enron обрабатывались и размещались на проприетарных платформах электронного обнаружения (сначала Concordance, затем iCONECT) для проверки следователями из FERC, Комиссия по торговле товарными фьючерсами и Министерство юстиции. По завершении расследования и после выпуска отчета персонала FERC, электронные письма и собранная информация были сочтены находящимися в общественном достоянии и использовались для исторического исследования и академические цели. Архив электронной почты стал общедоступным и доступным для поиска через Интернет с помощью iCONECT 24/7, но из-за того, что объем электронной почты превышал 160 ГБ, его использование было непрактичным. Копии собранных писем и баз данных были доступны на жестких дисках.

. Джитеш Шетти и Джафар Адиби из Университета Южной Калифорнии обработали данные в 2004 году и выпустили MySQL версия. В 2010 году EDRM.net опубликовал обновленную и расширенную версию 2 корпуса, содержащую более 1,7 миллиона сообщений, которая была размещена на Amazon S3 для облегчения доступа исследователей.

Эксплуатация

Корпус оценивается как одна из немногих общедоступных массовых коллекций реальных электронных писем, легко доступных для изучения; такие коллекции обычно связаны многочисленными ограничениями конфиденциальности и юридическими ограничениями, которые делают их чрезвычайно труднодоступными, такими как соглашения о неразглашении и очистка данных. Шетти и Адиби, основываясь на своей версии MySQL, опубликовали анализ ссылок, из которых учетные записи пользователей отправили по электронной почте. Лингвистическое сравнение с более поздним электронным письмом корпус показывает изменения в электронном письме реестр английского языка. Он также используется в качестве тестовых или обучающих данных для исследований в обработке естественного языка и машинном обучении.

Ссылки

Внешние ссылки

данные Nuix набор очищен от PII (требуется регистрация)
Учебное пособие по моделированию данных с помощью Enron Corpus
Загрузка набора данных электронной почты Enron Шетти и Адиби на S3 (178 МБ)
Натан Хеллер: Что о нас говорят электронные письма Enron The New Yorker, 24 июля 2017 г.
База данных электронной почты Enron с возможностью поиска (требуется регистрация)
Открытый тестовый поиск Доступный для поиска корпус всех вложения электронной почты, используемые для сравнения различных поисковых систем предприятия.