Темные данные практическое руководство по принятию правильных решений в мире недостающих данных

Просмотр других отзывов вызывает некоторое недоумение. Эти комментаторы точно читали книгу?

Итак, о чем же книга: эта книга написана президентом Британского Королевского Статистического Общества, и основная ее тема это теория вероятности и математическая статистика. Целевая аудитория – те кому нравится творчество Талеба, Млодинова, Мобуссина и других сходных авторов.

Из того, что я читал, похоже на книгу «Как лгать при помощи статистики» Дарелла Хаффа. Но гораздо глубже и современнее конечно.

В книге разбираются такие вопросы как, например, что делать если в социологическом опросе часть респондентов вообще не ответили на вопросы? Можно их просто не учитывать? (спойлер: нет, нельзя) Ну или как поступать, когда при испытаниях нового лекарства часть испытуемых по собственному желанию вышли из программы досрочно. Можно их просто вычеркнуть, как будто их и не было никогда? (спойлер: снова нет). Вот это и есть те самые «темные данные» которым посвящена книга.

Эта книга НЕ ПРО приватность и сохранность личных данных в интернете. Этот вопрос пару раз упоминается но совершенно мимоходом.

Также эта книга НЕ ПРО Big Data. Все что рассматривается тут это структурированные данные полученные от агентств вроде министерства здравоохранения или в ходе, скажем, клинического эксперимента. Big Data это обработка естественного языка, изображений, звука и видео контента. В книге про это нет ничего или почти ничего.

Этические вопросы сбора данных о людях по большей части тоже лежат за пределами данной книги. Тоже пара упоминаний вскользь о том, что такая проблема в принципе есть – не более того. Так что книга НЕ ПРО это тоже.

Ближе к самой книге: первая половина, на мой взгляд, написана просто отлично. Очень интересно, много классных вопросов и примеров. Все по теме. Вторая половина, к сожалению, огорчает. Автор начинает слишком сильно растекаться мыслями. Получается повествование просто обо всем и в результате ни о чем одновременно. Он пытается охватить сразу и астрофизику и биржевые махинации и медицинские вопросы и вообще все. В итоге повествование теряет фокус, становится расплывчатым и неконкретным.

Было бы лучше, если бы автор пошел не в ширь, а в глубь. То есть более глубоко рассмотрел поднятые им же самим вопросы. Почему промахивались социологические опросы касательно победы Трампа? Почему статистические органы рапортуют аномально низкие показатели инфляции хотя потребители отмечают повышение цен? А промахи опросов касательно брексита? Вот где не мешало бы покопаться в темных данных.

А как насчет проблем с кредитным скорингом перед кризисом 2008 года? Как получалось, что множество заемщиков невероятно низкого качества получило такие объемы кредитов? Я изучал вопрос более глубоко и знаю, что тут тоже не обошлось без изрядной доли темных данных.

В общем, за первую половину книги 5 звезд, а за вторую половину две. В итоге в среднем 3,5 звезды, которые я округлил в пользу автора до 4. Почитать все же стоит.

О чем

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем?

Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, о результатах медицинского исследования, которые намеренно утаили или случайно исказили, или о данных, ставших темными из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект темных данных и как их можно обратить себе на пользу. 

«Темные данные скрыты от нас, и этот факт означает, что мы рискуем недооценить опасность, сделать неправильный вывод и принять неверное решение. Иначе говоря, наше неведение становится причиной ошибок».

Для кого

Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

«Темные данные ведут себя аналогично темной материи: мы не видим их, они не обнаруживаются, но все же способны оказывать существенное влияние на наши выводы, решения и действия. И, как я покажу на дальнейших примерах, если не осознать саму вероятность существования чего-то неизвестного, то последствия такой слепоты могут быть катастрофическими и даже фатальными».

«Хотя иметь много данных полезно, большие данные, то есть объем, — это еще далеко не все. И то, чего вы не знаете, те данные, которых у вас нет, могут быть важнее для понимания происходящего, чем те, которыми вы располагаете».

Отзывы экспертов

Привет.

Не скрою, что у меня всегда есть определенная толика профессионального интереса к работе с данными, их анализу. Поэтому когда увидел книгу Дэвида Хэнда с интригующим названием “Темные данные”, а также прочитал подзаголовок “Практическое руководство по принятию правильных решений в мире недостающих данных”, решил ее полистать. К моему удовольствию, Дэвид Хэнд оказался британским статистиком, а заодно президентом Королевского статистического общества, за свою работу он получил звание офицера Ордена Британской империи.

Выборочно открыл книгу в нескольких местах, увиденное понравилось, в итоге прочитал книгу за пару дней (360 страниц или около того, немного). Текст написан легким языком, но без ненужных упрощений и допущений, что очень ценно в таких работах. За простотой скрываются большие знания автора и отлично подобранные примеры, которые позволяют оценить важность данных. Под “темными данными” понимается информация, которая намеренно или случайно искажена, отсутствует в наборе данных и меняет наше представление об обсуждаемом предмете. Давайте приведу пример, который хорошо это объяснит:

«Арктическим экспедициям 1852, 1857 и 1875 гг. поставлялось Arctic Ale — пиво с особо низкой температурой замерзания, изготовленное Сэмюэлем Аллсоппом. Альфред Барнард, написавший историю британского пивоварения, попробовал этот эль в 1889 г., описав его как напиток “приятного коричневого оттенка, обладающий вкусом вина и орехов и таким шипением, словно был сварен только что… Из-за большого количества оставшегося нефильтрованного экстракта, его следует рассматривать как чрезвычайно ценный и питательный продукт”. Как раз то, что нужно в арктических экспедициях.

В 2007 г. бутылка из партии 1852 г. была выставлена на аукционе eBay со стартовой ценой $299. Продавец, у которого она хранилась 50 лет, неправильно написал название пива, пропустив одну “p” в слове “Allsopp”. Как следствие, предмет не обнаруживался поисковыми запросами любителей винтажного пива, так что поступило только две заявки. Из них победила заявка 25-летнего Даниэля Вудула, который предложил целых $304. Стремясь определить ценность покупки, Вудул тут же вновь выставил бутылку на продажу, но на этот раз с правильным названием. В ответ было подано 157 заявок с максимально предложенной ценой $503300.

В этом случае одна пропущенная буква стоила полмиллиона долларов. Это наглядный пример того, что потеря информации может привести к значительным последствиям».

На самом деле предложение в полмиллиона было шуточным, бутылку в итоге купили за $4300. Что все равно на порядок отличается от того, что выручил первый владелец. Случайное искажение информации привело к тому, что были потеряны вполне реальные деньги, но такие ситуации происходят сплошь и рядом. Вспомните, как на фондовом рынке скупают акции случайных компаний, названия которых созвучны тем, что действительно представляют интерес. Кажется, что это невозможно в наше время, но ситуация повторяющаяся, и избежать ее невозможно.

Вводя читателя в классификацию темных данных, Хэнд предлагает понимание того, как возникают ошибки. Например, существуют данные, про которые мы не догадываемся, что они отсутствуют. В Америке часто приводят в качестве подтверждения строительных умений предков бревенчатые хижины времен освоения Дикого Запада. Кажется, что сам факт существования этих строений доказывает умения строителей. Но мало кто задумывается, куда делись все остальные хижины, ведь они исчезли. До нашего времени сохранились только лучшие образцы, а 99% исчезло. И это те самые данные, про которые большинство не думает. У нас часто приводят в качестве примера городскую легенду о дельфинах, которые спасают людей, так как толкают их в сторону берега. Вот только те, кого дельфины, играя, толкали в открытое море, уже ничего не могут рассказать. Ошибка выжившего.

Другим примером искажения данных может являться их восприятие, когда общество впервые уделяет им внимание. Например, газеты не публикуют в криминальной хронике определенный тип преступлений, а затем это становится модным. И создается ошибочное впечатление, что это нечто новое и происходит рост таких преступлений. Но это в большинстве случаев не так, скорее мы впервые видим данные, они становятся для нас новыми.

Ошибки в изначальных данных случаются сплошь и рядом, их тоже нужно уметь распознавать. Человеческий фактор всегда выходит на первое место, уверен, что вы удивитесь, если увидите на своем банковском счету миллионы, которых там еще вчера не было. Ошибка не такая уж редкая, сотрудники разных компаний часто ошибаются в запятых, когда выставляют числа. Например, итальянская авиакомпания Alitalia в 2006 году продала билеты бизнес-класса из Торонто на Кипр по 39 долларов вместо 3900 долларов за штуку. Общий убыток составил 7.2 млн долларов.

Но можно перепутать не только запятые в цифрах, а правильные колонки. В 2005 году инвестиционная компания Mizuho Securities потеряла 300 млн долларов. Она предложила 610 тысяч акций J-com по стоимости в одну иену, хотя все должно было быть наоборот — стоимость акции составляла 610 тысяч иен. В книге приводятся десятки таких ошибок, которые стоили компаниям миллиардов. И это тоже про работу с данными, которые могут не просто отсутствовать, а быть искажены в силу ошибки, либо это может быть сделано осознанно.

Какие еще ошибки могут быть? Любые. Ошибка измерительных приборов или методики, что дает сбой. Намеренная фальсификация, которую можно найти с помощью математических методов. Один из примеров, который меня заставил улыбнуться, это рассылка в сотни научных журналов поддельной статьи, внутри которой не содержалось ничего конкретного, в итоге сотни публикаций без какой-либо проверки. Это хорошо иллюстрирует тот мир, в котором мы живем.

Знаете, это одна из книг, которые можно рекомендовать прочитать самому широкому кругу людей, от тех, кто занимается анализом данных профессионально (нового не найдете, но любопытные моменты встретите), до обычных людей, которые хотят чуть лучше понимать, как формируется мир информации вокруг всех нас. Одним словом, читать книгу нужно, она откровенно хороша и написана легким языком. Рекомендую.

Темные данные

На странице вы можете книгу Темные данные скачать в fb2 и epub формате бесплатно, а также начать читать онлайн. Издание Темные данные (Дэвид Хэнд) относится к жанру базы данных. Прочитали книгу полностью? Поделитесь мнением о прочитанной книге с другими пользователями. Электронная книга автора Дэвид Хэнд адаптирована под ПК и гаджеты на Android и iOS, поэтому качать и читать ее можно на всех устройствах без регистрации.

  • Автор: Дэвид Хэнд
  • Жанр: базы данных, экономическая статистика
  • Теги: big data, анализ данных, анализ данных и исследования, аналитика, обработка данных, статистика, статистические данные
  • Информация: правообладателям
  • Год: 2020
  • Поделиться:

Аннотация
Пролог
Отзывы (0)

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Посвящается Шелли Предисловие Перед вами необычная книга. Почти все, что издается на эту тему – будь то популярная литература о больших или открытых данных, обработке данных или пособия по статистическому анализу, – основывается на том, что у вас уже есть. Речь идет об информации, хранящейся в компьютере, ящиках рабочего стола или аудио-, видеозаписях вашего смартфона. Но эта книга совсем о другом. Она о данных, которых у вас нет. Возможно, вы пытаетесь получить их прямо сейчас или когда-то безуспешно пытались сделать это, а может быть, ошибочно полагаете, что они у вас имеются. Как бы то ни было, речь пойдет о данных, которых у вас нет. Я утверждаю и далее продемонстрирую это на многих примерах, что отсутствующие данные важны не менее тех, которыми мы располагаем. Вы сможете сами убедиться, что неизвестные нам данные являются причиной многих заблуждений, порой имеющих катастрофические…

Каждый день мы перерабатываем огромные объемы контента, делая прогнозы и принимая решения. Чтобы просто одеться по погоде, выбрать подходящее кафе для делового завтрака или рассчитать траекторию полета космического корабля надо учесть много факторов и собрать максимум информации. Последствия ошибки в этих примерах будут разительно отличаться, но суть одна — если дело пошло не так, значит, в процессе вы что-то упустили.

Тёмные данные. Практическое руководство по принятию правильных решений в мире недостающих данных Альпина Паблишер

Для начала разберемся, что такое данные. Есть много концепций, связывающих понятия «данных», «информации» и «знаний», но для простоты можно считать данными все сведения, которые можно обрабатывать, хранить и передавать. Когда данные накапливаются в голове или в облачном хранилище, категорируются или подсчитываются, то становятся информацией о процессах, явлениях или предметах. Если проще, когда с данными что-то происходит, то они становятся информацией. Например, цифры 1, 2, 3, 6, 7, 8 и знак нуля — это данные, но составленные в правильном порядке они превращаются в информацию, например, в номер Пулковской обсерватории: +7 (812) 363-72-07

Теперь рассмотрим, что такое «тёмные данные». Само это понятие возникло по аналогии с другим физическим термином — темной материей. Минимум треть Вселенной состоит из этой субстанции, которая при взаимодействии со светом или электромагнитным излучением поглощает его, оставаясь невидимой. Так вот, темные данные — как черные дыры. Их не видно, самостоятельно они не обнаруживаются, но оказывают существенное влияние на принятые решения. Если вы что-то не видите, это не значит, что этого не существует. Может казаться, что такие «дыры» могут возникать только из-за человеческого фактора, когда мы сами собрали недостаточно данных, а значит, не учли все вероятности исхода. Но это только одна из разновидностей темных данных, которых в книге выделено пятнадцать. Оказывается, информация может прятаться, искажаться, выходить далеко за пределы исследуемого нами предмета, попросту обобщаться или базово отсутствовать.

Можно ли обнаружить темные данные? Да, если проследить путь их возникновения. Для этого проанализируем стратегию сбора информации.

Если мы собираем сведения при помощи опросов, то руководствуемся ответами большинства. Например, мы хотим узнать какие часы работы супермаркета будут удобнее всего. Проведя опрос жителей конкретного района, мы получим ответы только тех, кто прошел телефонное интервью или заполнил анкету на выходе из магазина. При этом не собранные голоса других жителей окрестности окажутся в области темных данных. На что это влияет? В случае с супермаркетом неверно выбранная стратегия работы принесет предприятию убытки. В случае с предвыборной кампанией — провал кандидата в президенты.

Однако финансовые потери несопоставимы с человеческими катастрофами. Так темные данные тип 3, о которых мы не знаем, что они существуют и тип 2 — выборочные факты привели к взрыву космического челнока NASA в 1986 году. Спустя минуту полета на высоте 15 км погибли все члены экипажа. В «черной дыре» анализа оказалась информация о ряде пробных запусков, сигнализирующих о критическом состоянии уплотнительных колец на высоких температурах, которые и стали причиной аварии.

Учитывая, что собрать абсолютно все данные невозможно, риск появления неучтенных, темных данных есть всегда. Но это не должно пугать, ведь знание о том, что они существуют уже ставит вас в выигрышную позицию. А дальше — дело особой техники связывания имеющихся вводных с отсутствующими, но об этом лучше сами прочитайте в книге Дэвида Хэнда.

Альпина Паблишер

Понравилась статья? Поделить с друзьями:
  • Амлодипин инструкция по применению цена отзывы аналоги таблетки цена аналоги
  • Бутадион таблетки инструкция цена отзывы по применению аналоги таблетки взрослым
  • Nero wave editor инструкция на русском скачать
  • Сибири цена ингалятор инструкция по применению
  • Satel integra 256 plus инструкция на русском