Мы рассмотрим книги для начинающих специалистов по Data Science (науке о данных). Вы можете посмотреть на нормальное, формализованное исследование с сайта best-books.dev, книг там в писке 12, но я не уверен что все они нужны начинающему «дата-сат@нисту», чтобы зарабатывать свои 5000 долларов в наносекунду, и рекомендую только то, что зашло мне.
1 «Data Science. Наука о данных с нуля» — Джоэл Грас
Теория немного суховата и не полностью раскрывается. Из жирных плюсов: в конце каждой главы есть список для дальнейшего изучения с очень хорошими книгами и ссылками — советую изучить. Книга мне очень понравилась. Особенно первые 100 страниц, — до первых сложных формул. Погружение происходит в интересном интерактивном виде — как история реального погружения в профессию, своеобразного онбординга (адаптации) на новом рабочем месте в выдуманной социальной сети для исследователей данных на позиции, конечно же, дата саентиста. Написано с юмором. Те кто работал ранее в любой ИТ — компании оценят отсылки и рабочие моменты общения в коллективе, автор интересно вплетает сложные знания в рабочий ритм и будни:
Добро пожаловать на борт и удачи! (Вам разрешено носить джинсы по пятницам, а туалет — по коридору направо.)
- Книга позволяет освоить науку о данных, начав «с чистого листа». Она написана так, что способствуют погружению в Data Science аналитика, фактически не обладающего глубокими знаниями в этой прикладной дисциплине.
- Вы пройдите интенсивный курс языка Python (но по честному вторая книга из этого списка справляется именно с этим лучше)
- Изучите элементы линейной алгебры, математической статистики, теории вероятностей и их применение — немного сумбурно и не очень простыми словами, нужно искать объяснения попроще
- Займитесь сбором, очисткой, нормализацией и управлением данными
Во втором издании примеры переписаны на Python 3.6, игрушечные наборы данных заменены на «реальные», добавлены материалы по глубокому обучению и этике данных, статистике и обработке естественного языка, рекуррентным нейронным сетям, векторным вложениям слов и разложению матриц.
Джоэл Грас работал инженером-программистом в компании Google. До этого занимался аналитической работой в нескольких стартапах. Активно участвует в неформальных мероприятиях специалистов в области науки о данных.
2 «Python для сложных задач» — Дж. Уандер Плас
Для многих исследователей Python является первоклассным инструментом, главным образом из-за его библиотек для хранения данных, манипулирования ими и получения дополнительной информации из них. С помощью данной книги вы можете изучить все эти библиотеки и инструменты — IPython, NumPy, Pandas, Matplotlib, Scikit-Learn и другие.
Работающие ученые и специалисты по обработке данных, знакомые с чтением и написанием кода Python, сочтут этот исчерпывающий настольный справочник идеальным для решения повседневных задач: манипулирования, преобразования и очистки данных; визуализация различных типов данных; и использование данных для построения статистических моделей или моделей машинного обучения. Это топовый справочник по научным вычислениям в Python.
Кроме того, книга «Python для сложных задач: наука о данных и машинное обучение» — это подробное руководство по самым разным вычислительным и статистическим методам, без которых немыслима любая современная обработка данных, научные исследования и вообще любые передовые разработки.
Мне очень зашло объяснение науки о данных от автора. Просто топ. Особенно этот исчерпывающий рисунок с кругами Эйлера.
Что такое наука о данных?
Эта книга посвящена исследованию данных с помощью языка программирования
Python. Сразу же возникает вопрос: что же такое наука о данных (data science)?
Ответ на него дать непросто — настолько данный термин многозначен.Долгое время активные критики отказывали термину «наука о данных» в праве на
существование либо по причине его избыточности (в конце концов, какая наука
не имеет дела с данными?), либо расценивая этот термин как «модное словечко»
для придания красоты резюме и привлечения внимания агентов по найму кадров.На мой взгляд, в подобных высказываниях критики упускали нечто очень важное.
Лучшее из возможных определений науки о данных приведено в диаграмме Венна
в науке о данных, впервые опубликованной Дрю Конвеем в его блоге в сентябре
2010 года. Междисциплинарность — ключ к ее пониманию
Джейк Вандер Плас — пользователь и разработчик стека научных инструментов языка Python. В настоящее время он является руководителем группы по междисциплинарным исследованиям Вашингтонского университета, занимается собственными астрономическими исследованиями, а также консультирует ученых в разнообразных областях науки.
3 «Практическая статистика для специалистов Data Science» — Питер Брюс, Эндрю Брюс
Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. Эту книгу рекомендуют многие аналитики и дата саентисты, но она посложнее чем предыдущие и следующие в этом списке книги. Если вы не изучали статистику, будет тяжело, не совсем для новичков, это скорее следующий уровень.
Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя. Во второе издание включены примеры на языке Python, что расширяет практическое применение книги.
Питер Брюс (Peter Bruce) основал и расширил Институт статистического образования Statistics.com. Эндрю Брюс (Andrew Bruce) имеет более чем 30-летний стаж работы в области статистики и науки о данных в академической сфере, правительстве и бизнесе. Он обладает степенью кандидата наук в области статистики Вашингтонского университета и опубликовал несколько работ в рецензируемых журналах.
4 «Python и анализ данных: обработка данных с помощью Pandas, NumPy и IPython» — Уэс Маккинни
Вы получите полные инструкции по манипулированию, обработке и очистке наборов данных в Python. Второе издание этого практического руководства, обновленное для Python 3.6, содержит множество практических примеров.
В процессе вы изучите последние версии pandas, NumPy, IPython и Jupyter. Эта книга, написанная Уэсом МакКинни, создателем проекта Python pandas, представляет собой практическое современное введение в инструменты обработки данных в Python.
Он идеально подходит для аналитиков, плохо знакомых с Python, и для программистов Python, плохо знакомых с наукой о данных и научными вычислениями. Файлы данных и сопутствующие материалы доступны на GitHub.
Перевод местами странный. А так неплохая книга. Уэс Маккинни — американский разработчик программного обеспечения и бизнесмен. Создатель проекта pandas. С 2007 по 2010 год Маккинни изучал глобальные макро- и кредитные торговые стратегии в AQR Capital Management. Во время работы в AQR Capital он выучил Python и начал создавать то, что впоследствии станет pandas. Маккинни обнародовал проект pandas в 2009 году. Человек «не хрен с горы». Книге можно смело доверять.
5 «Данные: визуализируй, расскажи, используй» — Коул Нассбаумер Нафлик
Книга научит вас основам визуализации данных и тому, как эффективно взаимодействовать с ними. Вы откроете для себя силу повествования и способ сделать данные ключевым моментом в вашей истории. Вы научитесь правильно презентовать результаты своей аналитической деятельности, и для этого совсем не нужно становиться дизайнером! Очень дельные советы из практики автора. Для стартаперов и корпоратов самое оно, первым нужно питчить инвесторам, а вторым ну вы понимаете, там вообще важно правильно презентовать и рассказывать чем ты занимаешься, даже если не занимаешься ничем. Применительно к Data Science — книга просто огонь!
Не пренебрегайте визуализацией данных — это важный навык. Если не сможете донести свои гениальные открытия, не расплескав смыслы по дороге, до людей принимающих решения, то не получите никакого результата от своего ресерча. Считайте работа проделана в стол — т.е. зря. Можно было и не делать совсем. Читать эту книгу необходимо! Одна из лучших книг по визуализации.
Коул Нассбаумер Нафлик рассказывает истории с помощью данных. Она специализируется на эффективной визуализации количественной информации и ведет популярный блог storytellingwithdata.com. Ее семинары и презентации широко востребованы компаниями, некоммерческими организациями и людьми по всему миру.
На протяжении последних десяти лет она оттачивала свои уникальные профессиональные навыки, работая аналитиком в банковском секторе, в сфере прямых инвестиций и в качестве менеджера аналитической команды (People Analytics) в Google.
P.S. Еще я заказал книгу «Роман с Data Science. Как монетизировать большие данные» от Романа Зыкова rzykov. Роман Владимирович Зыков начинал с роли технического консультанта в компании StatSoft Russia, российского офиса одноименной американской компании-разработчика пакета статистического анализа данных STATISTICA. В 2004 году был принят на должность руководителя аналитического отдела интернет-магазина Ozon.ru, где создавал аналитические системы с нуля, в том числе веб-аналитику, аналитику баз данных, управленческую отчетность, внес вклад в систему рекомендаций. В 2009 году консультировал ряд проектов инвестиционного фонда Fast Lane Ventures и гейм-индустрии. В 2010 году возглавил отдел аналитики в интернет-ритейлере Wikimart.ru. В конце 2012 года стал сооснователем и совладельцем маркетинговой платформы для интернет-магазинов RetailRocket.ru. Думаю, что не разочаруюсь, опыт у человека просто шикарный, хоть в виде книги получится «поговорить» с таким человеком 😉
Планирую, как получу и прочитаю сделать полноценный обзор, а то что это мы только зарубежных товарищей читаем, не порядок!
Data Science для начинающих — это оксюморон какой-то! А еще и по книгам… ну не знаю. Хотя книга по презентациям хорошая, реально полезно, остальное сомнительно…
Мне зашла первая книга из подборки — «Data Science. Наука о данных с нуля» — Джоэл Грас. Даже купил её.
Спасибо!
Эту «Python для сложных задач» — Дж. Уандер Плас скачал с бесплатной библиотеки 😉
Спасибо за такой список, 2 для себя взял!