Recentemente eu terminei um curso na Alura chamado Python para Data Science e eu quero colocar o que eu aprendi em prática, para isso eu vou fazer uma análise descritiva nesse banco de dados Amazon Top 50 Bestselling Books 2009 - 2019. Nele há 550 livros e eles foram categorizados como fiction (ficção) e non-fiction (não ficção) pelo Goodreads. Todo o código pode ser visto aqui.

Eu comecei olhando as cinco primeiras observações do banco de dados.

NameAuthorUser RatingReviewsPriceYearGenre
10-Day Green Smoothie CleanseJJ Smith4.71735082016Non Fiction
11/22/63: A NovelStephen King4.62052222011Fiction
12 Rules for Life: An Antidote to ChaosJordan B. Peterson4.718979152018Non Fiction
1984 (Signet Classics)George Orwell4.72142462017Fiction
5,000 Awesome Facts (About Everything!) (Natio…National Geographic Kids4.87665122019Non Fiction

Aqui é possível ver que os dados tem o Year (ano) em que o livro estava no top 50 de mais vendidos, seu Price (preço), a média dos User Rating (avaliação dos usuários), total de Reviews (avaliações), Author (autor), Name (nome do livro) e por fim, Genre (gênero).

Não há valores nulos no banco de dados. E dos 550 livros há 248 autores diferentes, então vamos ver quais autores possuem mais livros no top 50 dos mais vendidos neste período.

AutorNúmero de livros
Jeff Kinney12
Gary Chapman11
Rick Riordan11
Suzanne Collins11
American Psychological Association10
Dr. Seuss9
Gallup9
Rob Elliott8
Stephen R. Covey7
Stephenie Meyer7
Dav Pilkey7
Bill O’Reilly7
Eric Carle7

O autor com mais livros no top 50 foi Jeff Kinney, empatado em segundo, com 11 livros, foi Gary Chapman, Rick Riordan, e Suzanne Collins. Empatado em 9º, está Stephen R. Covey, Stephenie Meyer, Dav Pilkey, Bill O’Reilly, e Eric Carle, com 7 livros cada.

Gráfico de viola da avaliação dos usuários

Com o gráfico de violino podemos ver como está concentrado a avaliação dos usuários e como os dados são compostos de livros bestsellers faz sentido que a avaliação dos usuários está em sua maioria concentrada em torno de 4.5 e 4.75.

Boxplot da quantidade de reviews por ano

Esse boxplot da quantidade de avaliações por ano mostra que a variabilidade aumentou através dos anos, tendo o seu pico em 2014 e gradualmente estabilizando. Podemos ver também que nos primeiros anos, 2010 e 2011, havia mais outliers nos dados.

GêneroAvaliação do UsuárioPreço
Ficção4.6510.85
Não Ficção4.6014.84

A avaliação média do usuário por gênero parece ser semelhante, com apenas 0.05 de diferença, mas o preço já apresenta uma diferença maior, 10.85 para ficção e 14.84 para não ficção. Para termos certezas de que essas diferenças são estatisticamente significantes, eu vou utilizar o teste de Mann-Whitney.

A hipótese nula do teste de Mann-Whitney é de que as amostras possuem a mesma distribuição, e em ambos os casos, nós rejeitamos a hipótese nula com 95% de confiança. O p-valor para os dados do preço foi de 8.34e-08 e o p-valor para a avaliação do usuário foi de 1.495e-07.

Para mostrar visualmente quão diferente as suas distribuição são, podemos olhar para os seguintes gráficos.

Distribuição do preço dos livros por gênero

A distribuição para os preços de livros de ficção é fortemente inclinados para a esquerda e consistentemente diminuem a medida que o preço aumenta. Enquanto que os livros de ficção começam altos e se tornam ainda mais altos, com 120 e quase 140 ocorrências nas duas primeiras categorias, então ele rapidamente diminui.

Distribuição da avaliação dos usuários por gênero

A distribuição para a avaliação do usuário do gênero de ficção lentamente aumenta, tendo seu pico próximo de 4.8. E a distribuição para o gênero de não ficção tem seu pico logo após 4.6.