Recentemente eu terminei um curso na Alura chamado Python para Data Science e eu quero colocar o que eu aprendi em prática, para isso eu vou fazer uma análise descritiva nesse banco de dados Amazon Top 50 Bestselling Books 2009 - 2019. Nele há 550 livros e eles foram categorizados como fiction (ficção) e non-fiction (não ficção) pelo Goodreads. Todo o código pode ser visto aqui.
Eu comecei olhando as cinco primeiras observações do banco de dados.
Name | Author | User Rating | Reviews | Price | Year | Genre |
---|---|---|---|---|---|---|
10-Day Green Smoothie Cleanse | JJ Smith | 4.7 | 17350 | 8 | 2016 | Non Fiction |
11/22/63: A Novel | Stephen King | 4.6 | 2052 | 22 | 2011 | Fiction |
12 Rules for Life: An Antidote to Chaos | Jordan B. Peterson | 4.7 | 18979 | 15 | 2018 | Non Fiction |
1984 (Signet Classics) | George Orwell | 4.7 | 21424 | 6 | 2017 | Fiction |
5,000 Awesome Facts (About Everything!) (Natio… | National Geographic Kids | 4.8 | 7665 | 12 | 2019 | Non Fiction |
Aqui é possível ver que os dados tem o Year (ano) em que o livro estava no top 50 de mais vendidos, seu Price (preço), a média dos User Rating (avaliação dos usuários), total de Reviews (avaliações), Author (autor), Name (nome do livro) e por fim, Genre (gênero).
Não há valores nulos no banco de dados. E dos 550 livros há 248 autores diferentes, então vamos ver quais autores possuem mais livros no top 50 dos mais vendidos neste período.
Autor | Número de livros |
---|---|
Jeff Kinney | 12 |
Gary Chapman | 11 |
Rick Riordan | 11 |
Suzanne Collins | 11 |
American Psychological Association | 10 |
Dr. Seuss | 9 |
Gallup | 9 |
Rob Elliott | 8 |
Stephen R. Covey | 7 |
Stephenie Meyer | 7 |
Dav Pilkey | 7 |
Bill O’Reilly | 7 |
Eric Carle | 7 |
O autor com mais livros no top 50 foi Jeff Kinney, empatado em segundo, com 11 livros, foi Gary Chapman, Rick Riordan, e Suzanne Collins. Empatado em 9º, está Stephen R. Covey, Stephenie Meyer, Dav Pilkey, Bill O’Reilly, e Eric Carle, com 7 livros cada.
Com o gráfico de violino podemos ver como está concentrado a avaliação dos usuários e como os dados são compostos de livros bestsellers faz sentido que a avaliação dos usuários está em sua maioria concentrada em torno de 4.5 e 4.75.
Esse boxplot da quantidade de avaliações por ano mostra que a variabilidade aumentou através dos anos, tendo o seu pico em 2014 e gradualmente estabilizando. Podemos ver também que nos primeiros anos, 2010 e 2011, havia mais outliers nos dados.
Gênero | Avaliação do Usuário | Preço |
---|---|---|
Ficção | 4.65 | 10.85 |
Não Ficção | 4.60 | 14.84 |
A avaliação média do usuário por gênero parece ser semelhante, com apenas 0.05 de diferença, mas o preço já apresenta uma diferença maior, 10.85 para ficção e 14.84 para não ficção. Para termos certezas de que essas diferenças são estatisticamente significantes, eu vou utilizar o teste de Mann-Whitney.
A hipótese nula do teste de Mann-Whitney é de que as amostras possuem a mesma distribuição, e em ambos os casos, nós rejeitamos a hipótese nula com 95% de confiança. O p-valor para os dados do preço foi de 8.34e-08 e o p-valor para a avaliação do usuário foi de 1.495e-07.
Para mostrar visualmente quão diferente as suas distribuição são, podemos olhar para os seguintes gráficos.
A distribuição para os preços de livros de ficção é fortemente inclinados para a esquerda e consistentemente diminuem a medida que o preço aumenta. Enquanto que os livros de ficção começam altos e se tornam ainda mais altos, com 120 e quase 140 ocorrências nas duas primeiras categorias, então ele rapidamente diminui.
A distribuição para a avaliação do usuário do gênero de ficção lentamente aumenta, tendo seu pico próximo de 4.8. E a distribuição para o gênero de não ficção tem seu pico logo após 4.6.