[PYTHON] J'ai fait en sorte que l'IA patrouille sur le net et créé un service Web de classement des gadgets mis à jour une fois par semaine

Préface J'aime les gadgets. J'adore les gadgets de toute façon.

Surtout, il est extrêmement obsédé par les tablettes. Il y a environ 7 ou 8 ans, j'ai acheté un gadget appelé Surface RT, qui dit "Celui-ci est parfait pour travailler et jouer!" Le voyage vers la meilleure tablette, qui est sans fin en dépensant de l'argent, est toujours en cours.

Pour l'instant, je suis calme avec l'iPad Pro 12.9 et la Surface Pro X, mais bientôt la tablette gagnante promise appelée Galaxy Tab S7 est annoncée, Surface Duo arrive et il y a un petit danger de points de portefeuille. Dangereux. En premier lieu, je ne fais que Ark Knights et SNS, donc 200 000 basés sur l'ancien score Antutu devraient suffire.

Pour cette raison, je consulte assez souvent le site du gadget. Si vous incluez d'autres médias technologiques, des sites de fuites et tous les autres sites liés aux gadgets tels que 9to5mac à l'étranger, vous passerez des heures à lire chaque jour.

Pour être honnête, c'est un peu malsain. Je visite même le même site encore et encore, même s'il n'a pas été mis à jour. C'est plus un zombie gadget. Alors que dois-je faire?

Oui, laissez Python faire le problème. </ b>

Ce que j'ai fait https://gadget-busters.com ![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/696052/dd0a55fe-71cd-314f-b725-ce8b58a35d08.png)

cette. On peut voir que le nom Gadget Busters n'est qu'un désordre d'un programme appelé Miss Busters et d'un gadget que j'aimais auparavant, et je n'ai pensé à rien de particulier.

Une fois par semaine, les gadgets qui sont le sujet de la semaine sont affichés dans un format de classement, donc je pense que je peux le recommander à ceux qui veulent connaître rapidement les gadgets qui font maintenant le sujet.

À l'arrière, les articles sur Internet sont explorés et les noms de produits sont extraits d'articles liés aux gadgets à l'aide du traitement du langage naturel et des algorithmes de prédiction auto-appris. Après cela, un score est attribué et un classement est créé.

Fondamentalement, les gadgets mentionnés plus souvent sur plus de sites sont considérés comme des gadgets de cette saison. Cependant, il y a une possibilité que "je sais déjà" juste par le nombre d'apparitions, donc j'essaye de prendre le nom de produit rare de type idf dans l'algorithme. Plus précisément, nous avons introduit une section qui met l'accent sur les mots-clés à haute fréquence sur moins de sites.

Le processus ci-dessus est automatiquement exécuté une fois par semaine pour mettre à jour le site ci-dessus.

Développement futur

Une fois les données collectées, je voudrais créer une page où vous pouvez voir le classement mensuel, le classement annuel et la liste de transition de tendance des gadgets. Qu'est-il arrivé au gadget qui était populaire en 2015? À ce moment-là, si vous cliquez sur le site 2015, vous pouvez voir la transition de la tendance avec la chronologie. Le nom est ... Gadget Time Machine?

Aussi, je voudrais rendre l'algorithme de la partie d'extraction de nom de produit un peu plus détaillé afin de ne pas capter le bruit. Plus précisément, il ignore la répétition des noms de produits inclus dans les publicités. Je veux faire du design un tee-shirt océan, et j'attends avec impatience votre soutien continu à Gadget Busters.

Aussi, j'aimerais écrire des articles petit à petit, à la fois comme mémorandum et comme technologie que j'utilise. Je n'ai pas fait grand-chose.

Technologie utilisée - Exploration du Web --Traitement du langage naturel --Apprentissage automatique - Algorithme de classement - FastAPI - React + Material-UI - AWS

Recommended Posts