Hypotweet

Premier projet en 2016 Icare, et il y a 2-3 ans, étudier la visibilité des contenus et mise en valeur des contenus d’Hypothèse sur Tweeter.

Antonin a commencé à collecter en septembre 2022, et à ce là moment ils ne savaient pas qu’ils étaient soumis au bon vouloir d’E. Musk, puis ils ont récupérer les données jusqu’en avril 2023 (coupure des API), mais le corpus recoupe surtout septembre - décembre.

La projet va bientôt se terminer, il y a eu beaucoup de manipulation et il devient intéressant de publier.

Limites :

RGPD pour les Tweetters
licence de Twitter, ne permet de pas de partager les données brutes

Pour avoir accès, il faut que le carnet soit inscrit au catalogue (il doit y avoir les métadonnées et au moins 3 billets et que les auteurs en fassent la demande)

Ce qui les intéressaient c’était d’avoir les métadonnées des carnets cités dans les tweets. Tous les carnet mentionnés dans le corpus de tweets ne sont pas forcément présent dans les exports OAIPMH et inversement.

L’idée est de savoir s’il y a des écarts de dates importantes. Il y a quelque contenus assez rares qui sont retweetter quelques année après. Analyse des billets qui on fait le tweet. Voir aussi l’expension des carnetq, diversité des prises de parole sur le carnet. Communauté de tweettos autour des carnets. Certains carnets sont très cités mais par peu de tweettos.

Les seules qui sont vraiment intéressants à analyser ne sont pas très représentatifs de l’ensemble. Dans quelle mesure on fait une présélection, qui ne serait pas représentative…

Nouvelles cartographie sur Bluesky, prendre les descriptifs des comptes et faire une cartographie à partir des descriptions. Pour les comptes ça marche, mais tous n’ont pas.

Il ne faut aucune information sur les tweettos. On a les métadonnées du catalogue, pour chaque carnet, on a son titre, la date de création, le responsable, adresse postale et descriptif du carnet, on n’a pas la thématique, parce qu’avant il y avait une convention avec OpenEdition. Chose importante, si il y a un ISSN, pour se logger à la BnF et voir s’il y a des disciplines rattachées.

[diapo 12] sur Hypothèse il y a des pages qui ne sont pas des billets, donc sans données et sans identifiants.

[diapo 13] plus on est haut et plus il y a d’auteurs et plus on est à droite et plus il y a de retweets, donc plus c’est diffuser.

On se concentrerait plutôt sur les carnets. Ne pas mettre les carnets qui ne sont pas dans le corpus de tweets. Ou bien ne sélectionner uniquement les carnets les plus parlants (partir de la diapo 12).

Interface web pour la publication :

Gitlab Huma-num
Visualisation
- phase exploratoire
  - réseau bipartite carnet / tweet puis transposée pour voir les liens entre les carnets
  - faire une liste interactive pour chaque carnet, avec quelques statistiques
  - garder l’idée de la [diapo 10]
  - faire un graph avec juste les tweets et un graph avec les tweets et retweets pour le réseau

Travailler sur les buzz. Visualisation statistique/quantitative. Voir la possibilité de re-indentifier les tweettos et les tweets en leur attribuant un nouvel identifiants.

23 juin présentation officielle, préparer quelque chose pour cette date.