Outils

Le CERES déploie une variété d'outils informatiques à destination de la recherche en lettres, en humanités, ainsi qu'en sciences sociales. Les articles ci-dessous présentent le fonctionnement de ces outils et abordent les questions essentielles : avec quels types de matériaux/corpus/données peut-on les utiliser ? Quel type d'analyse peut-on obtenir concrètement ? Comment les installer ? Ces logiciels, libres et gratuits, sont à retrouver également sur le dépôt Github : [https://github.com/CERES-Sorbonne](https://github.com/CERES-Sorbonne). N'hésitez pas à venir y apporter vos contributions et commentaires !

Outil CERES : SciTok

Outil CERES : SciTok

outils

SciTok est un outil de web scraping pour la recherche en sciences sociales.

Outil CERES : Pellipop

Outil CERES : Pellipop

outils

Développé par le CERES, Pellipop est un outil en ligne de commande Python qui permet de découper des vidéos en images fixes. Le détail de l’installation et des paramétrages possible est disponible ici. Il faut noter que Pellipop s’appuie sur un langage de programmation appelé Python, qu’il faut avoir déjà téléchargé pour pouvoir l’utiliser. Si vous n’avez jamais téléchargé Python, vous pouvez obtenir la dernière version sur le site officiel. Ouvrez une fenêtre de terminal. C’est une application présente sur tous les ordinateurs, que vous trouverez probablement dans votre dossier d’applications…

Outil CERES : Restweet

Outil CERES : Restweet

outils

Développé par le CERES, RESTWEET est un outil de collecte massive sur le long terme de données issues de la plateforme Twitter. Il intègre une interface graphique permettant d’explorer les données à l’aide de graphiques, d’un grand nombre de filtres/requêtes et d’options de recherche. RESTWEET collecte, en plus du texte des tweets, les images et les vidéos publiées. Compte tenu de la fermeture de l’API Twitter, cet outil ne peut plus être utilisé pour la collecte de nouveaux jeux de données. big

Outil CERES : Panoptic

Outil CERES : Panoptic

outils

En bref Développé par le CERES, Panoptic est un outil de visualisation, d’exploration et d’annotation de grands corpus d’images. Cet outil intègre notamment des algorithmes de groupage d’images par similarité (MobileNet, average hash, sha1), ce qui permet d’aider l’usager·e dans le tri et l’exploration. L’outil propose par ailleurs diverses options de filtrage, de recherche et d’annotation, permettant la création, l’analyse et l’exportation de sous-corpus. Le code est en libre accès sous la Mozilla public license 2.0. big Quelques fonctions Créer de propriétés big Filtrer et grouper big Créer…

Outil CERES : OCRES

Outil CERES : OCRES

outils

OCRES est un outil de reconnaissance optique de caractères (OCR). Il permet la conversion de fichiers PDF en fichiers textes structurés et exploitables (XML,HTML, fichier texte brut). Il faut noter que le modèle d’OCR utilisé par cet outil a été entrainé sur des données du 17ème siècle.

Outil CERES : Europarser

Outil CERES : Europarser

outils

EUROPARSER est un outil développé par le CERES qui permet de compiler et de formater des corpus issus de la base Europresse et exportés en HTML. Les formats de sortie proposés par cet outil sont directement exploitables dans des logiciels de traitement textuel comme Iramuteq ou TXM. Lien vers Europarser