Table des matières

Comma-Separated Values CSV

CSV signifie “Comma-Separated Values” (Valeurs séparées par des virgules) et est un format de fichier simple pour stocker des données tabulaires. Les données sont stockées en lignes et en colonnes, avec chaque ligne représentant un enregistrement et chaque colonne représentant un champ dans cet enregistrement. Les colonnes sont séparées par une virgule, ce qui permet de les distinguer les unes des autres. Les fichiers CSV sont souvent utilisés pour transférer des données entre différents systèmes, car ils peuvent être lus et écrits par de nombreux logiciels différents, y compris les feuilles de calcul et les bases de données.

Caractéristiques

Il n'y a pas de versions officielles de CSV. Le format CSV est un standard ouvert qui n'a pas été développé par une organisation ou une entreprise en particulier. Cependant, il existe plusieurs implémentations du format CSV, qui peuvent varier en ce qui concerne les séparateurs de colonnes, les encodages de caractères et les règles de gestion des valeurs enveloppées dans des guillemets. Par exemple, certaines implémentations peuvent utiliser des tabulations plutôt que des virgules pour séparer les colonnes, ou peuvent utiliser des guillemets doubles plutôt que simples pour envelopper les valeurs contenant des virgules.

Les caractéristiques communément admises d'un fichier CSV sont les suivantes :

Ces caractéristiques constituent une définition commune pour les fichiers CSV, mais il est important de vérifier les spécifications précises de chaque implémentation pour être sûr de leur utilisation correcte.

Les sauts de lignes

Les fichiers CSV utilisent généralement des sauts de ligne pour séparer les enregistrements. Il existe deux types de sauts de ligne couramment utilisés :

Il est important de s'assurer que le fichier CSV utilise le type de saut de ligne correct pour le système d'exploitation cible, afin d'éviter les erreurs lors de la lecture des données. Certaines applications peuvent automatiquement détecter et gérer les deux types de sauts de ligne, mais d'autres peuvent nécessiter un type spécifique.

Il est possible de convertir les sauts de ligne sous Linux. Il existe plusieurs moyens de le faire, notamment en utilisant des outils en ligne de commande tels que sed ou awk.

Voici un exemple de conversion de sauts de ligne Windows (CRLF) en sauts de ligne UNIX (LF) à l'aide de la commande sed :

sed 's/\r//' nom_du_fichier.csv > nom_du_fichier_converti.csv

Cela remplacera tous les retours chariot (\r) dans le fichier d'origine par des sauts de ligne (\n), produisant ainsi un fichier converti avec des sauts de ligne UNIX.

Il existe également de nombreux outils en ligne de commande et graphiques pour convertir les sauts de ligne, ainsi que des bibliothèques et des API pour des langages de programmation tels que Python, qui peuvent être utilisés pour automatiser ce processus.

Voici un exemple de conversion de sauts de ligne UNIX (LF) en sauts de ligne Windows (CRLF) à l'aide de la commande sed :

sed 's/$/\r/' nom_du_fichier.csv > nom_du_fichier_converti.csv

Cela ajoutera un retour chariot (\r) à la fin de chaque ligne du fichier d'origine, produisant ainsi un fichier converti avec des sauts de ligne Windows.

La première ligne

En ce qui concerne la première ligne des fichiers CSV, elle est généralement utilisée pour les en-têtes de colonnes, qui décrivent les différents champs de données dans le fichier. Il n'y a pas de règle de nommage strictement admise pour les en-têtes de colonnes dans les fichiers CSV, mais il existe quelques pratiques courantes pour les rendre claires et informatives :

En fin de compte, l'utilisation d'en-têtes de colonnes clairs et informatifs peut rendre les données plus faciles à comprendre et à utiliser pour les personnes qui les lisent.

La casse désigne la distinction entre les lettres majuscules et minuscules dans une chaîne de caractères. Il existe plusieurs conventions de casse couramment utilisées pour les noms de variables, de fonctions et de colonnes dans les fichiers CSV :

Il est important de choisir une convention de casse pour les noms de colonnes dans un fichier CSV et de la suivre de manière cohérente. Cela peut aider à éviter les erreurs et les confusion lors de la lecture des données.

Cédric ABONNEL dit Cédrix & CPT - Article paru initialement le Mardi 7 Février 2023