Blog

L’ingénierie de données, préalable à l’exploitation optimale des données

October 24th, 2022  by Bruno van Marsenille

Pour que le data scientist puisse exploiter de manière optimale les données présentes dans et en-dehors de l’organisation, encore faut-il qu’il dispose de données de qualité. Telle est la mission de l’ingénierie de données.

All articles

Permettez-nous d’enfoncer une porte ouverte : les données sont certes le nouvel or noir des entreprises, mais que les organisations croulent sous les données dont il est difficile, voire impossible, d’extraire des informations pertinentes et utiles, et donc de prendre les bonnes décisions au bon moment et au bon endroit.

Exploiter la donnée

Aujourd’hui, toute organisation stocke des données à la fois structurées et non-structurées, générées soit en interne, soit par des partenaires extérieurs ou des sources de données tierces, comme Google notamment. Ces données doivent être considérées comme de la ‘matière première’ qu’il conviendra de rendre intelligible.

C’est à ce niveau qu’intervient le data scientist dont la mission sera d’analyser les données en profondeur, de construire des modèles prédictifs et de communiquer les résultats aux ‘décideurs’ dans l’entreprise.

Traiter la donnée

Mais avant que le data scientist ne puisse traiter la donnée, il importera de la rendre exploitable. C’est le rôle dévolu au data engineer. Son travail consistera à travailler en amont du data scientist en créant des plateformes qui facilitent le traitement de gros volumes de données (big data) ainsi qu’en s’assurant que les échanges de données soient fiables et sécurisés.

Dans le cycle de la donnée, le data engineer intervient donc à deux niveaux, à savoir la collecte et le stockage des données. Il s’agira de construire des entrepôts de données de grande taille (datawarehouses) ou de plus petites tailles et dédiés (datamarts).

Métier spécifique

Alors que le data scientist analyse et exploite les données, le data engineer a davantage un profil de technicien. Son activité principale consiste à préparer les systèmes et les réseaux sur lesquels vont travailler les data scientists. Il lui revient de bâtir les réservoirs de données qui stockeront et tester les données. De même, il gèrera les systèmes de traitement et les bases de données et en assurera le bon fonctionnement.

Ses compétences sont davantage techniques et couvrent l’architecture de bases de données, la maîtrise des outils de modélisation et des langages de programmation, le codage, le recours aux technologies SQL et NoSQL ainsi que l’exploration des données, le cas échéant avec l’intelligence artificielle et l’apprentissage machine, ce qui exigera une bonne connaissance des algorithmes. Il va de soit que la compréhension des outils de big data comme Hadoop ou de l’ETL seront autant d’atouts.

Trois profils

Dans l’entreprise, l’ingénieur de données pourra remplir trois types de mission. D’abord, en tant que généraliste, assurer la collecte, la consolidation et le traitement des données de bout en bout au sein d’une petite équipe et dans le cadre d’un projet de petite dimension. Ensuite, l’ingénieur ‘pipeline-centric’ qui s’intégrera dans une équipe d’analytique de données de taille moyenne et prendra en charge des projets plus complexes dans le cadre de plateformes distribuées. Enfin, l’ingénieur ‘database-centric’ qui assurera l’implémentation, la maintenance et la dissémination de bases de données analytiques. Son rôle conviendra davantage à de grandes organisations où les données sont réparties entre différentes bases de données. En général, l’ingénieur de données travaillera sur les données à la fois structurées et non-structurées.

Globalement, les responsabilités de l’ingénieur de données seront : la conception et la gestion de bases de données et/ou du data lake ; la collecte de différentes sources et rapprochement ; la mise en place de pipelines permettant d’automatiser les différentes étapes d’acquisition des données, de l’extraction jusqu’au stockage ; la création d’outils permettant d’accéder aux données ; et la gestion de la scalabilité de l’infrastructure (horizontale et verticale) de manière transparente pour les autres acteurs.

Collaboration étroite

En général, l’ingénieur de données travaille au sein d’une équipe d’analytique en étroite collaboration avec le data scientist. Il fournit des données dans des formats exploitables par le data scientist qui lance des requêtes et fait tourner des algorithmes pour obtenir de l’analytique prédictif, de l’apprentissage machine ou du data mining. Par ailleurs, il livre des données agrégées à l’intention de la direction et des analystes ainsi qu’à d’autres utilisateurs à des fins d’analyse, ces résultats permettant alors d’améliorer les opérations.

Careers opportunities

We’re always looking for talented people.
Are you one of those?