#Selfie

édition / photographie / StyleGAN

Que deviennent nos photographies publiées en ligne ? Dans un monde idéal, elles nous appartiennent plainement, elles seraient visibles par les autres utilisateurs des réseaux sociaux mais nous devrions garder un droit total quant à leurs utilisations futures. Nous ne savons et ne pouvons pas retracer les utilisations de nos photographies personnelles. Notre visage, une fois mis en ligne, ne nous appartient plus. Notre identité numérique sert de monnaie d’échange contre les fonctionnalité des réseaux que nous souhaitons investir, nos images sont bien trop souvent utilisées à notre insus pour entraîner les algorithmes d’intelligence artificielle et notamment de vision par ordinateur. Une fois une image mise en ligne, elle appartient et est récupérée par la compagnie qui met à disposition la plateforme de dépot. Plus une base de donnée est grande et cohérente, plus les systèmes de compréhension des images deviennent efficaces. Internet offre alors une quantité quasi infinie d’images à collecter. Cette recherche se base sur l’utilisation d’un réseau social tel qu’Instagram. En effet, lors de la publication d’images, nous avons la possibilité d’ajouter des mot-dièses (hashtags) en inscrivant une description après un #. L’utilisateur est libre de choisir ce qu’il considère décrire sa photographie, il lui sera toutefois suggéré les mot-dièses les plus utilisés. Cet apport de description sert de catégorisation et devient alors un ensemble de sous-parties dans la collection d’images publiées sur Instagram.

La base de donnée

En se basant sur les selfies, une forme contemporaine de portrait largement démocratisée à l’aire du smartphone connecté, une base de donnée a pu se former par la simple recherche #selfie sur Instagram.

Elle regroupe près de 170 autoportraits numériques issus des publications récentes sur quelques jours consécutifs. Les images ne dépendent alors pas de choix mais plutôt d’un usage du réseau social car bien souvent, les réseaux incitent à se montrer, à afficher ce à quoi ressemble l’utilisateur derrière son pseudo. Il est possible de constater qui sont les utilisateurs principaux par simple comparaison.

Les utilisateurs dont les portraits ont été récupérés ne sont pas conscients que ces images ont été collectées. Tout comme dans le contexte de création de base de donnée visant à développer les systèmes de vision par ordinateur, les images personnelles sont dépersonnalisées et ne sont plus utiles qu’en terme de perfectionnement technique.

GAN

Pour être capable de fonctionner au mieux, les systèmes de reconnaissance faciale et de vision par ordinateur ont besoin d’une grande base de donnée à partir de laquelle commence l’entraînement. Malgré les entrainements intensifs des algorithmes, une inconnue qui résiste à l’homme sera toujours difficilement vérifiable dans les interprétations de la vision par ordinateur. Il s’agit d’une classe d’algorithmes non supervisés que l’on appelle GAN (Réseaux Adverses Génératifs, ou Generative Adversial Networks en anglais). Ils sont introduits en 2014 par Ian J. Goodfellow, chercheur dans le domaine de l’apprentissage automatique, et permettent de générer des images au plus proche du réel. Pour revenir sur le fonctionnement du deep learning, le GAN se base sur deux réseaux de neurones génératifs, affinant mutuellement les résultats du réseau opposé jusqu’à ce que l’un d’eux soit trompé. Le résultat étant une image fictive basée sur une sélection d’images similaires. Plus la base de données de départ est importante, plus les résultats sont précis.

StyleGAN

StyleGAN est un réseau antagoniste génératif (GAN) introduit par les chercheurs de Nvidia en décembre 2018 et rendu disponible en février 2019. StyleGAN dépend du logiciel CUDA de Nvidia, des GPU et de TensorFlow. En décembre 2018, les chercheurs de Nvidia ont distribué une préimpression avec un logiciel d’accompagnement présentant StyleGAN, un GAN permettant de produire un nombre illimité de portraits (souvent convaincants) de faux visages humains. StyleGAN a pu fonctionner sur les processeurs GPU de base de Nvidia. StyleGAN peut, de manière compétitive, « séparer toutes les caractéristiques pertinentes (des visages humains) et les recomposer de manière cohérente ».

Nvidia a mis à disposition une documentation sur GitHub ainsi qu’un accès au papier détaillant l’ensemble de la recherche et du perfectionnement du système. Ce GAN a le nom de StyleGAN et est aujourd’hui disponible sous sa dernière version StyleGAN2. Il permettant d’entraîner sa propre base de donnée. La démarche est simple mais demande de pouvoir accéder à quelques outils comme Tensorflow 1.5.2. Il est possible d’entraîner son modèle sous Google Colaboratory si l’OS de l’ordinateur de travail n’est pas adapté. Une fois la base de donnée constituée et convertie en fichier .rar, l’entraînement peut commencer. Chaque entraînement produit de nouveaux noyaux qui serviront de référence aux entraînements suivants. Il est conseillé de produire 10 000 entraînements pour avoir un résultats affiné même si Nvidia inscrit d’office 25 000 entraînements dans son fichier train.py. Les derniers entraînements devraient se rapprocher des images constituant la base de donnée initiale. Entraîner sa base de donnée permet de créer des fichier .pkl, nous parlons de bases de données pré-entraînées. Ces fichiers servent ensuite à en extraire le nombre de noyaux voulu (pouvant dépasser le nombre d’entraînements) et afficher les différents passages d’une image à une autre. Les entraînements sont à différencier des noyaux, ils sont un nouvel état d’avancement d’un groupe d’images. Les noyaux sont générés à partir des caractéristiques de ce groupe, sans limite dans la quantité à générer.

L’ensemble des 171 portraits ont subit cet entraînement, les portraits suivants sont pour la plupart crédibles mais il s’agit de personnes qui n’existent pas. Elles ont été générées d’après l’entraînement des images de la base de donnée.

BetaFace

Ces personnes étant fictives, l’intérêt est alors de savoir si des logiciels de reconnaissance faciale sont capables de les identifier comme étant des visages humains. BetaFace est une API disponible en ligne et permettant d’analyser une centaine d’images en même temps pour détecter la présence d’un visage. Toutes les images produites par StyleGAN ont passé avec succès ce premier test. L’intérêt de BetaFace est qu’il est également possible d’obtenir une liste des caractéristiques des visages identifiés. Dans le cas de visages générés, ces descriptions offrent une sorte d’identité personnelle à ces individus.

?

#Selfie

édition / photographie / StyleGAN

Que deviennent nos photographies publiées en ligne ? Dans un monde idéal, elles nous appartiennent plainement, elles seraient visibles par les autres utilisateurs des réseaux sociaux mais nous devrions garder un droit total quant à leurs utilisations futures. Nous ne savons et ne pouvons pas retracer les utilisations de nos photographies personnelles. Notre visage, une fois mis en ligne, ne nous appartient plus. Notre identité numérique sert de monnaie d’échange contre les fonctionnalité des réseaux que nous souhaitons investir, nos images sont bien trop souvent utilisées à notre insus pour entraîner les algorithmes d’intelligence artificielle et notamment de vision par ordinateur. Une fois une image mise en ligne, elle appartient et est récupérée par la compagnie qui met à disposition la plateforme de dépot. Plus une base de donnée est grande et cohérente, plus les systèmes de compréhension des images deviennent efficaces. Internet offre alors une quantité quasi infinie d’images à collecter. Cette recherche se base sur l’utilisation d’un réseau social tel qu’Instagram. En effet, lors de la publication d’images, nous avons la possibilité d’ajouter des mot-dièses (hashtags) en inscrivant une description après un #. L’utilisateur est libre de choisir ce qu’il considère décrire sa photographie, il lui sera toutefois suggéré les mot-dièses les plus utilisés. Cet apport de description sert de catégorisation et devient alors un ensemble de sous-parties dans la collection d’images publiées sur Instagram.

La base de donnée

En se basant sur les selfies, une forme contemporaine de portrait largement démocratisée à l’aire du smartphone connecté, une base de donnée a pu se former par la simple recherche #selfie sur Instagram.

Elle regroupe près de 170 autoportraits numériques issus des publications récentes sur quelques jours consécutifs. Les images ne dépendent alors pas de choix mais plutôt d’un usage du réseau social car bien souvent, les réseaux incitent à se montrer, à afficher ce à quoi ressemble l’utilisateur derrière son pseudo. Il est possible de constater qui sont les utilisateurs principaux par simple comparaison.

Les utilisateurs dont les portraits ont été récupérés ne sont pas conscients que ces images ont été collectées. Tout comme dans le contexte de création de base de donnée visant à développer les systèmes de vision par ordinateur, les images personnelles sont dépersonnalisées et ne sont plus utiles qu’en terme de perfectionnement technique.

GAN

Pour être capable de fonctionner au mieux, les systèmes de reconnaissance faciale et de vision par ordinateur ont besoin d’une grande base de donnée à partir de laquelle commence l’entraînement. Malgré les entrainements intensifs des algorithmes, une inconnue qui résiste à l’homme sera toujours difficilement vérifiable dans les interprétations de la vision par ordinateur. Il s’agit d’une classe d’algorithmes non supervisés que l’on appelle GAN (Réseaux Adverses Génératifs, ou Generative Adversial Networks en anglais). Ils sont introduits en 2014 par Ian J. Goodfellow, chercheur dans le domaine de l’apprentissage automatique, et permettent de générer des images au plus proche du réel. Pour revenir sur le fonctionnement du deep learning, le GAN se base sur deux réseaux de neurones génératifs, affinant mutuellement les résultats du réseau opposé jusqu’à ce que l’un d’eux soit trompé. Le résultat étant une image fictive basée sur une sélection d’images similaires. Plus la base de données de départ est importante, plus les résultats sont précis.

StyleGAN

StyleGAN est un réseau antagoniste génératif (GAN) introduit par les chercheurs de Nvidia en décembre 2018 et rendu disponible en février 2019. StyleGAN dépend du logiciel CUDA de Nvidia, des GPU et de TensorFlow. En décembre 2018, les chercheurs de Nvidia ont distribué une préimpression avec un logiciel d’accompagnement présentant StyleGAN, un GAN permettant de produire un nombre illimité de portraits (souvent convaincants) de faux visages humains. StyleGAN a pu fonctionner sur les processeurs GPU de base de Nvidia. StyleGAN peut, de manière compétitive, « séparer toutes les caractéristiques pertinentes (des visages humains) et les recomposer de manière cohérente ».

Nvidia a mis à disposition une documentation sur GitHub ainsi qu’un accès au papier détaillant l’ensemble de la recherche et du perfectionnement du système. Ce GAN a le nom de StyleGAN et est aujourd’hui disponible sous sa dernière version StyleGAN2. Il permettant d’entraîner sa propre base de donnée. La démarche est simple mais demande de pouvoir accéder à quelques outils comme Tensorflow 1.5.2. Il est possible d’entraîner son modèle sous Google Colaboratory si l’OS de l’ordinateur de travail n’est pas adapté. Une fois la base de donnée constituée et convertie en fichier .rar, l’entraînement peut commencer. Chaque entraînement produit de nouveaux noyaux qui serviront de référence aux entraînements suivants. Il est conseillé de produire 10 000 entraînements pour avoir un résultats affiné même si Nvidia inscrit d’office 25 000 entraînements dans son fichier train.py. Les derniers entraînements devraient se rapprocher des images constituant la base de donnée initiale. Entraîner sa base de donnée permet de créer des fichier .pkl, nous parlons de bases de données pré-entraînées. Ces fichiers servent ensuite à en extraire le nombre de noyaux voulu (pouvant dépasser le nombre d’entraînements) et afficher les différents passages d’une image à une autre. Les entraînements sont à différencier des noyaux, ils sont un nouvel état d’avancement d’un groupe d’images. Les noyaux sont générés à partir des caractéristiques de ce groupe, sans limite dans la quantité à générer.

L’ensemble des 171 portraits ont subit cet entraînement, les portraits suivants sont pour la plupart crédibles mais il s’agit de personnes qui n’existent pas. Elles ont été générées d’après l’entraînement des images de la base de donnée.

BetaFace

Ces personnes étant fictives, l’intérêt est alors de savoir si des logiciels de reconnaissance faciale sont capables de les identifier comme étant des visages humains. BetaFace est une API disponible en ligne et permettant d’analyser une centaine d’images en même temps pour détecter la présence d’un visage. Toutes les images produites par StyleGAN ont passé avec succès ce premier test. L’intérêt de BetaFace est qu’il est également possible d’obtenir une liste des caractéristiques des visages identifiés. Dans le cas de visages générés, ces descriptions offrent une sorte d’identité personnelle à ces individus.