User:MangueBanane/sandbox

Le Regroupement Dynamique Quantique (RDQ) (<>) des données est une méthode de représentation visuelle des données d'un ensemble multidimensionnel par regroupement des données, cette technique est particulièrement efficace sur de grands ensembles de données. Cette technique nous permet de visualiser les données en utilisant des techniques de réduction de dimensions et en regroupant les données en utilisant des principes de la physique quantique.

Cette technique a été inventée par les physiciens Martin Weinstein et David Horn en août 2009.

Utilité
<>.

Avec de plus en plus de données, des nouvelles de méthodes s'imposaient, des méthodes qui peuvent exhiber des structures dans les données dont l'usager n'a même pas idée de l'existence. Le RDQ est souvent qualifié d'algorithme de regroupement par densité, mais est bien plus que ça, l'algorithme n'a pas besoin de savoir à quel domaine appartiennent les données et ce qu'on y cherche, il laisse parler les données. Le regroupement quantique et son successeur le RDQ son deux méthodes qui sont inspirés de la mécanique quantique, utilisant une méthodologie qui révèle les structures cachées des données de façon entièrement non supervisée, sans connaissance de cause ni d'expertise, étant particulièrement utile pour analyser la densité des données dans un espace multi-dimensionnel.

Méthode de Regroupement Quantique (RQ)
L'algorithme original, proposé originalement par Horn et Gottlieb, assigne un gaussien à chaque point de donnée dans l'espace Euclidien SVD. L'estimateur de Parzen est obtenu en construisant une somme de ses fonctions Gaussienne. Le potentiel associé aux données est défini de telle façon qu'il a l'unique propriété d'être la fonction du potentiel quantique utilisée dans l'équation de Schrödinger.

L'algorithme cherche pour des minimums dans cette dernière fonction, étant associé aux maximums dans les données. Cet algorithme a la particularité de pouvoir distinguer entre un gaussien et deux gaussiens qui sont chevauchés, tel que présenté à la figure suivante. Ce qui rend la distinction des données beaucoup plus précise.

L'algorithme du gradient est ensuite utilisé pour que les données se dirigent vers un minimum local, les données se dirigeants vers un même minimum sont identifié par l'algorithme comme faisant parties de la même grappe.

Complexité algorithmique
Le temps requis afin de calculer le potentiel quantique d'une donnée à un point particulier est de $$O(r*N)$$ où r est le nombre de dimensions tronquées après les SVD et N le nombre de données.

L'étape entière donne une complexité de $$O(r*N^2)$$, car l'algorithme doit traiter le mouvement de chaque donnée.

Méthode de Regroupement Dynamique Quantique (RDQ)
Cette méthode est basée sur celle du Regroupement Quantique (RQ), la différence étant que l'algorithme du gradient est remplacé par celui de l'équation de Schrödinger dépendante du temps. Cette approche est donc considérée comme l'analogue Schrödingien de l'algorithme du gradient.

Méthode de calcul
La méthode de calcul afin de générer les différentes évolutions du RDQ a été introduite par M.Weinstein et D. Horn en 2009. Associer une plage de n-données à n-états $$|\psi_i \rangle $$. Ses états sont des fonctions gaussiennes tel que le $$i^{ieme} $$ gaussien est centré sur les coordonnées des points de données. Cela forme une base de l'espace vectoriel est celui qui va servir à l'évolution des itérations du RDQ.

Première étape
Soit la matrice nxn formée des produits scalaires $$N_{i,j}=\langle\psi_i|\psi_j\rangle$$

Trouver les vecteurs propres de la matrice symétrique N qui correspond aux états ayant des valeurs propres plus grandes qu'une valeur prédéterminée.Ils forment un ensemble orthonomé et sont une combinaison linéaire des gaussiens originaux.

Deuxième étape
Soit $$H$$ la matrice nxn correspondant à $$H_{i,j}=\langle\psi_i|H|\psi_j\rangle$$

Calculer $$H$$ dans la base orthonomée $$H^{tr}$$

Troisième étape
Soit la matrice des valeurs espérées $$\vec X_{i,j}=\langle\psi_i|\vec x|\psi_j\rangle$$

Calculer $$\vec X_{i,j}$$ dans la base orthonomée $$H^{tr}$$

Quatrième étape
Trouver les valeurs et vecteurs propres de $$H^{tr}$$.

Construire la solution de l'équation réduite temporellement dépendante de Schrödinger, soit: $$i{\partial\over\partial t}|\psi_i(t)\rangle=H^{tr}|\psi_i(t)\rangle$$

Tel que $$|\psi_i(t=0)\rangle=|\psi_i\rangle$$

Cinquième étape
Évaluer une valeur de t tel que l'animation présente des grappes visibles. Les trajectoires étant $$\langle\vec x_{i}(t)\rangle = \langle\psi_i|e^{iH^{tr}}\vec X e^{-iH^{tr}}|\psi_i\rangle$$

Les crabes de Ripley
Le premier exemple de l'utilisation a été fait lors de la publication par Gotlieb et Horn 200 données sur des crabes ont été tirées du livre de Ripley.

Les données sur les crabes étaient séparées en deux espèces et deux sexes, alors essentiellement quatre groupes distincts. Cinq données ont été prélevées, le jeu étant alors situé dans la cinquième dimension. Grâce à l'algorithme du Regroupement Dynamique Quantique il était clair, après seulement la première itération que les grappes formées correspondaient aux quatre groupes distincts.

Il est possible de représenter facilement ce problème en deux dimensions (dimension tronquée par SVC) et tout de même obtenir un résultat extrêmement concluant, et ce sans connaissance de ce qu'est un crabe et ce qu'il y a à chercher en premier lieu (attribut non supervisé de l'algorithme).

Ce résultat a pavé la voie aux applications possible dans de nombreux problèmes ayant de très grands ensembles de données complexes, notamment dans le domaine de la biologie, astronomie, séismologie et de l'économie.

Application à divers problèmes
Dans une publication subséquente de Guy Shaked (sous la supervision de David Horn), les possibles applications sont explorées.

Données financières
440 données sur la bourse de Standard and Poor's dans la période entre 200 et 2011 ont été analysées avec l'algorithme du RDQ. Les grappes formées ont décelé la présence de corrélations entre les différents secteurs d'activités financières, les données ont ensuite été divisées en 17 époques, des groupes temporels se sont formés après évolution du RDQ. Ses résultats dépendent toutefois des paramètres de sensibilités sélectionnées lors du processus du regroupement, tout de même cette technique permet d'obtenir un résultat beaucoup plus mathématiquement objectif.

Séismologie: tremblements de terre en Israël
Le système de failles de la mer Morte sépare la plaque Africaine-Sinai de la plaque Arabique, la partie sud de la mer morte, connait beaucoup d'activités seismique. Le tremblement le plus fort du 20e siècle est survenu dans cet endroit. Il était d'une magnitude de 7.2 (22 Novembre 1995, 04:15 GMT), en tout plus de 5 mille évènements (tremblements et secousse) y sont survenus seulement après ce tremblement.

Ses données ont été utilisées afin de tester l'algorithme du RQD, ainsi que les données des années subséquentes (5,693 enregistrements).

Après évolution de l'algorithme, il était clair que les évènements ayant des similitudes se sont regroupés, ainsi que des informations cruciales concernant le type de structure qui mène au détachement de la plaque tectonique, plus d'informations seraient néccesaires afin de construire un catalogue plus approfondi sur ce type d'évènements.

L'algorithme illustre son potentiel en séismologie.

Répartition des étoiles
Il était déjà établi que les galaxies ne sont pas uniformément distribuées, elles forment de grandes structures emplies de vide cosmique. Le défi de ce test était d'obtenir ce résultat grâce à l'algorithme RDQ, afin de valider sa particularité de détection des structures cachées et de manipulation de grands ensembles de données multidimensionnelle.

Appliqué sur près de cent-quarante-mille données du SDSS (<>), l'algorithme, après deux évolutions du Regroupement Dynamique Quantique, illustre visiblement des structures dans les données. Des filaments correspondent à la structure topologique du minimum du potentiel quantique des données présentes.

Le RDQ, appliqué sur des ensembles de données immensse donne des résultats, des structures, facilement analysables à l'oeil, dégage un certain vide dans les données, qui était auparavant invisibles, tapies dans les milliers de données.

Données sur les Aquaporines
La première étape de la cristallisation d'une protéine est d'obtenir sa structure tridimensionnelle afin de pouvoir déterminer où se trouve la chaine d'acide aminé afin de pouvoir déterminer sa fonction biologique. La plupart des protéines présentent un défi à cristalliser, même voir une impossibilité.

D'habitude, ce processus est plutôt lent, il faut manuellement assembler diverses protéines ayant le même rôle et ensuite analyser les structures résultantes.

Un ensemble de 529 séquences d'acides aminés de 2 différents types d'aquaporines a été utilisé.

Le résultat a été concluant, après évolution RDQ le chercheur est facilement capable d'identifier si les données présentent un intérêt (le chercheur ne sachant pas si ses données contiennent la réponse recherchée ou simplement de l'information pertinente), les grands ensembles forment des grappes qui sont plus facilement analysables, ainsi le procéssus peut être appliqué, analysé et simplifié autant de fois qu'il est souhaitable.