• Recherche,

Vincent Thomas (LORIA) - Apprentissage automatique décentralisé d'interactions dans des systèmes

le 14 avril 2006

Manufacture des Tabacs (salle ME 303)
Plan d'accès

Séminaire IRIT-UT1 - Vendredi 14 avril 2006 à 12h30 - salle ME 303

Cet exposé présentera mes travaux de thèse et traitera de la conception de système multi-agents réactifs. Ma thèse s'est focalisée sur des approches formelles et s'est donné pour objectif à long terme de construire de manière automatique et décentralisée les comportements d'agents coopératifs devant résoudre collectivement un problème. Ce travail a cherché à proposer des méthodes pour construire de manière décentralisée les comportements d'agents sociaux, capables de prendre en compte à l'exécution la présence d'autres agents dans le système.
Les formalismes existants comme les DEC-POMDPs parviennent à représenter des problèmes multi-agents mais ne représentent pas au niveau individuel la notion d'interaction fondamentale dans les systèmes collectifs. Ceci induit une complexité algorithmique importante dans les algorithmes de résolution. Afin de donner aux agents la possibilité de considérer les relations qu'ils peuvent entretenir avec les autres et de s'organiser localement, ma thèse a proposé un formalisme original, l'interac-DEC-POMDP inspiré des DEC-POMDPs et d'Hamelin, une simulation développée au cours de ma thèse et issue d'expériences conduites en éthologie. La spécificité de ce formalisme réside dans la capacité offerte aux agents d'interagir directement et localement entre eux. Cette possibilité permet des prises de décision à un niveau intermédiaire entre des décisions globales impliquant l'ensemble des agents et des décisions purement individuelles.
En réhabilitant la notion d'interaction comme élément de premier ordre, ce formalisme permet d'envisager de nouvelles approches et techniques d'apprentissage décentralisées. Nous avons ainsi proposé un algorithme décentralisé basé sur des techniques d'apprentissage par renforcement et une répartition heuristique des gains des agents au cours des interactions. Une démarche expérimentale nous a permis de valider sa capacité à produire pour des restriction du formalisme des comportements collectifs pertinents adaptatifs sans qu'aucun agent ne dispose d'une vue globale du système.

Voir la présentation

Partenaires :
   
Contact :
Frédéric Amblard :
Mis à jour le 9 février 2012