Rapport du Groupe de Travail du PNPS
PNPS
Standardisation et base de données spectroscopiques stellaires
Rapport du groupe de travail Juin 2001
G. Alecian, J. Bouvier, C. Catala, F. Genova, S. Ilovaisky, B. Plez, C. Soubiran
1. Introduction
Le forum instrumentation de l'ASPS de Mars 2000 a mis en avant, parmi 4 priorités, le souhait d'une standardisation et d'une mise à la disposition de la communauté des données issues des spectrographes existants, en cours de développement, ou en projet, tels que Elodie, Musicos, Espadons, etc... A la suite de ce forum, un groupe de travail a donc été mis en place, avec pour mandat de préciser les spécifications, et proposer un cadre technique et budgétaire pour la réalisation d'une base de données de spectres stellaires répondant à ce besoin clairement exprimé lors du forum.
Ce groupe a travaillé de Juin 2000 à
Mai 2001, principalement par mail, après une réunion initiale.
2. Définition de la demande et justification scientifique des bases de données de spectres stellaires
On peut distinguer deux types de demandes concernant des bases de données de spectres stellaires.
Construction de bibliothèques de spectres stellaires: un fort besoin est identifié pour la constitution de bibliothèques de spectres stellaires de référence. Parmi les programmes concernés par ce besoin, on peut citer, sans pour autant être exhaustif:
-
les programmes de synthèse de populations stellaires, qui visent à optimiser l'exploitation des nombreux spectres à moyenne et haute résolution de galaxies qui sont attendus dans les années à venir en provenance des nouveaux instruments (par exemple GIRAFFE sur le VLT);
-
les méthodes de détermination automatique de paramètres stellaires par comparaison avec une série de spectres de référence (par exemple TGMET);
-
la simulation d'observations par de futurs instruments sols ou spatiaux, comme par exemple COROT (pour la composante exo-planètes), ou le satellite astrométrique allemand DIVA;
-
les tests rigoureux et complets des bibliothèques de spectres synthétiques;
-
l'étude de l'absorption interstellaire dans le voisinage solaire;
-
la collecte d'un ensemble de données présentant un intérêt pédagogique pour les étudiants ou les chercheurs non spectroscopistes.
Ce besoin est en partie satisfait par la bibliothèque de spectres OHP/Elodie haute résolution implantée dans Hypercat. Il serait néanmoins nécessaire de compléter cette bibliothèque par de nouvelles données améliorant l'échantillonnage vers les étoiles les plus chaudes et les plus froides. Par ailleurs, il est nécessaire d'introduire dans les bibliothèques de spectres des données en provenance d'autres instruments qu'Elodie, donc d'étendre l'effort de standardisation et homogénéisation déjà consenti pour Elodie. Enfin, les outils d'accès à ces données doivent être rendus plus efficaces, selon des spécifications bien adaptées à l'utilisation de spectres échelles haute résolution (cf liste de spécification plus bas).
Pour ce type de besoin, il est nécessaire d'effectuer une sélection des spectres à introduire dans la base, en particulier en ne retenant que des spectres d'étoiles calibrées en termes de paramètres fondamentaux (Teff, log g, [Fe/H]), car ces spectres devront servir de référence pour l'analyse des paramètres fondamentaux d'autres étoiles. Un effort important devra donc être fait pour la mise à jour des catalogues de détermination des paramètres fondamentaux, ainsi que pour la maintenance des liens avec les bases bibliographiques, comme SIMBAD.
Optimisation de l'exploitation des spectres obtenus: des programmes d'observation accumulent de nombreux spectres échelle pour n'en étudier parfois que quelques raies. Une exploitation plus complète de ces données est nécessaire, pour des besoins scientifiques autres que ceux pour lesquels elles ont été acquises. Un exemple parmi d'autres est l'utilisation à des fins de physique stellaire des nombreux spectres enregistrés pour les programmes de recherche de planètes extrasolaires: par exemple la variabilité stellaire à moyen terme peut être étudiée sur la base de ces spectres, qui ont été obtenus dans un autre but; ou bien des déterminations précises d'abondances peuvent être effectuées à partir d'une moyenne des nombreux spectres d'une même étoile obtenus par ces programmes de recherche d'exo-planètes.
Une utilisation optimisée de ces spectres suppose leur archivage sous un format standard et facilement utilisable, et leur ouverture à la communauté de façon aisée et rapide, dans une base de données interrogeable via Internet. Un accès efficace à ces données, renforcé par des outils d'interrogation de la base adaptés aux besoins principaux de la communauté, et par des outils d'analyse et de modélisation, permettrait d'en tirer le meilleur parti.
Là encore, le besoin est en partie
satisfait par l'archivage des spectres effectué par les observatoires
où ils ont été obtenus. Il faut néanmoins remarquer que cet archivage
est la plupart du temps très rudimentaire, et ne permet pas l'accès
efficace aux données par un utilisateur extérieur (par exemple à l'OHP
ou au Pic du Midi). Il n'est pas prévu non plus, faute de moyens
humains adéquats au sein de ces observatoires, d'y développer dans un
avenir proche une base de données interrogeable sur Internet. Enfin,
même si un archivage existe déjà pour certains des instruments
considérés ici, le besoin d'homogénéisation et de standardisation des
données impose un travail supplémentaire qui trouvera tout
naturellement sa place dans le développement d'une base de données
homogène de spectres stellaires.
3. Type de données à introduire dans la base de données
Les deux type d'utilisation mentionnés ci-dessus imposent a priori de retenir uniquement les spectres offrant une grande couverture spectrale et une haute résolution (R > 30000). La gestion de spectres issus d'instruments offrant une faible couverture spectrale et de multiples configurations serait de toute façon très lourde et peu efficace. Le besoin principal concerne le domaine visible. Pour l'infrarouge non thermique, on note que plusieurs bibliothèques de spectres IR à basse et moyenne résolution existent déjà et couvrent relativement bien les besoins dans ce domaine (voir le serveur de bibliothèques spectrales de Montes ). Pour l'infrarouge thermique, et pour la haute résolution spectrale dans l'IR, la mise en place de bibliothèques de spectres et la construction de bases de données semble moins urgente dans la mesure où très peu d'instruments offrent ces possibilités. Nous suggérons donc de limiter dans un premier temps les spécifications de cette base de données aux spectres à haute résolution (R>30000), offrant un grand domaine spectral dans le visible, tout en laissant la place dans le concept à l'ajout futur d'une composante infrarouge.
Les instruments à considérer dans un premier temps sont donc les suivants:
Instrument | # conf. instrumentales | dépouillement | archivage |
ELODIE / 193cm OHP | 1 | sur site | spectres |
MUSICOS, mode spectropolarimétrique / TBL | 1 | sur site | données brutes |
MUSICOS, mode spectroscopique / TBL | 2 | sur site | données drutes |
FEROS / 152cm ESO | 1 | sur site | spectres |
UVES / VLT | 5 | sur site | spectres |
FLAMES+UVES / VLT | 1 | sur site | spectres |
ESPADONS / CFH | 2 | sur site | spectres |
EMMI/NTT | nombreuses | sur site, partiel | spectres, partiel |
auxquels viendront s'ajouter dans un avenir proche:
Instrument | # conf. instrumentales | dépouillement | archivage |
NARVAL / TBL | 1 | sur site | spectres |
HARPS / 3.60m ESO | 1 | sur site | spectres |
4. Standardisation de la réduction des
spectres
Pour être utilisables, les données archivées et mises à disposition doivent être réduites de façon standard, soigneusement calibrées en longueur d'onde et si possible en flux relatif. Certaines étapes de la réduction sont réalisées de façon à pau près homogène par les logiciels associés aux instruments concernés, tandis que d'autres doivent être effectuées a posteriori, par exemple par des logiciels associés à la base de données. Parmi les étapes de la réduction effectuées sur site, on peut citer:
-
la définition des ordres: effectuée de façon plus ou moins standard par les logiciels sur site; les ordres sont définis par des polynômes dont le type et le degré varient suivant l'instrument considéré.
-
la modélisation de la contamination inter-ordres et la soustraction du fond: cette étape dépend fortement de l'instrument considéré, et n'est donc pas traitée de façon parfaitement homogène; par contre, on peut supposer que les logiciels associés aux instruments ont été optimisés par rapport à cette étape, et qu'il ne serait donc pas raisonnable de l'effectuer à nouveau avec un nouveau logiciel associé à la base de données.
-
la correction de flat-field: la correction haute fréquence (pixel-à-pixel) et la correction de blaze sont en général découplées (mais pas toujours, cf MUSICOS et ESPADONS).
-
l'extraction optimale des ordres: la méthode d'extraction otpimale est devenue un standard, et est utilisée dans tous les logiciels sur site; elle inclut l'élimination des cosmiques; en principe, elle inclut aussi un calcul de l'écart type le long de chaque ordre, mais cette information n'est pas systématiquement sauvegardée (cf ELODIE).
-
la calibration en longueur d'onde: elle est bi-dimensionnelle dans tous les logiciels sur site; le type et le nombre de polynômes utilisés pour la calibration en longueur d'onde varient d'un instrument à l'autre, mais il n'est certainement pas indispensable de reprendre cette étape à zéro sous prétexte de standardisation; il faudra par contre prévoir de stocker dans les headers toutes les informations nécessaires pour exploiter la calibration (type et nombre de polynômes, coefficients); certains logiciels sur site (FEROS, UVES, ELODIE) livrent des spectres ré-échantillonnés à pas constant en longueur d'onde, ce qui supprime ce problème, mais qui par contre conduit à une perte d'information suite à l'interpolation rendue nécessaire par le ré-échantillonnage; il nous semble préférable, si possible, de ne pas procéder à ce ré-échantillonnage, mais plutôt de stocker les paramètres de la calibration dans les headers.
Après ces étapes, on doit envisager des opérations supplémentaires sur les spectres, qui peuvent être soit effectuées systématiquement au niveau de la base de données, soit commandées par l'utilisateur au moment de sa consultation:
-
raccordement des ordres: en principe, si la soustraction du fond et la correction de blaze ont été correctement effectuées, il ne doit plus subsister de discontinuité entre les ordres adjacents; le raccordement des ordres est alors une opération relativement simple, qui implique un ré-échantillonnage des données dans les domaines de longueur d'onde communs à deux ordres successifs; cependant, l'expérience montre que ces étapes initiales de correction de fond et de blaze, effectuées sur site ne sont pas toujours suffisamment optimisées, et que des écarts importants subsistent entre ordres adjacents (cf. ELODIE et MUSICOS); il faut alors envisager une étape supplémentaire destinée à pallier ces imperfections, par exemple en normalisant indépendamment chaque ordre à un pseudo-continu (cf ci-dessous).
-
normalisation au continu: elle est importante pour la plupart des applications, comme la mesure des largeurs équivalentes, ou la détermination automatique des paramètres fondamentaux; il existe plusieurs méthodes automatiques pour effectuer cette normalisation, soit localement ordre par ordre, soit globalement sur tout le spectre; aucune des méthodes développées jusqu'à ce jour n'est parfaitement satisfaisante, mais de gros efforts sont en cours, en particulier dans le cadre de la préparation à COROT et MONS.
-
calibration en flux: cette opération, qui constitue un besoin pour de nombreux programmes, est extrêmement délicate. Elle consiste à déterminer la distribution spectrale d'énergie de l'étoile mesurée; cela nécessite de déterminer la réponse intrumentale, l'absorption atmosphérique et l'absorption interstellaire par comparaison à des spectres d'étoiles de référence de distribution d'énergie connue et observées dans les mêmes conditions que l'objet. L'absorption interstellaire est très mal connue et la plupart des bibliothèques de spectres ont omis cette étape. Il en résulte que la couleur des standards spectrophotométriques est rarement dérougie. On pourrait éventuellement omettre cet aspect dans un premier temps en considérant que les objets observés à haute résolution sont très proches. Par ailleurs, la plupart des spectres à introduire dans la base n'ayant pas été observés dans un but spectrophotométrique, on dispose rarement d'observations de standards intercalés avec les objets. De plus, les spectres sont parfois obtenus dans de mauvaises conditions de transparence. D'autres effets peuvent compliquer la calibration, comme un seeing variable ou le mauvais centrage de l'objet dans la fibre ou la fente d'entrée. Enfin, il existe peu de standards spectrophotométriques observés à haute résolution. Compte tenu de ces problèmes, il semble très difficile d'implanter systématiquement une opération de calibration en flux. Nous recommandons de ne pas l'inclure dans la base de données dans un premier temps. Il faut néanmoins commencer à sensibiliser les observateurs et les observatoires à ce problème, afin d'aboutir dans un avenir proche à des procédures standards d'observation en spectroscopie haute résolution, incluant systématiquement l'observation chaque nuit de quelques spectres d'étoiles de référence utilisables par la suite pour cette calibration spectrophotométrique.
5. Standardisation du format des spectres réduits
Pour une utilisation efficace de la base de données, les spectres introduits dans la base doivent avoir un format homogène, et leurs headers doivent contenir toute l'information nécessaire pour une interrogation versatile de la base.
5.1 Les headers
Les headers doivent contenir toute l'information sur les points suivants:
- l'objet observé: identificateurs, coordonnées, type d'objet
- le site et télescope: nom du site, coordonnées du site, télescope, foyer
- les paramètres astronomiques de l'observation: date, heure, angle horaire, masse d'air
- le programme scientifique: numéro du programme, nom du PI, nom de l'observateur
- la configuration instrumentale: instrument, configuration
- les paramètres du détecteur: CCD, taille, taille des pixels, gain, bruit de lecture, paramètres de binning, température, temps de pose
- les paramètres du dépouillement: liste des étapes du dépouillement, paramètres du dépouillement utilisés à chaque étape (exemples: type et degré des polynômes de définition des ordres, seuil de rejet des cosmiques dans l'extraction optimale, type et degré des polynômes de définition du fond inter-ordre), nom des fichiers intermédiaires et de calibration, etc...
- les paramètres du spectre dépouillé: nombre d'ordres, nombre de points par ordre, type de données (spectro ou spectropolarimétriques), lambdamin, lambdamax de chaque ordre, résolution dans chaque ordre, S/N max tous les 1000A, polynômes de calibration (type, degré, coefficients), etc...
- les paramètres de l'étoile: Teff, log g, [Fe/H], abondances détaillées, vsini, Vr, écarts-types sur toutes ces quantités.
5.2 Les données
Le format le plus adapté pour les données est FITS. Il faut cependant éviter d'avoir à ré-échantillonner les spectres, donc la calibration en longueurs d'onde ne doit apparaître que sous forme de coefficients de polynômes de calibration dans le header du fichier. Pour une gestion plus légère de la base, il est par ailleurs préférable de se restreindre à un seul fichier par spectre, donc d'empiler les ordres d'un même spectre dans le même fichier FITS. Il faut également prévoir de donner pour chaque ordre l'écart-type du spectre, déterminé lors de l'extraction optimale. Enfin, pour les données de spectropolarimétrie, il faudra prévoir de donner pour chaque ordre tous les paramètres de Stokes (I,Q,U,V). En résumé, la structure d'un fichier doit être de la forme:
HEADER
|
ordre 1
I
|
sigma(I) |
V |
sigma(V) |
Q |
sigma(Q) |
U |
sigma(U) |
ordre 2 I |
sigma(I) |
V |
sigma(V) |
Q |
sigma(Q) |
U |
sigma(U) |
ordre 3 etc... |
Dans le cas des spectres sans polarimétrie, on ne garde que le paramètres de Stokes I.
6. Valeur ajoutée scientifique
6.1 Les liens vers
d'autres bases
Pour chaque étoile dont un spectre
est dans la base, on peut envisager des liens hypertextes vers d'autres
bases de données, comme Simbad, VizieR, etc..., qui serviront
elles-mêmes comme passerelles vers d'autres sites contenant d'autres
informations sur le même objet (par exemple catalogue Hipparcos). Les
liens à partir des services du CDS nécessitent la construction d'une
liste des observations contenues dans la base, qui sera installée dans
VizieR et mise à jour régulièrement. On peut aussi prévoir des liens
vers les sites dont le spectre est originaire (télescope et/ou
instrument).
6.2 Les
informations recueillies à partir du spectre archivé
Pour chaque spectre, on pourra se livrer à certains
types d'analyse de façon standard, qui livreront des informations
standardisées sur l'objet observé. Les résultats de certaines de ces
analyses seront introduits dans le header du fichier correspondant, et
serviront pour l'interrogation de la base (voir plus bas). Voici
quelques exemples:
- vitesse radiale, et son sigma
- vsini, et son sigma
- détermination de Teff, log g, [Fe/H], et leurs sigmas, par exemple en utilisant le logiciel TGMET ou ETOILE
- mesures d'abondance des divers éléments chimiques, et leurs sigmas
- profil photosphérique moyen (e.g. méthode LSD)
- fléchage automatique de particularités spectrales: SB2, présence de raies d'émission, spectres pathologiques, etc...
6.3 Les logiciels et données
annexes
Il faudra aussi attacher un certain
nombre de logiciels et de données à la base, afin que chaque
utilisateur puisse tirer parti au maximum des observations: outils de
mesure (vitesses radiales, largeurs équivalentes, vsini, ...), outils
de corrélation, modèles d'atmosphères et spectres synthétiques (ATLAS,
MARCS, PHOENIX), listes de raies (VALD, ...).
7. Critères d'interrogation de la base
7.1 A partir des données de base sur
l'objet
Il faut pouvoir en premier lieu accéder à un spectre
ou ensemble de spectres à partir des données de base présentes dans le
header des fichiers:
- par identificateur de l'objet: la meilleure méthode est de rechercher les coordonnées de l'objet, par exemple avec Simbad, puis d'interroger la base à partir des coordonnées. Ceci suppose que les coordonnées de chaque objet introduit dans la base soient vérifiées.
- par type d'objets: ceci suppose qu'on définisse au préalable une liste standard de types d'objets.
- par coordonnées: recherche des objets observés dans des limites de coordonnées (équatoriales, écliptiques, galactiques), ou dans des cercles de centre et de rayon spécifiés.
7.2 A partir des données de base sur l'observation
- par site
- par télescope
- par instrument
- par configuration instrumentale
- par date, heure, angle horaire, masse d'air
- par temps de pose
- par programme scientifique
- par observateur
- par PI
7.3 A partir des données caractérisant le spectre
- domaine spectral
- résolution
- S/B à une certaine longueur d'onde
7.4 A partir des données de valeur ajoutée scientifique
- par Teff, log g, [Fe/H]
- par vsini
- par Vr
- par abondance d'un élément chimique
- ou par le sigma sur l'une ou l'autre de ces quantités
- par la présence de certains fléchages: SB2, raies en émission, etc...
8. Stratégie de développement et ébauche d'un cadre de réalisation
Le développement et la mise en place d'une base de données de spectres stellaires, telle que décrite ci-dessus est un objectif ambitieux qui réclamera des efforts importants. Un certain nombre de travaux ont déjà été entrepris dans cette direction, et il est souhaitable de faire le meilleur usage possible des développements déjà accomplis ou en cours. C'est pourquoi nous recommandons la stratégie en trois étapes d'ambition et de difficulté croissantes, résumée ci-dessous:
-
optimisation des bases de données existantes: on pense en particulier au contenu de spectres stellaires à haute résolution de Hypercat(environ 900 spectres), également disponible au CDS; cette base représente une bibliothèque de spectres stellaires de référence, dépouillés et formattés d'une manière standard relativement proche de celle spécifiée plus haut, et répondant à une partie du besoin de la communauté; comme nous l'avons dit plus haut, cette base est à optimiser, en lui adjoignant des fonctions d'interrogation évoluées, et à compléter, en particulier par un meilleur échantillonnage des étoiles chaudes et très froides. Cette première étape réclamera un investissement humain relativement modéré, et devrait pouvoir être mise en place assez rapidement. Le travail consistant à compléter le contenu de cette base pourrait être pris en charge par l'Observatoire de Bordeaux (sous la responsabilité de C. Soubiran), en utilisant par exemple certaines données acquises dans le cadre de la préparation à COROT. Un prototype d'outil d'interrogation et d'accès via le Web pourrait être développé en utilisant VizieR. Cela nécessite la construction d'une ou plusieurs tables contenant les informations disponibles sur lesquelles on souhaite pouvoir faire des requêtes (tout ou partie des informations détaillées dans le paragraphe 7). Le calendrier de réalisation de cette étape devrait être assez court: démarrage en 2002, fin en 2003.
-
construction d'une bibliothèque de spectres homogène et complète: l'étape ci-dessus débouchera naturellement sur une deuxième étape, consistant à mettre en place une bibliothèque de spectres plus complète et homogène, c'est-à-dire répondant complètement aux critères de standardisation du dépouillement et des formats analysés plus haut. Ce travail pourrait être effectué dans le cadre du développement de la base de données de préparation à COROT; cette base de données comprend des spectres à haute résolution et des mesures photométriques d'un millier d'étoiles de tous types spectraux, avec détermination des paramètres Teff, log g, [Fe/H], vsini, Vr pour chaque étoile; le groupe chargé de mettre en place cette base de données, sous la responsabilité du CNES, comprend des chercheurs et ingénieurs de Toulouse (OMP et CESR) et du LAEFF (Madrid), dont on connait l'expertise concernant la gestion de bases de données en spectroscopie UV (cf la base de données INES de spectres IUE). Une base de données similaire, mais étendue avec d'autres données observationnelles pourrait être construite à partir de la base COROT, valorisant ainsi l'investissement humain important déployé pour la préparation à COROT. L'expertise du CDS, en particulier suite au développement de VizieR, et pour les aspects interopérabilité, sera également sollicitée. Les laboratoires potentiellement impliqués dans cette étape incluent: le LAOMP (Toulouse, responsable Gérard Vauclair): développement de la base de données d'entrée de COROT, en liaison avec le groupe du LAEFF à Madrid (responsable Enrique Solano); le GRAAL (Montpellier, responsable Bertrand Plez): outils de modélisation des atmosphères stellaires et interface web, l'Observatoire de Bordeaux (responsable Caroline Soubiran): détermination des paramètres fondamentaux; le CDS (Strasbourg): expertise bases de données astronomiques et interopérabilité.Cette deuxième phase, développée en partie en même temps que la phase 1, suivra un calendrier imposé par les besoins de la mission COROT, avec un démarrage dès 2001 et une fin vers décembre 2003. L'extension de la base de données développée pour les besoins de COROT à d'autres données (autres instruments, en particulier mode polarimétrique) pourra être étudiée. Une collaboration étroite avec les chercheurs du LAEFF (Madrid), chargés de maintenir les outils de gestion et d'interrogation de la base de spectres pré-COROT, pourra être poursuivie pour cette phase.
-
développement d'une base de données complète: cette base de données de spectres stellaires, telle que spécifiée dans ce document, permettra d'optimiser le retour scientifique (data mining) des spectres stellaires en provenance des instruments identifiés plus haut. Cette dernière étape, beaucoup plus ambitieuse et onéreuse que les 2 premières, pourrait s'inscrire à terme dans le développement des observatoires virtuels, auquel devra participer le PNPS, en particulier dans le cadre de ce projet précis, mais dans lequel le PNPS ne serait pas nécessairement leader.
Pour chacune de ces trois étapes, des spécifications précises, au-delà des spécifications de haut niveau présentées dans ce rapport, devront être définies par les groupes chargés du travail. Cette phase de spécification détaillée sort du cadre du présent rapport.
Dans le cadre de cette stratégie progressive, nous recommandons au PNPS de susciter la mise en place de consortiums, au moins pour les 2 premières phases ci-dessus:
Phase 1: | Observatoire de Bordeaux - maîtrise d'oeuvre CDS - expertise bases de données et interopérabilité, VizieR |
Phase 2: | LA OMP - maîtrise d'oeuvre LAEFF - gestion données spectroscopiques pré-COROT, outils d'accès et d'interrogation, expertise INES CDS - expertise bases de données et interopérabilité, VizieR GRAAL - expertise modèles d'atmosphères et spectres synthétiques, outils d'accès et d'interrogation Observatoire de Bordeaux - expertise détermination des paramètres fondamentaux |