Thursday, 5 January 2017

Moyenne Mobile Moyenne Stata

Cette structure de données est tout à fait impropre à l'objet. En supposant un ID identifiant que vous devez refaire. par exemple. Ensuite, une moyenne mobile est facile. Utiliser tssmooth ou simplement générer. par exemple. Plus sur pourquoi votre structure de données est tout à fait impropre: Non seulement le calcul d'une moyenne mobile nécessite une boucle (ne nécessitant pas nécessairement d'egen), mais vous créerez plusieurs nouvelles variables supplémentaires. L'utilisation de ceux dans toute analyse ultérieure serait quelque part entre difficile et impossible. EDIT Ill donner une boucle d'échantillon, tout en ne se déplaçant pas de ma position que c'est une mauvaise technique. Je ne vois pas une raison derrière votre convention de dénomination par laquelle P1947 est un moyen pour 1943-1945 Je suppose que c'est juste une faute de frappe. Supposons que nous ayons des données pour 1913-2012. Pour des moyens de 3 ans, nous perdons un an à chaque extrémité. Cela pourrait être écrit de manière plus concise, au détriment d'une vague de macros dans les macros. Utiliser des poids inégaux est facile, comme ci-dessus. La seule raison d'utiliser egen est qu'il ne renonce pas si il ya des fautes, ce qui va faire. Comme une question d'exhaustivité, notez qu'il est facile de gérer les fautes sans recourir à egen. Et le dénominateur Si toutes les valeurs sont manquantes, cela se réduit à 00 ou manquant. Sinon, si une valeur manque, on ajoute 0 au numérateur et 0 au dénominateur, ce qui équivaut à l'ignorer. Naturellement, le code est tolérable comme ci-dessus pour des moyennes de 3 ans, mais soit pour ce cas ou pour la moyenne sur plus d'années, nous remplacerions les lignes ci-dessus par une boucle, ce qui est egen does. I ont une série chronologique de mesure horaire de Environnementales et météorologiques (température et humidité) sur plusieurs années. À partir de ces valeurs horaires, je voudrais calculer un moyen de 24 heures pour créer un paramètre d'exposition. Pour cela, l'exigence est qu'au moins 17 des mesures horaires devraient être disponibles avec pas plus de 6 heures de valeurs manquantes consécutives. Si plus de 6 valeurs horaires sont manquantes consécutivement dans 24, les données pour cette date spécifique est définie à manquant. Comment puis-je implémenter ceci dans Stata ou SAS Merci à l'avance demandé Jun 27 12 at 15:33 Pour les calculs généraux de la moyenne mobile, utiliser PROC EXPAND est la méthode la plus facile (vous avez besoin de l'ETS autorisé à utiliser cette procédure). Par exemple, le code ci-dessous calcule une moyenne mobile de 24 périodes et définit les 16 premières observations à manquer. Cependant, pour se conformer au reste de vos critères, vous devrez toujours exécuter une étape de données par la suite, selon le code Robs, afin que vous puissiez effectuer tous les calculs à l'intérieur de cette étape. Réponse Jun 28 12 at 13:11 Votre réponse 2017 Stack Exchange, IncSmoothing: Lowess Nous travaillerons avec les données de l'Enquête sur les ménages WFS de Colombie, réalisée en 1975-76. J'ai tabulé la répartition par âge de tous les membres du ménage et l'ai enregistré dans un fichier ascci, que nous lisons et traçons maintenant: Comme vous pouvez le voir, la distribution semble un peu moins lisse que les données des Philippines que nous avons étudiées plus tôt. Pouvez-vous calculer l'index de Myers pour cette distribution Moyens de fonctionnement et les lignes Le moyen le plus simple pour lisser un nuage de points est d'utiliser une moyenne mobile. Également connu sous le nom de moyenne courante. L'approche la plus courante consiste à utiliser une fenêtre de 2k 1 observations, k à gauche et k à droite de chaque observation. La valeur de k est un compromis entre la douceur de la bonté de l'ajustement. Une attention particulière doit être portée aux extrêmes de la gamme. Stata peut calculer les moyens de course via lowess avec les options mean et noweight. Un problème courant avec les moyens de déplacement est un biais. Une solution consiste à utiliser des poids qui accordent plus d'importance aux voisins les plus proches et moins à ceux qui sont plus éloignés. Une fonction de poids populaire est Tukeys tri-cube, définie comme w (d) (1-d 3) 3 pour d lt 1 et 0 sinon, où d est la distance au point cible exprimée en fraction de la bande passante. Stata peut faire ce calcul via lowess avec la moyenne d'option si vous omettez noweight. Une solution encore meilleure est d'utiliser des lignes en cours d'exécution. On définit de nouveau un voisinage pour chaque point, typiquement les k voisins les plus proches de chaque côté, on ajoute une droite de régression aux points du voisinage, puis on l'utilise pour prédire une valeur plus lisse pour l'observation d'indice. Cela semble beaucoup de travail, mais les calculs peuvent être effectués efficacement en utilisant des formules de régression de mise à jour. Stata peut calculer une ligne courante via lowess si vous omettez moyenne, mais incluez noweight. Mieux encore est d'utiliser des lignes de course pondérées. Donnant plus de poids aux observations les plus proches, ce qui est ce que le lowess plus lisse fait. Une variante suit cette estimation avec quelques itérations pour obtenir une ligne plus robuste. C'est clairement la meilleure technique dans la famille. Statas lowess utilise une ligne courbe pondérée si vous omettez moyenne et noweight R implémente le lowess plus lisse à travers les fonctions lowess () et le loess () nouveau, qui utilise une interface de formule avec un ou plusieurs prédicteurs et des valeurs par défaut quelque peu différentes. Le degré de paramètre contrôle le degré du polynôme local, la valeur par défaut est 2 pour le quadratique, les alternatives sont 1 pour linéaire et 0 pour les moyennes courantes. Les deux implémentations peuvent utiliser un estimateur robuste, avec le nombre d'itérations contrôlées par un iter de paramètre ou des itérations. Type loess et lowess dans la console R pour plus d'informations. Dans ggplot () vous pouvez superposer un lowess plus lisse en appelant geomsmooth () La figure ci-dessous montre les données colombiennes et un lowess plus lisse avec une portée ou une bande passante égale à 25 des données. Vous pouvez essayer différents badwidths pour voir comment les résultats varient. Préférence des chiffres revisitée Le lissage de la répartition par âge fournit une meilleure façon d'évaluer la préférence numérique que le mélange de Myers. Calculons le dernier chiffre de l'âge et le tabulons sur toute la gamme des données à l'aide des fréquences observées et un lowess plus lisse. Les fréquences brutes montrent des preuves de préférence pour les âges se terminant en 0 et 5, ce qui est très fréquent, et probablement 2 aussi. Nous utilisons maintenant le lisse comme poids. Les fréquences lissées montrent que nous attendons moins de personnes à des chiffres supérieurs, même dans une distribution régulière, avec plus finissant dans 0 que 9. Nous sommes maintenant prêts à calculer un index de préférence de chiffre, défini comme la moitié de la Somme des différences absolues entre les fréquences observées et les fréquences lisses: On voit qu'il faudrait remanier 5,5 des observations pour éliminer la préférence numérique. Vous pouvez comparer ce résultat avec l'indice Myers. Copie 2017 Germaacuten Rodriacuteguez, Université de Princeton


No comments:

Post a Comment