论文笔记
# 【7】 K2 variable catalogue – II. Machine learning classification of variable stars and eclipsing binaries in K2 fields 0–4
# 标题翻译
K2 变量目录 Ⅱ. 基于 K2 任务 0-4 区域的变星和食双星的机器学习分类
# 备注
- K2
Kepler 太空望远镜于 2014 年启动了观测的第二阶段,简称 K2。K2 在黄道面上共观测了 20 个天区,每个天区时长约 80 天,并于 2018 年正式结束任务。
# 摘要
我们正在进入一个来自当前和计划中的测量望远镜的数据量空前的时代。为了最大限度地发挥此类调查的潜力,需要使用自动数据分析技术。在这里,我们通过结合 Kohonen 自组织图(SOM,一种无监督机器学习算法)和更常见的随机森林 (RF) 监督机器学习技术,实现了一种新的变星分类方法。我们将这种方法应用于来自 K2 任务场 0-4 的数据,发现 154 个 ab 型 RR Lyraes(10 个新发现)、377 个 δ Scuti 脉动、133 个 γ Doradus 脉动、183 个分离的食双星、290 个半分离或接触食双星和 9399 其他周期性(主要是点调制)源,一旦考虑到类显着性削减。我们展示了所有 K2 恒星目标的光曲线特征,包括它们的三个最强检测频率,可用于研究观测到的变异由点调制引起的恒星旋转周期。由此产生的变星、类和相关数据特征的目录可在线获取。我们在 PYTHON 中发布了我们的 SOM 代码,作为开源 PYMVPA 包的一部分,它与已经可用的 RF 模块相结合,可以轻松地用于重新创建该方法。
- 目的
变星分类方法 - 方法
结合了 SOM 网络(Kohonen 自组织网络) 和 随机森林 - 结果
应用在 K2 mission fields 0-4,发现了- 154 个 ab 型天琴 RR 型变星
- 377 个盾牌座 δ 型变星
- 133 个剑鱼座 γ 型变星
- 183 个分离型食双星
- 290 个半分离型食双星
- 9399 个其他类型变星
作者将他们的 SOM 代码发布在了 python 上,作为开源 PYMVPA 包的一部分
# 结论
我们实现了一种新颖的组合机器学习算法,使用 SOM 和 RF 对 K2 数据中的变星进行分类。我们考虑任务场 0-4,并打算随着更多数据的发布而更新目录。随着更多数据的积累,有可能实现新的可变性类别,并研究不同去趋势方法对目录性能的影响。我们在训练集上使用袋外估计获得了 92% 的成功率。
我们在一组 Kepler 和来自任务场 0-2 的一些 K2 数据上训练分类器。因此,它完全独立地应用于大多数 K2 数据,以及整个任务场 3-4。我们在任务场 3-4 上获得了良好的结果,这预示着将分类器应用于未来的数据。
像这样的算法将成为处理未来天文调查预期数据量的一个越来越重要的步骤。为了最大限度地提高科学回报,关键是要选择有趣的候选对象,并以最少的投入快速完成。我们希望这种方法将有助于越来越多的试图解决这个问题的工作。
# 笔记
# 使用随机森林优点
优秀的鲁棒性,对不同数据的适应性,提取光度曲线特征和分类方案的能力。
# 使用 SOM 理由
SOM 可以有效地对光变曲线进行参数化,而不需要借助特定的光变曲线特征。
# 使用 RF 随机森林理由
有效地把对象归类。
# 改进方案
- 以最大的信息保留量对光度曲线进行参数化处理
- 对训练集的不足进行调整
# 数据源
- Michulski Archive for Space Telescopes website(MAST)
- https://archive.stsci.edu/
- 数据格式是.fits 文件,部分关于.fits 文件的介绍见下述链接,更多介绍可另外搜寻:
# 提取和去趋势化
处理后的光变曲线和 K2 自己发布的去趋势光变曲线可在 MAST 上下载。
# SOM
本案例中,SOM 采用相位折叠光曲线形状,并将相似的形状分组为一维或二维的簇。
SOM 的强大之处在于其聚类算法的无监督性质。此外,算法的输入参数对小的变化不敏感,因此使得聚类过程十分稳健。
其结果是一个 map,任何输入的 K2 相位折叠光度曲线都可以与之比较。map 上光变曲线的位置告诉我们它与某些变星光变曲线形状的相似性。
# RF 随机森林
使用 RF 分类器来把对象分入特定的类别中。
使用 RF 分类器前,必须先把光变曲线分解为特定特征。然后将这些特征与已知训练集中的已知类配对,并且让分类器适合该集。
# 自动周期查找
使用 K2 光度计来确定每个目标的频率。
用于确定光变曲线频率的方法很多,常见的有 Lomb-Scargle(LS)周期图,自相关函数 ACF 和 小波分析,作者选择的是 LS(在一系列测试频率上执行正弦曲线拟合),理由是其出处和使用的简单性。
他们使用了 Press & Rybicki 的快速 LS 方法,去除了大量不适合范围的频率。最后从每条光曲线中提取了三个频率。
# 相位曲线模板准备
分类器的 SOM 需要分阶段的光变曲线,用之前确定的周期来对每条光变曲线进行相位折叠,相位折叠后,每条光变曲线都被分成 64 个等宽的 bin,每个 bin 的平均值用于形成将传递给分类器的相位曲线。
将每个相位曲线标准化使其介于 0 和 1 之间,并移动使其最小 bin 处于相位 0 。这样可以使相位曲线具有相同的比例并对齐,使分类器发现它们之间的相似性。
# SOM 的训练
输入参数为影响 Kohonen 层中像素调整速率的初始学习率 和影响组的大小的 初始学习半径。
最小化像素元素和相位曲线之间的差异,然后更新层中每个像素中的每个元素。
本研究中的代码已更新于 PYMVPA 包中。
# RF 选择数据特征
为避免主观因素,我们使用 SOM 将相位曲线的形状编码成一个参数(SOM 中与所讨论的光变曲线最近的像素的位置),而不是一系列特征。
大量处理手段,细节见论文 3.4 节
# 分类方案
最终分类方案分为七类:
- DSCUT(盾牌座 δ 型变星)
- GDOR(剑鱼座 γ 型变星)
- EA(分离型食双星)
- EB(半分离型食双星)
- OTHPER(其他周期性和准周期性变量)
- RRab(ab 型天琴 RR 型变星)
- Noise
# 训练集
来自 K2 的一组已知的变星,用以拟合分类器。
使用 K2 的目标与一些已知的变星目录(AAVSO、GCVS、ASAS)进行交叉匹配,但是得到的目标数量很少,不足以用于训练集,因此作者转向了 Kepler 一阶段数据,通过挑选处理,可选出部分与 K2 类似的数据。大部分参考了其他科研人员的论文文献和分类结果。
大部分食双星训练集来自 Kepler Eclipsing Binary Catalogue 。移除了部分特殊数据,设置了一定阈值,从而提高训练集纯度。
类别 | 对象数目 | 占比 |
---|---|---|
RRab | 91 | 1.81% |
DSCUT | 278 | 5.53% |
GDOR | 233 | 4.64% |
EA | 694 | 13.82% |
EB | 759 | 15.11% |
OTHPER | 1992 | 39.66% |
Noise | 976 | 19.43% |
# RF 的实施
使用 python 里的 scikit-learn 模块来实现 RF 。
RF 分类器的一个优点是能够估计特征的重要性,分类器会衡量哪些特征有更强的描述能力。
# 总结
- 本篇论文,在数据选取方面,优先选取数据量更大的长周期数据,并且应保证数据的一致性,同时剔除分类不为恒星的数据,以提高数据纯度。数据因为孔径损失( aperture losses)和像素灵敏度变化(inter-pixel sensitivity changes)的原因存在系统噪声,因此需要对数据进行提取和去趋势化。可以在去趋势化前对曲线先进行多次多项式拟合再去趋势,这样可以改善变异性信号的保存。
- SOM 方面可以借鉴的是,为了清楚起见,论文在 SOM 的最关键的 Kohonen 层方面选择了 2 维 40×40 的 Kohonen 层。同时在训练过程中,只有当归一化前的相位曲线变化范围大于每个相位点的标准偏差总平均值的 1.5 倍时,才会使用 K2 数据。这是为了避免基本上平坦的光变曲线影响 SOM,这些光变曲线也被一些人称之为 “噪声”。
- 使用 RF 随机森林之前,需要将光变曲线分解为代表数据的几个特定特征然后才能训练。
- 用于确定光变曲线频率的方法很多,常见的有 Lomb-Scargle(LS)周期图,自相关函数 ACF 和 小波分析,作者选择的是 LS(在一系列测试频率上执行正弦曲线拟合),理由是其出处和使用的简单性。最后他们使用了 Press & Rybicki 的快速 LS 方法,去除了大量不适合范围的频率,并从每条光曲线中提取了三个频率。
- 分类器的 SOM 需要分阶段的光变曲线,用之前确定的周期来对每条光变曲线进行相位折叠,相位折叠后,每条光变曲线都被分成 64 个等宽的 bin,每个 bin 的平均值用于形成将传递给分类器的相位曲线。同时,相位曲线必须具有相同的比例并对齐,这样才能使分类器发现它们之间的相似性。因此,需要将每个相位曲线标准化使其介于 0 和 1 之间,并移动使其最小 bin 处于相位 0 。
- 关于 SOM 的训练,其输入参数有两个,分别是影响 Kohonen 层中像素调整速率的初始学习率 和影响组大小的初始学习半径。对于一系列迭代,将每个输入的相位曲线与 Kohonen 层进行比较,并最小化像素元素和相位曲线之间的差异,找到层中的最佳匹配像素,然后按照以下表达式(Kohonen 层为二维的情况)更新每个像素:
其中:
- 是相位曲线中元素、坐标 处的像素值。
- 是该层中这个像素与最佳匹配像素的欧几里得距离。
- 是所考虑的相位曲线的第 个元素。
对每个相位曲线执行该操作后, 和 将按照以下公式更新:
其中:
- i 是当前迭代轮数。
- r 是 Kohonen 层最大维度的大小。
- 是进行迭代的次数。
# 【8】 Machine learning search for variable stars
# 摘要
光度变异性检测通常被认为是一个假设检验问题:如果在给定测量值及其不确定性的情况下可以排除其亮度恒定的零假设,则对象是可变的。这种方法的实际适用性受到未纠正的系统误差的限制。我们提出了一种新的可变性检测技术,该技术对广泛的可变性类型敏感,同时对异常值和低估的测量不确定性具有鲁棒性。我们将可变性检测视为可以通过机器学习解决的分类问题。逻辑回归 (LR)、支持向量机 (SVM)、k 最近邻 (kNN)、神经网络 (NN)、随机森林 (RF) 和随机梯度提升分类器 (SGB) 应用于 18 个特征(可变性指标)量化光变曲线中点之间的散射和 / 或相关性。我们使用了光学引力透镜实验第二阶段 (OGLE-II) 大麦哲伦云 (LMC) 光度法(30265 条光曲线)的子集,该子集使用传统方法(已知 168 变量对象)作为训练集,然后将 NN 应用于 31798 OGLE-II LMC 光曲线的新测试集。在测试集中选出的 205 个候选中,178 个是实变量,13 个低幅度变量是新发现。与使用个体可变性指数或其线性组合的传统技术相比,所考虑的机器学习分类器被发现效率更高(选择更多变量和更少错误候选者)。与 LR 和 kNN 相比,NN、SGB、SVM 和 RF 显示出更高的效率。
# 结论
我们探索了一种从一组光曲线中选择可变对象的新方法。基本思想是将变异性检测视为两类分类问题(变量与非变量对象),尽管这些类具有内在的不均匀性,并用 ML 解决。该过程可概括如下:
(i) 使用传统方法搜索所有光变曲线的代表性子集的可变性,例如通过目视检查变异特征中所有异常值的光曲线 - 幅度图(图 B1)。获得合理的信心,即子集中的可变性搜索是详尽无遗的,这一点很重要。这将是我们的训练子集。
(ii) 对于每条光变曲线,计算一组特征(表 2),这些特征突出显示某些或所有类型的可变性,同时隐藏光变曲线之间不重要的差异(如测量次数的差异)。
(iii) 选择一个 ML 算法并使用 CV 在训练子集上调整其 HP,如第 3.3 节所述。表 3 给出了一个最佳 HP 值的示例。
人们可以通过选择在搜索最佳 HP 期间最大化的性能指标(例如 Fβ 而不是 F1,第 3.1 节)来控制可变性搜索的完整性和错误检测率之间的权衡。
(iv) 在整个训练子集上使用优化的 HP 训练算法。
(v) 将算法应用于整套光变曲线并检查分类为变量的光变曲线。可以通过改变分类器阈值来控制这一阶段的误检率。
这个过程甚至适用于中等大小的高度不平衡训练子样本:30265 条 OGLE-II 光曲线中有 168 个变量(第 2.1 节;另请参见图 5 中的 CV 分数)。应用到一组独立的 31 798 条 OGLE-II 光曲线中,选择了 205 个候选变量,其中 27 个被证明是错误检测,以及 178 个真实变量(其中 12 个是新变量,表 4 和图 8)。
为了直接将传统的可变性搜索方法与此处考虑的 ML 算法进行比较,我们将自己限制在 Sokolovsky 等人使用的数据集。 (2017)谁比较了各种可变性指数(特征)的有效性。就 F1 分数(表 3)而言,此处测试的所有 ML 算法都优于每个个体可变性指数以及它们的线性组合。 NN、SVM、SGB 和 RF 算法表现出最佳性能(图 4)。除了这里详细讨论的 OGLE-II 数据外,这些结论还得到了 Sokolovsky 等人的另外两个数据集的证实。 (2017),这些是用不同的望远镜收集的,并使用不同的源提取和测光软件进行处理(第 4.1 节)。为了进一步改善可变对象选择结果,需要使用更大的训练样本并设计附加特征,以量化对象的图像形状、与其他检测到的对象的接近程度以及光变化的周期性。建议的基于 ML 的变异性检测技术应适用于任何大型 (104) 组光曲线,因为这些光曲线的代表性子样本通过其他方式先验地分类为 “恒定” 或 “可变”(第 4.4 节)。
# 笔记
# 概述
- 检测光变曲线的可变性往往被认为是一个假设检验问题,然而作者认为应该是一个二元分类问题。
- 即使是同数据集的光变曲线,也可能因为一些随机事件而破坏部分测量值。为了以统一的方式表示这些不同的光变曲线,需要提取光变曲线特征。这里作者使用了其他人的 VAST 代码,其计算的特征是为了用于变异性检测。
# 数据源
OGLE-II PSF fitting I-band photometry of the field LMC_SC20
光学重力透镜实验(Optical Gravitational Lensing Experiment,简称 OGLE)是波兰华沙大学的一个天文学研究项目,其目标是以重力透镜的方法,来寻找宇宙中的黑暗物质。研究项目于 1992 年开始,其间也发现了一些太阳系外行星。计划方面则分为三个阶段,计有 OGLE-I、OGLE-II 和 OGLE-III。
训练集组成:
- 54 个食双星
- 52 个可变红巨星
- 26 个 RR lyrae 型变星
- 20 个造父变星
- 13 个蓝色不规则变星
- 3 个盾牌座 δ 型变星
# 偏差来源
训练集样本有限,不能代表所有的变异性类型。
# 变异性特征
参考其他研究人员论文中使用的特征。
# 分类
本实验测试了逻辑回归(LR),支持向量机(SVM),K 近邻算法(KNN),神经网络(NN),随机森林(RF)和随机梯度提升分类器(SGB),使用 python 里面的 scikit-learn 包来实现 SVM,RF,kNN,用 XGBoost 包来实现 SGB,用 Keras 来实现 NN。
# 总结
- 当选择过多特征进行训练时,一个明智的选择是保留计算时间少的特征而去掉计算成本高的特征,以达到一个较高的性价比。
- 除了 RF 和 SGB 以外的数据预处理都可以用中心化和标准化来处理,同时,为了防止高估分类性能,在进行数据预处理和特征选择时,应防止用于评估性能的样本向用于建立分类器的样本泄漏任何信息。
- 当需要使用性能指标查准率 P 和召回率 R 时,应当使用 F 值来综合评估权衡算法性能:
如果 R 的重要性(重视程度)是 P 的 β 倍,则可以使用以下公式来权衡:
为了描述模型在所有可能的阈值上的性能,可以使用 ROC 曲线下的面积作为性能指标。