作者:deephub
链接:https://www.zhihu.com/question/1960103968656032943/answer/1960274438248466299
来源:知乎
如果没有私有数据也不是死路。公开数据集的切入点可以是:
- 某个特定子问题。比如别人做电力负荷预测,你就专门做”极端天气下的短期负荷预测”。用UCI的Electricity数据集,筛选出异常天气的样本,这就是你的故事。找一篇介绍异常天气误差的论文作为引用,这就说明你研究的方向是对的,而且还有了基线。
- 组合创新也很好使。LSTM大家都用烂了,那么”LSTM+小波变换做数据预解”呢?”Transformer+季节性分解”呢?我只举例,具体的你要自己思考,这些组合在工业界其实很常用,但学术论文里可能没被充分研究。找两三篇相关工作,说明现有方法的不足,你的组合恰好能解决,实验结果有改进,这个故事就能自圆其说。
- 还有个思路是做可解释性。现在都在卷模型精度,但实际应用中可解释性同样重要。你用SHAP或者注意力权重分析,解释模型到底学到了什么模式,哪些特征在起作用。这种工作在提出SHAP之后就有很多人在做,但时序预测领域还有很大空间。一个能解释的LSTM,比一个黑盒的复杂模型更容易发论文、更容易毕业。
- 实验设计要讲究。单纯比精度没什么说服力,多搞几个维度:不同预测长度(1小时、1天、1周)、不同场景(工作日vs周末、平稳期vs波动期)、泛化(鲁棒)性测试(加噪声、缺失值)。把这些结果整理成表格和折线图,论文篇幅自然就上来了,而且显得你实验很充分,没有功劳也有苦劳吧,咱们不就是要几及格么。
- 可视化很重要。预测曲线图必须画得清楚,真实值和预测值要能看出差异。误差分布图、残差图、特征重要性图都可以放上去。一张好图胜过一堆文字描述。比如说把不同模型在不同时间段的预测误差做成热力图,一眼就能看出哪个模型在什么情况下表现好,谁看到这张图不说”做得细致”。
- 论文写作上,别堆砌公式。把问题背景、为什么这个问题重要、现有方法有什么局限性讲清楚,比推导一堆公式有用。咱们是要讲故事,尤其是引言部分,让你读完就觉得”确实,这个问题值得研究”。然后方法部分简洁明了,实验部分数据说话。结论部分坦诚局限性,提几个未来可以改进的方向。
- 还有个技巧是多引用综述文章。这些文章已经帮你梳理好了领域现状,你直接站在巨人肩膀上,说明你的工作是在这个大框架下的一个具体探索,而且还能让老师觉得,这孩子可以,找了这么多论文资料。
研究了什么问题问题和解决了什么问题的区别
研究了什么问题?
解决了什么问题?
个人理解:第一个是偏向背景,比如说研究长时间时序预测问题;第二个偏向技术,比如说现有的方法存在什么什么问题。