识别并标记异常值,补全缺失数据,统一单位和格式。
这一过程可不简单,因为那些数据不是纯粹的数据,它们背后代表的是一次实验。
还好齐点对神经生物学和电生理学都有点涉及,他凭借自己那广泛的知识面对这些数据进行常规的处理。
原本混乱的数据,逐渐呈现出某种结构化的模样。
“数据本身的质量还不错。”
齐点一边操作一边自言自语。
“虽然记录有些混乱,但实验控制很严格,重复性实验做得很充分……不愧是启示计划。”
颖儿安静地坐在旁边,目光在屏幕上的数据和图表之间游移。
她看不太懂那些神经科学的术语,但数字本身就具有美感。
齐点完成基础整理后,开始尝试寻找规律。
他先用了最直接的方式,相关性分析,试图找出哪些参数与清醒时长存在强相关。
结果让人失望。除了刺激位点数量与清醒时长的正相关,其他参数的相关性都很弱,而且分散。
他换了一个思路,尝试聚类分析。
依然没有清晰的结果。
齐点皱起眉头,手指在键盘上敲打的速度慢了下来。
他又尝试了决策树、随机森林、支持向量机……各种机器学习算法轮番上阵。
这些算法能够拟合数据,能够对新样本做出预测,但准确率都不高,而且无法给出可解释的规律。
“个体差异的根源在哪里……”
齐点喃喃自语,目光在屏幕上的数据集中搜寻。
“是神经网络的拓扑结构差异?是突触密度的差异?还是某种更深层的代谢参数差异?”
他切换到另一个视角,开始分析位点之间的空间关系。
依然没有明显的规律。
时间一分一秒过去。
齐点的思路在不断变化。
从线性模型到非线性模型,从统计方法到机器学习,从单一变量分析到多变量分析,从静态关系到动态关系……
他的知识面确实足够广,几乎尝试了所有主流的数据分析方法,甚至还自己临时改进了几个算法以方便自己使用。
但数据就像一个顽固的谜题,始终不肯展露真相。
就在齐点准备尝试下一种方法时,颖儿突然开口了。
“老师。”她的声音有些犹豫,“这几组数据……好像有种说不上来的感觉。”
齐点的手指停在键盘上,转头看向她。