评估的可靠性始于输入数据的质量。大模型的评判结果极度依赖上下文,因此采集阶段的任务不仅是收集样本,而是要保证模型在评估时能看到正确、完整且有代表性的输入输出对。一旦输入数据不一致、上下文缺失或标识混乱,后续所有指标都将失真。
云监控 2.0 提供自研无侵入探针,兼容 Opentelementry 协议,以 OpenTelemetry Python Agent 为底座,增强大模型领域语义规范与数据采集,提供多种性能诊断数据,全方位自监控保障稳定高可用,开源采集器 LoongCollector 可实时采集增量日志到服务端,性能强,无缝把大模型推理日志进行集中采集和存储,解决数据孤岛的问题。
因此,第一步我们需要将 Agent 接入云监控 2.0,创建 Project 和对应的 Logstore,采集 Agent 的运行数据 TraceLog,用于评估的数据输入。以下我们为一个电商领域的智能找挑应用创建一个 Project 和 Logstore。
采集智能找挑应用的用户和模型之间的输入和输出数据。