买球的app排行榜前十名推荐
    主页 / 资讯 / 方案 / 微软宣布3.48T token练习数据集+高品质处置管线,笼罩通用、代码、数学、问答等

微软宣布3.48T token练习数据集+高品质处置管线,笼罩通用、代码、数学、问答等

2025-02-22 08:35


起源:DeepTech深科技与以往的数据处置方式比拟,REDSTONE 在数据品质跟处置效力上都实现了明显晋升。特殊是在特定范畴数据的获取上,REDSTONE 明显下降了数据集构建的门槛,使得研讨职员可能更轻易地获取高品质的专业范畴数据。从数据集的详细形成来看,REDSTONE 重要分为通用范畴跟特定范畴两年夜类数据:通用范畴数据 REDSTONE-Web 的范围到达了 3.17 万亿 token,这些数据来自 93 个 Common Crawl 快照,时光跨度从 2013 年到 2023 年。为了确保数据品质,研讨团队采取了多层过滤机制,包含言语辨认、基于规矩的过滤、基于模子的过滤以及去重处置。特殊值得一提的是,他们应用了 fastText 停止言语辨认,并设置了 0.5 的相信度阈值来挑选英语内容。在文档级其余过滤中,他们设定了严厉的品质尺度,比方请求文档词数在 50 到 100,000 之间,均匀词长在 3 到 10 个字符之间等。特定范畴数据则包含三个重要局部:1. REDSTONE-Code(2502 亿 token):这局部数据特殊存眷代码相干内容,包含代码片断及其相干的说明文本。研讨团队经由过程剖析 HTML 页面中的特定标签(如标签)来辨认跟提代替码内容,同时保存了代码的高低文信息,这对晋升模子对代码的懂得才能存在主要意思。2. REDSTONE-Math(159 亿 token):数学数据集包括了 HTML 格局的数学公式(111 亿 token)跟 ASCII 格局的数学内容(48 亿 token)。研讨团队应用了特别的处置流程来确保数学公式的准确性,并应用 pylatexenc 库停止语法检讨。3. REDSTONE-QA(514 亿 token):问答数据集分为开放式问答(513 亿 token)跟多选题(1 亿 token)两类。这些数据经由经心挑选跟处置,确保成绩跟谜底的品质。特殊是对多选题,研讨团队还保存了具体的说明,这有助于模子树立更深刻的懂得。图丨通用与特定范畴数据形成(起源:arXiv)在数据处置方面,REDSTONE 采取了两个中心模块:提取模块(Extraction)跟过滤模块(Filtering)。提取模块担任从原始网页中获取所需格局的练习数据,而过滤模块则经由过程多种技巧手腕(包含要害词搜寻、正则表白式婚配跟呆板进修模子)来挑选高品质内容。特殊是在处置代码跟数学公式时,研讨团队开辟了专门的处置流程,确保了这些特别格局内容的正确提取跟保存。值得留神的是,REDSTONE 在处置通用范畴数据时,同时应用了 WARC 跟 WET 两种格局的 Common Crawl 数据。这种双轨并行的处置方法不只进步了数据的多样性,还可能互补各自的上风。在 WET 格局数据处置中,团队改良了 CCNet 的去重战略,将处置范畴扩展到全部快照;而在 WARC 格局数据处置中,则采取了 Trafilatura 东西来提取重要内容,确保了提取内容的清楚度跟相干性。图丨 RedStone-Web 的后续阶段(起源:arXiv)在评测环节,REDSTONE 团队采取了片面的基准测试计划,分辨针对通用范畴跟特定范畴停止了具体评价。评测成果表现,该数据集在多个范畴都获得了令人注视的结果。在通用范畴评测中,REDSTONE-Web 与其余著名的开源数据集(如 RedPajama、FineWeb、RefinedWeb 等)停止了对照。测试成果标明,REDSTONE-Web 在多项知识推理义务中表示凸起,超越了现有的开源数据集。图丨开源数据会合评价义务的比拟(起源:arXiv)在代码范畴,研讨团队在 REDSTONE-Web 的基本上增添了 REDSTONE-Code 停止测试。在 HumanEval 基准测试中,模子的 pass@1 指标从底本的 0.0125 晋升到了 0.0555,pass@10 指标则从 0.0168 晋升到了 0.1035。相似地,在 MBPP 测试中,pass@1 指标从 0.0751 晋升到 0.1311,pass@10 指标从 0.1566 晋升到 0.2458。这些明显的晋升充足阐明了 REDSTONE-Code 数据集对晋升模子的代码天生才能存在主要代价。在数学范畴的评测中,研讨团队将其与 OpenWebMath 停止了对照。成果表现,REDSTONE-Math 在 GSM8k 测试中的迷惑度为 3.1125,优于 OpenWebMath 的 3.2503;在 MATH 测试中的迷惑度为 3.0557,同样优于 OpenWebMath 的 3.1288。这些成果标明,REDSTONE-Math 在数学推理才能方面存在显明上风。别的,在问答才能方面的评测成果表现,在融入 REDSTONE-QA 数据后,模子在 MMLU 测试中的得分由 0.3481 晋升至 0.4582 的程度。这一明显晋升证实了 REDSTONE 在提取跟处置问答类数据方面的上风。图丨 RedStone-QA 的评价(起源:arXiv)固然受限于允许证起因,处置后的数据集现在无奈直接开源,但研讨团队激励开辟者应用这套框架重现数据集并奉献给开源社区。据名目更新日记表现,未几前已有开辟者基于开源代码胜利复现了相干数据集,其范围跟品质均与原始数据集相称(名目地点:https://huggingface.co/zjsd)。将来,研讨团队打算从三个偏向持续改良:起首是引入更进步的过滤技巧,包含应用多模态旌旗灯号来晋升数据品质;其次是扩大支撑多言语数据集的构建;最后是树立及时数据更新机制,确保数据集的时效性。这些改良将进一步晋升 REDSTONE 的适用代价,使其成为推进年夜言语模子开展的主要基本设备。参考材料:https://arxiv.org/abs/2412.03398经营/排版:何晨龙

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!