天堂www中文在线
- 发布日期:2026-01-03 14:02 点击次数:88
“过马路时,你要珍贵看车!”
“我目表未走动车展看车。”
这两句话里的“看车”是一个真谛吗?坚信不少东说念主要会心一笑,名义上看是磨灭个词组,但其含义因语境不同发生了变化。
这等于中文里常见的“一词多义”气候。东说念主工智能大模子是一种与东说念主类说话密切干系的技巧,要让大模子长远意会这一气候,离不开中文数据的陆续供给。
当今,国内多数模子锻练使用的数据,中文数据占比也曾越过60%,有的模子达到80%。大模子锻练中,中文数据占比提高有何真谛?中文高质地数据为何陆续加多?如何进一步加多中文数据的开拓与供给?记者进行了采访。
数据就像大模子的“常识课本”
不同说话的数据对大模子性能有若何的影响?“数据就像大模子的‘常识课本’,课本的说话属性不同,会对模子的常识体系产生不同影响。”清华大学计较社会科学与国度措置实验室扩充主任、教师孟庆国示意。
从常识起头看,往日我国大模子常濒临“数据依赖”风险——英文数据在群众互联网的占比拟高,如前沿科技论文、行业步调、文化文籍等多以英文呈现,群众高质地标注数据也多以英文为主。
“说话类大模子一般需要撤职一定的说话民俗。”工业和信息化部信息通讯经济行家委员会委员盘和林以为,中文数据占比提高,既便捷了用户意会其输出落幕,又不错保险和提高我国在大模子上的研发才略。
“若中文数据占比低,模子在关节技巧迭代中易受‘数据授权限定’‘更新延长’等影响。”孟庆国说,中文数据占比提高,助力我国在“数据安全”“技巧自主”上迈出关节步履,成心于我国掌捏大模子发展主动权。
“中文数据中独到的文化民俗、隐喻抒发、策略术语等在英文数据中难以取得体现。模子遥远学习英文数据,所变成的‘英文式清晰逻辑’,预防会中文特有的想维面目时容易出现偏差。”科大讯飞消费者AI交互业务部总司理赵艳军先容,中文数据比重的提高,增强了大模子对中中文化及中国场景的意会才略。比如中医问诊时,“上火”“潮湿”等主见需要中文语境智力准确推理。
从常识传承看,中文数据承载着我国数千年的文化积存,中文数据占比提高,能让大模子推动中中文化的数字化传播。“中文数据占比高的模子能教养‘文言文虚词用法’‘诗词平仄规章’等。比如,在阐发‘之乎者也’时,连合《论语》《孟子》等中文文籍案例,让传统文化耕种腾达动。”孟庆国说。
中文高质地数据供给才略束缚增强
中文闲居数据和中文高质地数据有何区别?闲居数据多为未经审核的收罗文本、非专科实践,易出现事实失实或主见沾污。而高质地数据需经过“事实核查、专科审核”,语义准确且起头可追溯。
要意会中文高质地数据的迫切性,可从医疗会诊这一专考场景讲起。本年8月,中文临床医学常识图谱“磐医常识图谱”在浙江台州发布。“刻下,一些大模子学习的医学常识,起头于互联网公开数据,而这些公开数据,有的不严谨、有的存在矛盾、有的更新滞后,这些情况王人会对大模子生成的落幕产生负面影响。”浙江省全省医疗智能方案重心实验室主任林辉示意,“磐医常识图谱”中的数据均由医学行家审核,每个常识点王人有明确起头,且动态更新医学进展。
大模子性能的提高,体现了中文高质地数据的价值。成绩于一系列要素的协力助推,中文高质地数据的供给才略束缚增强——
策略有撑持。从《“数据要素×”三年活动所在(2024—2026年)》建议“打造高质地东说念主工智能大模子锻练数据集”,到国度数据局布局建造数据标注基地,策略利好下,盛大中文高质地数据集加速建造。
技巧有冲突。中文数据因“歧义多、语境依赖强”,早期标注资本是英文数据的1.8—2.5倍,跟着技巧束缚越过,开拓难度也在裁汰。举例,国内某“中文语义标注系统”已可自动鉴别“打毛衣”“打电话”中“打”的含义,让标注效果提高了3倍,且资本有用裁汰。
行业有共鸣。国内垂直场景对“中文适配”大模子的需求束缚升温,推动中文数据从“支持补充”变为“中枢资源”,更多企业参与到中文数据的开拓之中。如中国移动已建成笼罩超30个行业、超3500TB(太字节)的通用高质地数据集。
协同建步调,细分多场景
Token(经常所说的“词元”)是处理文本的最少许据单位。数据披露,2024年头,我国日均Token的挥霍量为1000亿,落幕本年9月底,我国日均Token挥霍量已冲突40万亿。这些数字背后,是中文数据资源的快速积存和价值开释。
如何进一步增强中文数据的开拓和供给?行家学者带来了想考和建议。
最初是建步调。现存的中文数据中,重迭的实践多、质地高的少,尤其是在医疗、工业等垂直范畴,高质地数据更是稀缺。比如医疗数据,有的病院纪录病历只写“发热”,有的会写“发热38.5摄氏度、伴咳嗽2天”,若无步调的“尺子”判断数据质地,进一步的开拓难以激动。
“明确了不同范畴的中文标注步调后,才更成心于建造和完善评价、激发机制。”孟庆国以为,应加速筹商制定中文数据分级步调,从而开释中文数据的供给活力。
其次是强技巧。高质地数据集的建造过程中仍不成幸免会遭受盛大数据孤岛和合规辛苦,比如,不同机构的数据因为秘籍安全等合规要求,难以跨域通顺,导致各机构重迭开展数据标注,既浪费资源,又无法变成限度效应。
“可扩张诳骗新一代标注技巧,在原始数据不出域且保证秘籍安全的条目下,完成跨机构协同标注,从而整合多机构力量,幸免重迭事业。”赵艳军说。
此外要补场景。我国产业体系完备,其广度和深度决定了需要更多细分场景的中文数据。“比如,在元六合等新兴场景中,中文数据使用量仅为英文的1/5;又如,中医、非遗等传统场景数字化进程低,盛大可贵信息尚未转化为可用数据资源。”孟庆国示意,可推动政产学研用协同,专项集聚各式垂直场景中文数据,激活产业诳骗。
激动文化和科技会通
“十五五”打算建议建议,“激动文化和科技会通”。探索文化和科技会通的有用机制,需要用互联网想维和信息技巧改革文化创作坐褥历程,推动文化建造数智化赋能、信息化转型。
“文化IP+科技体验”,重塑文旅产业生态。通过线上数字平台与线下千里浸场景的连合,多地打造数字文旅空间、开拓“旅游+智能体”新诳骗等,齐备文化和科技双向赋能。“文化创作+东说念主工智能”,拓展产业会通场景。刻下,以大模子为代表的AI技巧,与影视、文博等范畴深度会通,催生出AI短剧、博物馆数字文创等新产物,不仅丰富了文化抒发面目,也培育出更多文化消费新场景。“本性文化+数字技巧”,助力乡村全面振兴。通过数字技巧,将地标农产物、乡村非遗武艺融入微短剧等实践创作,大略进一步提高本性文化产物的创意才略和发达力,为乡村全面振兴注入新动能。
——北京大学文化产业筹商院学术委员会主任 陈少峰
- 离城不远, 归心很近, 这套11米宽小院, 装下了四季焰火2026-01-03
- 天降多数“扶贫款”?警惕电诈洗钱新骗局2026-01-03
- 中文高质地数据集加速建造 大模子如何更懂“中国话”2026-01-03
- 很爱你, 爱到入骨, 很想你, 预想入梦2026-01-03
- 41年产权争夺: 一套凶宅奈何转换兄妹运说念?2026-01-03
- 柬泰本轮打破烈度远超以往,中国特使穿梭救济柬泰格式2025-12-24

