当前位置:首页   >>   资讯中心   >>  行业资讯   >>  数据标注优秀案例集之四十七 | 云藏搜索引擎藏文信息处理数据标注

数据标注优秀案例集之四十七 | 云藏搜索引擎藏文信息处理数据标注

发布时间:2025-06-24 15:35    来源:本网    阅读:17次

云藏搜索引擎藏文信息处理数据标注

申报单位:海南藏族自治州藏文信息技术研究中心

推荐单位:青海省数据局

一、案例简介

藏文信息处理面临语言结构复杂、标注标准缺失、数字化资源不足等问题。本案例通过系统化数据标注技术,构建高质量藏文语料库,赋能藏文信息化行业,推动藏文自然语言处理技术的进步和实用化,促进地区信息化建设和数字经济发展,为藏族文化的保护和传承提供了重要支持。

二、举措与成效

一是建立标准化标注体系。协同业内专家,充分参与《信息处理用藏文分词规范》和《信息处理用藏语词类标记集》两项国家标准的制定,覆盖分词、词性、语义等维度。遵从国家标准累计标注藏文分词语料868万词次,标注错误率降低至3%以下。

二是开发智能标注工具。利用高质量人工分词标注语料,基于机器学习研发藏文自动分词标注系统,分词准确率达95%以上,支持藏文搜索引擎索引优化,搜索准确率提升至97%。登记11项软著,推动藏文搜索引擎、语音识别等应用落地。该案例获青海省科技进步三等奖,获批青海省藏文信息技术科研科普基地。

三是构建开放协作生态。构建开放的数据标注平台,吸引13万实名用户参与,贡献10%的标注数据。累计收录藏文百科词条12万条、知识问答10万条,用户遍布全国34个省级行政区及全球90多个国家和地区,日均访问量200万次,支撑藏文信息处理产业链发展,促进区域数字经济。

四是培养专业人才梯队。联合高校开展藏文信息处理培训,访问学者8人,柔性引进高端人才5人,累计培养45名专业标注人员,其中硕士占比82%。支持11名从业人员攻读博士学位,缓解行业人才短缺问题。

五是优化全流程管理。采用模块化设计,实现数据采集、标注、审核全流程数字化。完成藏文句法标注2.3万句、语音标注1079小时、汉藏平行语料168万句对、框架语义知识库达1870个类,为藏文数字化保护提供基础资源。

三、特色亮点

一是标准化先行。建立藏文信息处理标准体系,推动标注数据规范化应用。实现了标准化流程和严格的质量控制,为藏文人工智能研发提供高质量数据底座。

二是技术实用化。开发了针对藏文的智能分词与标注工具,降低标注门槛,效率提升40%。为低资源语言处理提供了“自动化标注+智能校验+持续迭代”的创新范式。

三是社区共建。鼓励用户和项目合作单位参与标注工作,形成协作式标注生态。解决藏文数据稀缺和标注资源不足的问题。通过众包模式快速扩充语料规模,推动藏文信息处理技术的社区化发展。

     信息来源:国家数据局

办公地址:四川省广元市利州区东坝办事处利州东路、兴安路康隆·财富旺角6#21楼

邮编:628400  联系电话:0839-3617508

Copyright©2025  广元广财企业服务有限公司  All Rights Reserved

0839-3617508