云藏搜索引擎藏文信息处理数据标注
申报单位:海南藏族自治州藏文信息技术研究中心
推荐单位:青海省数据局
一、案例简介
藏文信息处理面临语言结构复杂、标注标准缺失、数字化资源不足等问题。本案例通过系统化数据标注技术,构建高质量藏文语料库,赋能藏文信息化行业,推动藏文自然语言处理技术的进步和实用化,促进地区信息化建设和数字经济发展,为藏族文化的保护和传承提供了重要支持。
二、举措与成效
一是建立标准化标注体系。协同业内专家,充分参与《信息处理用藏文分词规范》和《信息处理用藏语词类标记集》两项国家标准的制定,覆盖分词、词性、语义等维度。遵从国家标准累计标注藏文分词语料868万词次,标注错误率降低至3%以下。
二是开发智能标注工具。利用高质量人工分词标注语料,基于机器学习研发藏文自动分词标注系统,分词准确率达95%以上,支持藏文搜索引擎索引优化,搜索准确率提升至97%。登记11项软著,推动藏文搜索引擎、语音识别等应用落地。该案例获青海省科技进步三等奖,获批青海省藏文信息技术科研科普基地。
三是构建开放协作生态。构建开放的数据标注平台,吸引13万实名用户参与,贡献10%的标注数据。累计收录藏文百科词条12万条、知识问答10万条,用户遍布全国34个省级行政区及全球90多个国家和地区,日均访问量200万次,支撑藏文信息处理产业链发展,促进区域数字经济。
四是培养专业人才梯队。联合高校开展藏文信息处理培训,访问学者8人,柔性引进高端人才5人,累计培养45名专业标注人员,其中硕士占比82%。支持11名从业人员攻读博士学位,缓解行业人才短缺问题。
五是优化全流程管理。采用模块化设计,实现数据采集、标注、审核全流程数字化。完成藏文句法标注2.3万句、语音标注1079小时、汉藏平行语料168万句对、框架语义知识库达1870个类,为藏文数字化保护提供基础资源。
三、特色亮点
一是标准化先行。建立藏文信息处理标准体系,推动标注数据规范化应用。实现了标准化流程和严格的质量控制,为藏文人工智能研发提供高质量数据底座。
二是技术实用化。开发了针对藏文的智能分词与标注工具,降低标注门槛,效率提升40%。为低资源语言处理提供了“自动化标注+智能校验+持续迭代”的创新范式。
三是社区共建。鼓励用户和项目合作单位参与标注工作,形成协作式标注生态。解决藏文数据稀缺和标注资源不足的问题。通过众包模式快速扩充语料规模,推动藏文信息处理技术的社区化发展。
     信息来源:国家数据局
办公地址:四川省广元市利州区东坝办事处利州东路、兴安路康隆·财富旺角6#21楼
邮编:628400 联系电话:0839-3617508
Copyright©2025 广元广财企业服务有限公司 All Rights Reserved
0839-3617508