的东南亚语言范围没有那么
Posted: Thu Jan 16, 2025 8:39 am
我们还附上了几个附件两个全面的表格列出了东南亚不同的计划和基准但这些计划和基准仍然不是详尽无遗的。当我们在年月完成这篇论文时已经有现有模型的更新版本或新模型发布。最后我们还重新发布了我们在和的聊天功能上运行的简单提示实验的结果比较了它们对英语马来语和泰语的响应。东南亚重点概述年之前东南亚的技术社区开始在机器翻译语音识别和当地语言的情感分析领域为语言模型开发奠定区域基础。在情绪分析方面这些努力主要是为了研究商业甚至政治目的。
在此背景下各国政府敏锐地意识到数据驱动技术的变革潜力开始制定国家人工智能战略以培育适合本地创新和外国投资的生态系统。年至年间研究人员发布了第一波以东南亚为重点的语言模型计划。这些计划在语言数量范围和性能 新加坡 whatsapp 数据 方面受到限制但技术界在基准测试和资源收集方面的努力是朝着更雄心勃勃的目标迈出的一步见附件和。年月发布的同时印度尼西亚新加坡泰国和越南等国家的项目也迅速增加。除了上面提到的和等多语言区域计划外印度尼西亚的马来西亚的泰国的和越南的等单语模型也已出现。
学术界企业和政府利益相关者通常在跨国公司的合作或支持下认识到为扩大使用和访问本地化生成式人工智能工具具有深远的重要性和商业潜力。从机器学习社区协作平台收集的数据表明的现有法学硕士来自美国和中国的模型主要使用英语数据或英语和阿拉伯语中文或日语的组合进行训练。其他研究表明世界上的语言在互联网上没有得到充分体现导致世界上多亿人口中有无法使用自己的语言参与数字世界。不过也取得了一些进展。多语言于年发布已针对种语言进行了预训练包括印尼语爪哇语马来语米南加保语巽他语和越南语。
在此背景下各国政府敏锐地意识到数据驱动技术的变革潜力开始制定国家人工智能战略以培育适合本地创新和外国投资的生态系统。年至年间研究人员发布了第一波以东南亚为重点的语言模型计划。这些计划在语言数量范围和性能 新加坡 whatsapp 数据 方面受到限制但技术界在基准测试和资源收集方面的努力是朝着更雄心勃勃的目标迈出的一步见附件和。年月发布的同时印度尼西亚新加坡泰国和越南等国家的项目也迅速增加。除了上面提到的和等多语言区域计划外印度尼西亚的马来西亚的泰国的和越南的等单语模型也已出现。
学术界企业和政府利益相关者通常在跨国公司的合作或支持下认识到为扩大使用和访问本地化生成式人工智能工具具有深远的重要性和商业潜力。从机器学习社区协作平台收集的数据表明的现有法学硕士来自美国和中国的模型主要使用英语数据或英语和阿拉伯语中文或日语的组合进行训练。其他研究表明世界上的语言在互联网上没有得到充分体现导致世界上多亿人口中有无法使用自己的语言参与数字世界。不过也取得了一些进展。多语言于年发布已针对种语言进行了预训练包括印尼语爪哇语马来语米南加保语巽他语和越南语。