最新评测对主流大模型幻觉问题进行了评估
发布时间:2024-01-08 来源:互联网 点击:(3086) 【 字体:大 中 小 】
如何准确评估和解决大语言模型中的幻觉问题已成为一个至关重要的挑战。近日,复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA,对业界主流的大模型进行了评估。
HalluQA采用无幻觉率来评估大模型的优劣。无幻觉率越高代表模型幻觉越低,事实准确性越高。在评测的24个主流大模型中,包括百度文心一言ERNIE-Bot、百川Baichuan、智谱ChatGLM、阿里通义千问和GPT-4等。
从评测结果来看,幻觉问题对大模型来说尚有困难,有18个模型的无幻觉率低于50%。在幻觉消除上,具备检索增强能力的大模型优势明显,在所有模型评测中,文心一言在整体幻觉问题解决方面表现突出,排名第一,整体无幻觉率为69.33%。
行业普遍认为,幻觉问题对于大模型在多个领域的落地都可能产生影响,包括客户服务、金融服务、法律决策和医疗诊断等。因此解决幻觉问题越好的大模型,才具备更强的产业落地价值。
猜你喜欢

第五届中国工业互联网大赛无锡赛站决赛举办
以“数字赋能 智创未来”为主题,由工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会等单位主办的第五届中国工业互联···

消息称《光环》和《战争机器》今年都要登陆PS5平台
今日早些时候,业内知情人士NateDrake报道称,Xbox主机独占游戏《光环:士官长合集》将于2025年登陆PS5平台。似乎另一···

索尼高管谈《星鸣特攻》失败:会继续专注在线服务游戏
近日SIE联席首席执行官赫尔曼·胡尔斯特(Herman Hulst)接受日媒Fami通采访,他谈到《星鸣特攻》的失败,以及Play···

浜口直树:《最终幻想7》重制版第三部开发非常顺利
据《最终幻想7》重制三部曲的监督浜口直树透露,该三部曲第三部的开发“进展顺利”。《FAMI通》推出了其年度年终专题,在这个专题中,···

网传:游戏大奖TGA2024将公布“重磅”消息
网传:游戏大奖TGA2024将公布“重磅”消息距离游戏大奖颁奖典礼还有不到一周的时间,这也意味着未来几天我们将看到一些游戏的新细节···

复旦教授称中国退休年龄还是太早,建议推行延迟退休制···
在当今这个快速发展的时代,退休年龄问题成了一个热门话题。复旦大学的一位教授彭希哲,这位在学术界有着丰富成就的资深教授,近日就提出了···

长安汽车获得外观设计专利授权:“显示屏幕面板的地图应用跨流程的常用工具箱操作图形用户界面”


男士化妆需要什么


哪些因素影响银行贷款的成功率?


探索数实融合六大赛道:腾讯青腾Talk于北京召开


如果我开车分神,被警察拦下来了怎么办


西塘古镇在哪里 西塘古镇的位置


丹东旅游景点 丹东旅游攻略


商家二维码怎么开通分付收款?


村窟剑窑皆成谜——自驾龙游石窟


等额本金还是等额本息
