6月17日|近日,由北京智源研究院打造的FlagEval天秤大模型評測平台實現了全面升級,並公佈202406期FlagEval模型評測排行榜單。最新一期榜單顯示,百度文心大模型4.0以89.72的綜合評分在閉源對話模型中排名第一,超過字節雲雀、豆包和阿里通義千問等一眾國產大模型,以及OpenAI的最新模型GPT-4o。在中文語境下,以文心大模型為代表的國內頭部語言模型的綜合表現已超過國際一流水平的表現。