HawkInsight

  • お問い合わせ
  • App
  • 日本語

Open AIはHealthBenchをオープンソース化し、60カ国が5,000の会話を開発

Open AIは、ヘルスケアのビッグモデルに特化したテスト評価セットHealthBenchをオープンソース化しました。これまでのテストセットとは異なり、60カ国26の専門分野から262人の医師によって作成された5,000のコアテスト会話は、テストセットの難易度、信頼性、豊かさを大幅に向上させました。また、単純な解答や多肢選択問題ではなく、複数回の対話テストを使用しています。テストデータによると、ビッグモデルはヘルスケア分野で大幅に改善されています。例えば、従来のGPT-3.5 Turboの16%から、GPT-4 oの32%、o 3の60%へと、全体的なパフォーマンスが大幅に向上しました。特に小型モデルの進歩は顕著で、GPT-4.1 nanoは性能でGPT-4oを上回るだけでなく、コストを25倍削減した。

免責事項: この記事の見解は元の著者の見解であり、Hawk Insight の見解や立場を表すものではありません。記事の内容は参考、コミュニケーション、学習のみを目的としており、投資アドバイスを構成するものではありません。著作権上問題がある場合は削除のご連絡をお願い致します。

最新閃光Hawk Insight
続きを見る