-->
共找到 49 个AI工具
点击任意工具查看详细信息
混元T1 是腾讯推出的超大规模推理模型,基于强化学习技术,通过大量后训练显著提升推理能力。它在长文处理和上下文捕捉上表现突出,同时优化了计算资源的消耗,具备高效的推理能力。适用于各类推理任务,尤其在数学、逻辑推理等领域表现优异。该产品以深度学习为基础,结合实际反馈不断优化,适合科研、教育等多个领域的应用。
SmolDocling-256M-preview是由ds4sd推出的一个具有256M参数的语言模型,专注于医学领域。其重要性在于为医学文本处理、医学知识提取等任务提供了有效的工具。在医学研究和临床实践中,大量的文本数据需要进行分析和处理,该模型能够理解和处理医学专业语言。主要优点包括在医学领域有较好的性能表现,能够处理多种医学相关的文本任务,如疾病诊断辅助、医学文献摘要等。该模型的背景是随着医学数据的增长,对处理医学文本的技术需求日益增加。其定位是为医学领域的研究人员、医生、开发者等提供语言处理能力支持,目前未提及价格相关信息。
Project Aria 是 Meta 推出的专注于第一人称视角研究的项目,旨在通过创新技术推动增强现实(AR)和人工智能(AI)的发展。该项目通过 Aria Gen 2 眼镜等设备,从用户视角收集信息,为机器感知和 AR 研究提供支持。其主要优点包括创新的硬件设计、丰富的开源数据集和挑战赛,以及与全球研究合作伙伴的紧密合作。该项目的背景是 Meta 对未来 AR 技术的长期投入,旨在通过开放研究推动行业进步。
Elimination Game 是一种创新的基准测试框架,用于评估大语言模型(LLMs)在复杂社交环境中的表现。它模拟了类似‘狼人杀’的多玩家竞争场景,通过公开讨论、私下交流和投票淘汰机制,测试模型的社交推理、策略选择和欺骗能力。该框架不仅为研究 AI 在社交博弈中的智能性提供了重要工具,还为开发者提供了洞察模型在现实社交场景中潜力的机会。其主要优点包括多轮互动设计、动态联盟与背叛机制以及详细的评估指标,能够全面衡量 AI 的社交能力。
Build Y是一个由Necrozma Labs开发的前沿科技平台,旨在展示和探索各种创新技术。该平台涵盖了从人工智能到生物技术、从量子计算到可持续能源等多个领域的最新研究成果。其主要优点是为工程师和科学家提供了一个集中展示和交流的场所,促进了跨学科的技术合作和创新。该平台的背景是推动全球科技进步,通过分享最新的研究成果和技术突破,激发更多创新思维。目前平台的具体价格和定位信息未明确,但其目标是成为科技领域的知识共享中心。
DeepSeek Profile Data 是一个专注于深度学习框架性能分析的项目。它通过 PyTorch Profiler 捕获训练和推理框架的性能数据,帮助研究人员和开发者更好地理解计算与通信重叠策略以及底层实现细节。这些数据对于优化大规模分布式训练和推理任务至关重要,能够显著提升系统的效率和性能。该项目是 DeepSeek 团队在深度学习基础设施领域的重要贡献,旨在推动社区对高效计算策略的探索。
Evo 2 是由 NVIDIA 推出的 AI 基础模型,旨在通过深度学习技术解析生物分子的遗传密码。该模型基于 NVIDIA DGX Cloud 平台开发,能够处理大规模的基因组数据,为生物医学研究提供强大的工具。Evo 2 的主要优点在于其能够处理长达 100 万个 token 的基因序列,从而更全面地理解基因组的复杂性。该模型在生物医学领域的应用前景广阔,包括疾病诊断、药物开发和基因编辑等。Evo 2 的开发得到了 Arc 研究所和斯坦福大学的支持,目标是推动生物医学研究的创新和突破。
AlphaMaze 是一个专注于提升大型语言模型(LLM)视觉推理能力的项目。它通过文本形式描述的迷宫任务来训练模型,使其能够理解和规划空间结构。这种方法不仅避免了复杂的图像处理,还通过文本描述直接评估模型的空间理解能力。其主要优点是能够揭示模型如何思考空间问题,而不仅仅是能否解决问题。该模型基于开源框架,旨在推动语言模型在视觉推理领域的研究和发展。
该产品是一个由Vectara开发的开源项目,用于评估大型语言模型(LLM)在总结短文档时的幻觉产生率。它使用了Vectara的Hughes幻觉评估模型(HHEM-2.1),通过检测模型输出中的幻觉来计算排名。该工具对于研究和开发更可靠的LLM具有重要意义,能够帮助开发者了解和改进模型的准确性。
Anthropic 经济指数是一个专注于研究人工智能对劳动力市场和经济影响的项目。它通过分析大量匿名化的 Claude.ai 对话数据,提供关于 AI 在现代经济中实际应用的详细图景。该指数的首次报告基于数百万条对话数据,揭示了 AI 在不同职业任务中的使用情况。其主要优点在于提供实证数据支持政策制定,并通过开放数据集促进研究合作。该指数的背景是 AI 技术的快速发展对工作方式的深远影响,旨在为应对未来劳动力市场的变化提供科学依据。
WeatherNext是Google DeepMind和Google Research开发的最新AI天气预报技术。它通过先进的AI模型提供快速、准确的天气预测,帮助应对极端天气事件,提升可再生能源的可靠性,并增强全球粮食安全。该技术免费提供给科学家和预报员,以加速全球天气预报的研究和应用。
Open Thoughts 是一个由 Bespoke Labs 和 DataComp 社区主导的项目,旨在整理高质量的开源推理数据集,用于训练先进的小模型。该项目汇集了来自斯坦福大学、加州大学伯克利分校、华盛顿大学等多所高校和研究机构的研究人员与工程师,致力于通过优质数据集推动推理模型的发展。其背景是当前推理模型在数学和代码推理等领域的应用需求日益增长,而高质量的数据集是提升模型性能的关键。该项目目前免费开放,主要面向研究人员、开发者以及对推理模型感兴趣的专业人士,其数据集和工具的开源性使其成为推动人工智能教育和研究的重要资源。
Humanity's Last Exam 是一个由全球专家合作开发的多模态基准测试,旨在衡量大型语言模型在学术领域的表现。它包含来自 50 个国家超过 500 个机构的近 1000 名专家贡献的 3000 个问题,覆盖超过 100 个学科。该测试旨在成为最终的封闭式学术基准,通过挑战模型的极限来推动人工智能技术的发展。其主要优点是难度高,能够有效评估模型在复杂学术问题上的表现。
Procyon AI Computer Vision Benchmark是由UL Solutions开发的一款专业基准测试工具,旨在帮助用户评估不同AI推理引擎在Windows PC或Apple Mac上的性能表现。该工具通过执行一系列基于常见机器视觉任务的测试,利用多种先进的神经网络模型,为工程团队提供独立、标准化的评估手段,以便他们了解AI推理引擎的实施质量和专用硬件的性能。产品支持多种主流的AI推理引擎,如NVIDIA® TensorRT™、Intel® OpenVINO™等,并可比较浮点和整数优化模型的性能。其主要优点包括易于安装和运行、无需复杂配置、可导出详细结果文件等。产品定位为专业用户,如硬件制造商、软件开发者和科研人员,以助力他们在AI领域的研发和优化工作。
METAGENE-1是由南加州大学、Prime Intellect和核酸观测站的研究人员合作开发的一款元基因组基础模型。该模型具有70亿参数,经过1.5万亿个碱基对的DNA和RNA序列训练,这些序列来自人类废水样本。METAGENE-1的主要功能是帮助公共卫生应用,如流行病监测、病原体检测和新兴健康威胁的早期发现。其优势在于能够捕捉人类微生物组中完整的基因组信息分布,具有强大的泛化能力。
FlagEval是一个模型评测平台,专注于大语言模型和多模态模型的评测。它提供了一个公正、透明的环境,让不同的模型在同一标准下进行比较,帮助研究者和开发者了解模型性能,推动人工智能技术的发展。该平台涵盖了对话模型、视觉语言模型等多种模型类型,支持开源和闭源模型的评测,并提供专项评测如K12学科测验和金融量化交易评测。
ExploreToM是由Facebook Research开发的一个框架,旨在大规模生成多样化和具有挑战性的心理理论数据,用于强化大型语言模型(LLMs)的训练和评估。该框架利用A*搜索算法在自定义的领域特定语言上生成复杂的故事结构和新颖、多样化且合理的情景,以测试LLMs的极限。
Procyon是由UL Solutions开发的一套性能测试基准工具,专为工业、企业、政府、零售和媒体的专业用户设计。Procyon套件中的每个基准测试都提供了一致且熟悉的体验,并共享一套共同的设计和功能。灵活的许可模式意味着用户可以根据自己的需求选择适合的单个基准测试。Procyon基准测试套件很快将提供一系列针对专业用户的基准测试和性能测试,每个基准测试都针对特定用例设计,并尽可能使用真实应用。UL Solutions与行业合作伙伴紧密合作,确保每个Procyon基准测试准确、相关且公正。
FACTS Grounding是Google DeepMind推出的一个全面基准测试,旨在评估大型语言模型(LLMs)生成的回应是否不仅在给定输入方面事实准确,而且足够详细,能够为用户提供满意的答案。这一基准测试对于提高LLMs在现实世界中应用的信任度和准确性至关重要,有助于推动整个行业在事实性和基础性方面的进步。
Boltz-1是由麻省理工学院(MIT)阿卜杜拉·拉蒂夫·贾米尔健康机器学习诊所(MIT Jameel Clinic)的研究人员开发的首个真正开源的生物分子结构预测模型,其准确性达到了AlphaFold3的水平。该模型以玻尔兹曼分布命名,是一种描述分子结构分布的概率度量。Boltz-1的开发旨在鼓励超越学术界的创新,为商业用途提供支持。它由博士生Jeremy Wohlwend、Gabriele Corso和MIT Jameel Clinic研究员Saro Passaro领导开发,得到了MIT电气工程和计算机科学(EECS)教授Regina Barzilay和Tommi Jaakkola的指导。Boltz-1的开发面临了规模和数据处理的挑战,但最终成功构建了必要的计算能力,为结构生物学研究实践的标准化提供了基础,有望加速生命改变药物的创造。
ProcessBench是一个专注于数学推理错误的识别工具。它通过分析数学问题的解决步骤来识别过程中的错误,这对于教育领域尤其是数学教育具有重要意义。该工具可以帮助学生和教师识别和纠正数学解题过程中的错误,提高解题的准确性和效率。ProcessBench基于深度学习技术,能够处理大量的数学问题数据,为数学教育提供技术支持。
RLVR-GSM-MATH-IF-Mixed-Constraints数据集是一个专注于数学问题的数据集,它包含了多种类型的数学问题和相应的解答,用于训练和验证强化学习模型。这个数据集的重要性在于它能够帮助开发更智能的教育辅助工具,提高学生解决数学问题的能力。产品背景信息显示,该数据集由allenai在Hugging Face平台上发布,包含了GSM8k和MATH两个子集,以及带有可验证约束的IF Prompts,适用于MIT License和ODC-BY license。
P-MMEval是一个多语言基准测试,覆盖了基础和能力专业化的数据集。它扩展了现有的基准测试,确保所有数据集在语言覆盖上保持一致,并在多种语言之间提供平行样本,支持多达10种语言,涵盖8个语言家族。P-MMEval有助于全面评估多语言能力,并进行跨语言可转移性的比较分析。
MAmmoTH-VL是一个大规模多模态推理平台,它通过指令调优技术,显著提升了多模态大型语言模型(MLLMs)在多模态任务中的表现。该平台使用开放模型创建了一个包含1200万指令-响应对的数据集,覆盖了多样化的、推理密集型的任务,并提供了详细且忠实的理由。MAmmoTH-VL在MathVerse、MMMU-Pro和MuirBench等基准测试中取得了最先进的性能,展现了其在教育和研究领域的重要性。
Willow量子芯片是谷歌量子人工智能团队研发的最新一代量子芯片,它在量子错误校正和性能上取得了重大突破。这款芯片能够显著降低随着量子比特数增加而产生的错误,实现了量子计算领域近30年来追求的关键挑战。此外,Willow在不到五分钟的时间内完成了一项标准基准计算,而这项计算对于当今最快的超级计算机来说需要10^25年,即远远超过宇宙的年龄。这一成就标志着我们向构建具有商业意义的大型量子计算机迈出了重要一步,量子计算机有潜力彻底改变医药、能源和人工智能等领域。
GraphCast是由Google DeepMind开发的深度学习模型,专注于全球中期天气预报。该模型通过先进的机器学习技术,能够预测天气变化,提高预报的准确性和速度。GraphCast模型在科学研究中发挥重要作用,有助于更好地理解和预测天气模式,对气象学、农业、航空等多个领域具有重要价值。
GenCast是由Google DeepMind开发的一款新型高分辨率(0.25°)AI集合模型,它在预测日常天气和极端天气事件方面比欧洲中期天气预报中心(ECMWF)的ENS系统更准确,提前15天提供更快速、更准确的预测。该模型基于扩散模型,是最近在图像、视频和音乐生成中取得快速进展的生成性AI模型的一种。GenCast通过分析历史天气数据学习全球天气模式,并能够准确生成未来天气情景的复杂概率分布。该模型的代码、权重和预测结果将公开发布,以支持更广泛的天气预报社区。
Nous Research专注于开发以人为中心的语言模型和模拟器,致力于将AI系统与现实世界用户体验对齐。我们的主要研究领域包括模型架构、数据合成、微调和推理。我们优先开发开源、人类兼容的模型,挑战传统的封闭模型方法。
FrontierMath是一个数学基准测试平台,旨在测试人工智能在解决复杂数学问题上的能力极限。它由超过60位数学家共同创建,覆盖了从代数几何到Zermelo-Fraenkel集合论的现代数学全谱。FrontierMath的每个问题都要求专家数学家投入数小时的工作,即使是最先进的AI系统,如GPT-4和Gemini,也仅能解决不到2%的问题。这个平台提供了一个真正的评估环境,所有问题都是新的且未发表的,消除了现有基准测试中普遍存在的数据污染问题。
SimpleQA是OpenAI发布的一个事实性基准测试,旨在衡量语言模型回答简短、寻求事实的问题的能力。它通过提供高正确性、多样性、挑战性和良好的研究者体验的数据集,帮助评估和提升语言模型的准确性和可靠性。这个基准测试对于训练能够产生事实正确响应的模型是一个重要的进步,有助于提高模型的可信度,并拓宽其应用范围。
Brightband是一个致力于通过先进的地球系统AI技术,使天气和气候变得可预测,以帮助人类适应日益极端的天气变化。该平台通过开源基准数据集、模型和指标,鼓励全球社区共同提升天气预测的技术水平。Brightband提供给学术界、政府和公司使用的工具,旨在改善与天气和气候相关的决策,从而长期造福人类和地球。
Google DeepMind 是谷歌旗下的一家领先的人工智能公司,专注于开发先进的机器学习算法和系统。DeepMind 以其在深度学习和强化学习领域的开创性工作而闻名,其研究涵盖了从游戏到医疗保健等多个领域。DeepMind 的目标是通过构建智能系统来解决复杂的问题,推动科学和医学的进步。
Chai-1是一个用于药物发现的多模态基础模型,能够预测蛋白质、小分子、DNA、RNA、共价修饰等的分子结构。它在PoseBusters基准测试中达到了77%的成功率,与AlphaFold3相当。Chai-1无需多序列比对即可运行,保持了大部分性能,并且能够更准确地折叠多聚体结构。此外,Chai-1可以与实验室数据结合,提高预测性能。该模型旨在将生物学从科学转变为工程,推动AI在生物学研究中的应用。
Chai Discovery是一个专注于解码生命交互的网站,它可能涉及生物信息学、基因组学或相关领域,旨在通过先进的技术手段揭示生命体之间复杂的相互作用。该产品或技术的重要性在于它可能为生命科学、医学研究和相关领域提供深入的洞见和数据支持。
OpenBB是一个利用人工智能简化投资研究流程的在线平台。它允许用户自定义分析,快速生成报告,并通过集成私有数据集和大型语言模型来增强投资决策。产品的主要优点包括高效率、灵活性和用户友好的界面,特别适合金融专业人士和投资者使用。
AI Risk Repository是一个全面的生活数据库,收录了700多个AI风险,并根据其原因和风险领域进行了分类。它提供了一个易于访问的AI风险概览,是研究人员、开发者、企业、评估者、审计师、政策制定者和监管者共同参考的框架,有助于发展研究、课程、审计和政策。
Trends.vc是一个为创业者提供市场研究和趋势分析的在线平台。它通过免费的5分钟报告,帮助用户节省市场研究时间,快速了解AI、货币等领域的最新动态。平台聚集了超过62,564名志同道合的创始人,共同探讨和发现新的市场机会。
StudyRecon是一款旨在简化和协助研究过程中文献综述的智能工具。它通过提供学术景观的全景视图、查询建议、跨数据库搜索、关键词可视化、论文摘要和注释等功能,帮助用户快速获取全面准确的文献资料,从而提高文献综述的质量与效率。
Thousand Brains Project是由Jeff Hawkins和Numenta公司发起,旨在通过理解大脑新皮层的工作原理来开发新型的人工智能系统。该项目基于Thousand Brains Theory of Intelligence,提出了与传统AI系统根本不同的大脑工作原理。项目的目标是构建一种高效且强大的智能系统,能够实现人类所具备的智能能力。Numenta公司开放了其研究资源,包括会议记录、代码开源,并建立了一个围绕其算法的大型社区。该项目得到了盖茨基金会等的资金支持,并鼓励全球研究人员参与或加入这一激动人心的项目。
Models Table 提供了一个包含300多个大型语言模型的列表,这些模型被所有主要的AI实验室使用,包括Amazon Olympus, OpenAI GPT-5, OpenAI GPT-6等。该列表展示了大型语言模型的发展趋势和多样性,对于AI研究者和开发者来说是一个宝贵的资源。
大模型之家是一个专注于人工智能大模型产业的平台,提供行业报告、技术创新动态、专家评测和奖项荣誉等信息。它通过整合行业资源,推动人工智能技术的创新和应用,帮助企业和个人更好地理解和利用大模型技术。
The Fastest.ai是一个提供可靠的性能测量数据的网站,用于评估流行模型的性能。它通过测量模型的响应时间、每秒生成的token数量以及从请求到最终token生成的总时间来提供准确的性能数据。该网站旨在帮助用户选择最快的AI模型,并提供其他模型的性能比较。它对模型的性能进行日常更新,用户可以根据自己的需求选择合适的模型。
Aria每日活动数据集是Aria项目发布的首个试点数据集的重新发布版本,该数据集利用新的工具和位置数据进行了更新,以加速机器感知和人工智能技术的发展。数据集包含日常生活场景下的第一人称视频序列,并配有丰富的传感器数据、注释数据以及由Aria机器感知服务生成的3D点云数据等。研究人员可以使用Aria提供的专用工具快速上手使用该数据集开展研究。
fforward.ai 是一个 AI 产品,帮助产品经理分析客户访谈并综合机会。它提供智能的对话分析和机器学习技术,以帮助产品团队更好地理解客户需求和挖掘商机。fforward.ai 能够将访谈录音转换为文本,然后通过自然语言处理和情感分析等技术,提取出有价值的信息和见解。产品经理可以利用这些分析结果,发现并把握客户的共同需求,为产品的开发和改进提供指导。
UpCodes是一个可搜索的美国建筑和建筑法规数据库。它将各州和城市的建筑法规整合在一起,以便更容易浏览。它提供了详细的建筑和建筑代码,帮助专业人士和普通用户快速查找和了解相关法规。UpCodes还提供了一系列功能,包括代码更新通知、代码对比和高级搜索等。用户可以根据自己的需求选择不同的定价计划,以获取更多的功能和服务。
KnowledgeGraph GPT项目旨在利用OpenAI的GPT-3模型,将非结构化文本数据转换为结构化知识图谱表示。该产品具有强大的功能和优势,定价合理,定位于满足用户对文本数据结构化处理的需求。
Tuned In是一款AI动态趋势分析工具,汇总了来自50多份趋势报告的400多个趋势,并利用OpenAI的GPT3技术综合主题。它提供了2023年的关键趋势,帮助用户保持领先并灵感无限。
Web3 Summary是一个领先的DeFi和NFT研究平台,为即将成为DeFi研究员和NFT翻转者提供支持。它包括交易终端、钱包研究、Discord机器人、移动应用程序等功能。用户可以使用它进行交易研究、钱包和合约扫描、获取交易Alpha等。Web3 Summary还提供Profit Taking、相对估值、Chrome插件等功能,适用于DeFi和NFT交易者。定价请查看官方网站。
LAION是一个非营利组织,致力于提供机器学习资源给公众使用,包括数据集、工具和模型。我们鼓励开放公共教育,并通过重复使用现有数据集和模型来更环保地使用资源。我们提供多个数据集、模型和项目,以支持广泛的人工智能研究。
探索 其他 分类下的其他子分类
195 个工具
178 个工具
113 个工具
102 个工具
62 个工具
61 个工具
45 个工具
44 个工具
研究工具 是 其他 分类下的热门子分类,包含 49 个优质AI工具