专题

Google推出数据集搜刮:百度,你如何看?

作者:admin 来源:原创 时间:2020年04月08日 02:20:51浏览:

  编者按:本文来自微信大众号“AI科技大年夜本营”(ID:rgznai100),作者 非主流;36氪经授权转载。

  继 Google Scholar(Google 学术搜刮)以后,Google 又为科研任务者推出了一款重磅产品—— Google Dataset Search(Google 数据集搜刮)。

  网址:https://toolbox.谷歌.com/datasetsearch

  为甚么说这款产品如此主要?因为数据从未如此主要。因为深度进修的兴起,AI 研究员需求少量的数据来练习他们的模型,吴恩达就曾表现,深度进修像火箭,计算是引擎,数据是燃料。有时分,数据能够比算法更主要。

  然则,数据集和相干数据常常散布在网上的多个数据存储区中。在大年夜少数状况下,搜刮引擎既没法供给这些数据库相干信息的链接,也不会将这些信息编入索引,这会招致数据寻觅变得非常繁琐,或许在某些状况下没法完成。

  一些控制了少量数据的互联网公司也因此具有很大年夜的优势,而高校的学者除一些地下的有名数据集,想要具有少量的数据则十分艰苦,因此 Google 的这款产品可谓是及时雨。固然,其他需求各类数据的任务者也能从中受益。

  Google Dataset Search 为用户供给了可以同时搜刮多个存储区的单个界面,欲望借此修改用户宣布和应用数据的方法。

  现在,就让我们来一同看下这款搜刮对象。

  与 Google Scholar 相似,Google Dataset Search 可便利用户查找托管在任何位置的数据集,不管是出版网站、数字图书馆照样作者的团体网页。

  为了创立 Dataset Search,Google 还为数据集供给方制订了一套数据指南(https://developers.谷歌.com/search/docs/data-types/dataset)。这些指南包罗有关数据集的主要信息:数据集的作者,宣布时间,数据汇集方法,应用数据的条目等等。然后,Google 汇集并链接这些信息,剖析统一数据集的分歧版本能够在哪里,并找到能够刻画或评论辩论这一数据集的出版物。

  Google 的指南是基于一个数据集的开放规范(schema.org),任何宣布数据的人都可以经过这类方法刻画他们的数据集。

  Google推出数据集搜刮:百度,你如何看?

  在这个新版本中,用户可以找到很多情况和社会迷信相干的数据集,和其他学科的数据,包罗当局数据和往事机构供给的数据,如 ProPublica。随着愈来愈多的数据仓库应用 schema.org 规范来刻画他们的数据集,Google Dataset Search 可以搜刮到的数据集的种类和掩饰面将继续增加。

  今朝 Google Dataset Search 曾经支撑多种言语,笔者测验测验了下,除英文,还支撑中文。

(来源:原创   admin)  

1.皇冠体育365遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本网的原创文章,请转载时务必注明文章作者和"来源:皇冠体育365",不尊重原创的行为皇冠体育365或将追究责任;3.作者投稿可能会经皇冠体育365编辑修改或补充。

阅读延展