查看“Common Crawl-给你谷歌级的免费数据”的源代码

{{4}}
'''为什么重要'''<br>
研究者或者开发者可以利用这数十亿的网页数据，创建如谷歌级别的新巨头公司。
<br>
谷歌最开始是因为它的page rank算法能给用户提供准确的搜索结果而站稳脚跟的。但是巨大的搜索结果来源于谷歌的网页爬虫程序对每个页面的收集，并将这些网页数据存储在自己的数据库中，但是这些海量的数据无法被普通研究者或者开发者随意使用。于是非营利性的 [[Common Crawl]]成为了许多人的曙光。[[Common Crawl]]利用其自己的网络爬虫收集了十亿级别的网页数据，并使任何人都可以免费访问。这样研究人员和企业家就可以在谷歌级别的数据上进行新的尝试和探索，新的创业机会也油然而生。
<br>
“据我所知，互联网是当今最多知识的聚集体，如果能拥有如此巨大的数据，你就可以在这座数据矿藏上面建立你想要的新产品，说：”[[Common Crawl]]的创始人[[Gilad Elbaz]]说道。“但是得到如此庞大的信息对于一些小企业而言绝非易事，只有类似谷歌的一些大公司或者组织才拥有足够的资源做到这一点。”建立新的搜索引擎只是一个利用这样庞大数据的方法之一，[[Gilad Elbaz|Elbaz]]他指出，谷歌的翻译软件，也是利用多国语言文字进行机器学习的训练。“谷歌之所以能做到这一点，唯一途径是先拥有巨大的数据量。这也是微软星际迷航通用翻译器的方法，“他说。“互联网本身应该是一个开放，共享的主体，人类知识需要得到更加民主地使用和传播，这也是我们创办[[Common Crawl]]的宗旨。”
<br>
[[Gilad Elbaz|Elbaz]]说，大约五年前，他注意到研究人员往往有了新的思路需要进行仿真测试的时候，往往因为没有数据而束手无策。他们不得不采取在谷歌工作的方法，因为这是他们可以测试这些想法的唯一地方。
<br>
[[Gilad Elbaz|Elbaz]]的是大数据公司[[Factual]]的创始人和CEO，而在此之前他创办了一家公司被谷歌购买，并成为谷歌今天[[ADsense]]主要架构。[[Common Crawl]]公司里面不乏大牛，包括谷歌的董事[[Peter Norvig]]，和麻省理工学院媒体实验室主任 [[Joi Ito]]。
<br>
[[Common Crawl]]至今已收录超过50亿的网页，高达81 TB的数据，这些数据可通过亚马逊的云计算服务进行访问。只需花约25美元就可以设置一个亚马逊帐户获取这些抓取数据。  另一个非营利组织[[Internet Archive]]提供了一种名为[[Wayback Machine]]的服务，它可以显示一个特定网页不同时期的版本。但是，它不允许用户一次分析所有的数据。
<br>
[[Common Crawl]]已经启发或帮助出一些新的网络创业。例如[[TinEye]]，作为一个反向搜索引擎，它能帮助发现由用户提供的图像相似的网页或者其他搜索结果。其他项目例如通过网络聊天数据分析民众对立法的看法也获得了很好的反响（ public attitudes toward congressional legislation）
<br>
在美国加州大学圣巴巴拉分校担任助理教授的[[Ben Zhao]]说，“[[Common Crawl]]如此大规模的抓取是非常罕见的，就我个人而言还不知道其他能找到如此庞大数据的地方。”
<br>
然而，[[Ben Zhao]]也提出，网络上的一些有趣和有价值的数据由于社交网站的屏蔽导致爬虫软件无法收集到，这些重要数据的流失是目前非常令人头疼的。要访问此数据，研究人员必须取得与公司很好的合作关系，这是非常麻烦的。
----
[https://www.oschina.net/p/commoncrawl Common Crawl InputFormat 配送实现]