欢迎您,请 登录 或 立即注册

同城信息网

搜索
热搜: 活动 交友
查看: 2861|回复: 0
收起左侧

比 Google、百度更好玩!上这个网站搜工具,你能够会找到黑历史

[复制链接]

6896

主题

504

回复

7420

积分

超级版主

Rank: 8Rank: 8

积分
7420
发表于 2019-11-8 12:32:15 | 显示全部楼层 |阅读模式 |北京市 世纪互联数据中心
这几天,一个来自中国的搜索引擎火了(不是百度)—— Magi 是一个会「自学」的搜索引擎,可以自动建立网上的内容,并供给风趣翔实又别开生面的搜索成果。

比如,搜索「AppSo」会出现以下内容:

明天就带大师好好玩玩这个风趣的搜索引擎,快点搜一下你自己,说不定有欣喜哦!

作为笔墨工作者,我天天都在跟搜索引擎打交道。

比如在写 Facebook 的财报消息时,Google 可以告诉我它的实时股价、市值、近期凹凸点等很是有用的信息。

但实在,还有另一个工具比 Google 更好用,那就是 Wolfram Alpha。它比 Google 更进一步,可以用结构化的方式间接列出我能够需要的常识。

举个最简单的例子:我家带宽是 75Mbps (9.375MB/s),要下载一个 100GB 的文件需要多久?我可以间接用自然说话询问,Wolfram Alpha 不但会告诉我答案,还会写出公式:

s1.png


它不可是一个数学工具,还是一个很好的常识聚合工具。比如比来电影《小丑》很火,假如我想写关于它的文章,上 Wolfram Alpha 一搜就能找到大量细节,包括并不限于影片信息、排名和票房等。

s2.jpeg


正确来说,Wolfram Alpha 并非一个搜索引擎。它的官方界说叫做「计较式常识引擎」,可以用往返答那些没有公然答案,可是计较一下即可获得的题目。而且,它用结构化的方式去展现答案,而不是像搜索引擎那样,把链接一条一条列出来。

接下来先容明天文章的配角:Magi,一个比来几天在我的技术圈朋友中心小著名望的工具。

Magi(网址 https://magi.com)看起来也像是一个搜索引擎:

s3.png


可是只要玩上一次,就会发现,它和你印象中的一切搜索引擎都大不不异。

当我用它搜索词条「易烊千玺」时,获得了下面的成果。

首先,答案供给了对易烊千玺的几个关键描写,如「TFBOYS 的成员」、「00 后百姓偶像代表」等。紧接着,它列出了关于词条仆人的几近全数的重要属性,包括由他诞生年月、参演的影视作品、颁发的音乐专辑等。

答案的结构化展现方式,和 Wolfram Alpha 很有类似。

s4.png




甚至连千纸鹤(易烊千玺粉丝代称)的应援色都答了出来

更风趣的是,magi.com 还答出了易烊千玺的几个近义项,比如他的昵称、代称和他所养的宠物等等。

偶然辰,Magi 还能给出一些令我忍俊不由的成果……

输入了一下「新世纪福音战士」。答案的描写中有「业界著名的劳模」……

s5.png


又搜了一下小岛秀夫,答案里的「特长」一项我也是醉了……

s6.png


接下来搜了一下富坚义博。

能够由于职业生活中大部分时候都在拖稿,magi.com 告诉我富坚的专业爱好是「画画漫画」……

s7.png


固然,大部分时辰 magi.com 给出的答案还是对照靠谱的。

搜索到的答案,每一条城市用以绿、黄、红三种色彩暗示其可信度从高到低;在答案的右侧则会供给几条链接,用鼠标划过它们即可看到,答案是从哪个/哪几个具体的来历进修到的:

s8.gif


你会留意到,magi.com 的成果中,答案在正下方,链接跑到了右侧,跟支流搜索引擎的用户界面美满是反的。

这就是 Magi 和支流搜索引擎最大的区分地点: 链接对于它不是成果,答案才是。

这是由于 Magi 并非搜索引擎(虽然具有一些搜索引擎的功用)。它现实上是一个基于机械进修的常识引擎,可以检索和提取任何范畴自然说话文本,将其中的常识提取出来,构成结构化的数据。

说得简单一点:

我们都晓得,互联网上有着大量的,基于文本的信息,傍边蕴藏着很多的常识。但是,计较机读不懂互联网上大部分的信息,由于这些信息常常不是以「性别:男」、「国籍:中国」这样的结构化形状,而是以自然说话的形状出现的。

比如,「埃菲尔铁塔的高度」是一个入门级的题目,由于早已有人整理出了正确的答案,写在维基百科和旅游网站上;可是想晓得「埃菲尔铁塔的第二节电梯线路有多长」,就很难在搜索引擎上查到正确信息了。这是由于很少有人会把这些细节的数据,以结构化的方式记录在互联网上。

这就是 Magi 想要处理的题目: 从开放范畴的纯文本傍边提取常识,并让其可剖析、检索和溯源。

Magi 来自中国团队 Peak Labs,开创人季逸超在开辟者圈子内也小著名望。2011 年,还在北大附中念书时代,他就单独完成了猛犸阅读器 iOS 的开辟。次年,他只用两天时候就完成了 Rasgueado,第一个支持划脱手势控制光标位置的 iOS 输入法。

2012年,季逸超开办了自己的公司,继续鞭策阅读器和输入法项目。今朝,Peak Labs 首要精神都放在 Magi 项目上,专注于背后的技术,以及相关贸易产物的开辟。

s9.jpeg




中心:季逸超

Peak Labs 并没有计划将 Magi 和 Google、百度之类的支流搜索引擎等量齐观。把 Magi 做成一个「搜索引擎」,主如果为了让公众有机遇可以体验它背后的技术,感受它可以供给的代价。

即使如此,看起来很像搜索引擎的 magi.com,气力还是不容小觑。究竟上,为了这个树模性质的产物,Peak Labs 并没有挑选小聪明的方式,从其他搜索引擎抓取成果,而是从零开辟了一套互联网搜索引擎。

「我们的成果的摘要比一般的搜索引擎都长,是的,我们是成心为之。这足以证实我们的成果不成能来自其他搜索引擎,」季逸超在官网上写道。

按照用户输入题目、关键词和表达式的分歧,magi.com 可以用分歧的方式来出现答案——具体的出现方式也展现了 Magi 系统的才能。

比如,输入「打车软件公司」,Magi 系统可以把它晓得的一切手机叫车公司,以「调集」的方式列在答案里。



而在百度上,获得的成果以下。可以看到百度的常识图谱也供给了类似的成果,只是看起来有四、五年没有更新过了:

s10.jpeg


再比如,假如输入「八角 大料」,Magi 系统会发现这两个关键词实在是同一个工具,它就会以「断言」的形式给出答案。

s11.png


以下图,magi.com 告诉我,八角和大料是「近义项」,是「又称」、「也称」的关系。

Magi 系统可以24小时不中断地停止进修。它的时效性也还算不错,Peak Labs 宣称实时消息傍边的常识,Magi 只需要 5 分钟便可以把握,而且还可以采用新的信息源停止穿插考证,实现自动纠错。

假如你在 magi.com 的首页逗留一会,就能看到它当前正在进修的链接:



除了自立开辟的全网范围搜索引擎之外,Peak Labs 还开辟了基于留意力机制的神经信息提取系统,不依靠无界面阅读器的散布式抓取系统(爬虫法式 MagiBot),以及支持夹杂处置170多种说话的自然说话管道。

这四者连系在一路,才是 Magi 系统的全貌。

作为 EVA 粉,这里不能不打断一下:Magi 以及它的四个子系统,称号全数来自《新世纪福音战士》(EVA 自己取材自圣经等其他西方宗教典范),而且命名里也有彩蛋:

    Magi(三贤者,多个系统组成的超级计较机)搜索引擎 Ramiel(雷天使)神经信息提取系统 Ireul(可骇天使,具有进修和进化才能)自然说话处置管道 Arael(鸟天使)爬虫法式 Matarael(雨之天使,表面像蜘蛛)
s12.jpeg


Peak Labs 在官网指出,今朝的 Magi 技术还没有完全成熟。

确切如此。今朝经过 magi.com 可以观察到一些题目,比如很多可以在支流搜索引擎中轻易找到的答案,magi.com 给不出来(凡是是由于它还没有学到)。

比如搜索「天下上最富有的人」时,我想要的是 Magi 能告诉我当前谁最富有,但它只能告诉我最富有的那一群人:

s13.png


比如消歧义的把控,轻易致使答案紊乱(这一点季逸超自己在知乎上 [1]也有所提到):

s14.jpeg




隔邻老王不大能够是你的亲戚

再比如,碰到一些实在太「复杂」的词条,magi.com 就混乱了……

s15.png


不外正如前面提到,这个搜索引擎并不是 Peak Labs 的终极产物——他们的真正目标,是借助搜索引擎背后 Magi 系统的气力,供给企业级的办事。

Peak Labs 的官网指出,他们希望未来的 Magi 系统可以成为「常识范畴的 ImageNet」。它已经展现出的开放范畴信息提取才能,可以利用到企业客户地点的细分范畴内,酿成一个加倍强大的信息抽取系统,让每一个范畴、每一家企业都可以轻松地打造属于自己的常识图谱。

s16.jpeg


「也许在不远的未来,陪伴着全部行业的进步,Magi 所构建的包容万事万物的结构化收集,将成为通向可诠释野生智能的基石。」Peak Lab 的网站这样写道。

——希望这个愿景可以实现。(就算实现不了也没关系啊!拿 magi.com 搜些希奇的工具,还是能获得很多笑料的……)

假如你对 Magi 的技术细节感爱好,可以到 Peak Labs 网站进一步领会。季逸超在知乎的回答也做了加倍详实的论述。

[1] 季逸超在知乎题目《若何评价 Peak Labs 出品的 2019 版 Magi 搜索引擎?》的回答 https://www.zhihu.com/question/354059866/answer/881655371

本文来自硅星人(ID:guixingren123),作者 杜晨,原题目《这个来自中国的常识提取引擎,看起来比百度还好用一丢丢》,AppSo 经授权公布。题图来自:Unsplash,文中除了部分截图,其他均来自 Peak Labs 网站和前述知乎回答。




上一篇:「象牙塔」里的年轻人做出了他们自己的独立游戏
下一篇:谁说双 11 过后一定会吃土?这个宝藏商城了解一下
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

 
在线客服
点击这里给我发消息 点击这里给我发消息 点击这里给我发消息

扫码小程序,到平台发布信息。
快速回复 返回顶部 返回列表