搜索
 找回密碼
 立即注冊

QQ鐧誨綍

鍙渶涓姝ワ紝蹇熷紑濮?/p>

掃一掃,訪問微社區

Gensim官方教程翻譯——快速入門

查看: 588| 評論: 0| 發布者: Rosalind

??? ??С
簡介:Gensim官方教程翻譯——快速入門原文:http://blog.geekidentity.com/nlp/gensim/gensim_introduction_translation/本教程按照一系列的例子組織,用以突出gensim的各種功能。本教程的受眾是熟悉Python,已經安裝了ge ...

Gensim官方教程翻譯——快速入門


原文:http://blog.geekidentity.com/nlp/gensim/gensim_introduction_translation/

本教程按照一系列的例子組織,用以突出gensim的各種功能。本教程的受眾是熟悉Python,已經安裝了gensim,而且閱讀過介紹的讀者。

這些例子由以下幾部分組成:
  • 語料庫與向量空間
  • 從字符串到向量
  • 語料庫流-一次一個文檔
  • 語料庫格式
  • 與NumPy和SciPy的兼容性
  • 主題與轉換
  • 轉換接口
  • 可用的轉換
  • 相似性查詢
  • 相似性接口
  • 接下來做什么?
  • 對于英文維基百科的實驗
  • 準備語料庫
  • 潛在語義分析
  • 隱含狄利克雷分配
  • 分布式計算
  • 為什么需要分布式計算?
  • 先決條件
  • 核心概念
  • 可用的分布式算法

準備


所有的例子都可以復制到你的Python解釋器窗口。IPython的cpaste命令對于復制-粘貼代碼片段十分方便,包括無意義的前導“>>>”字符。

Gensim使用Python標準的日志類來記錄不同優先級的各種事件,想要激活日志(可選的),運行如下代碼:
>>> import logging
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

快速示例


首先,讓我們導入gensim并創建一個小小的語料庫,其中有9個(每行代表一個)文檔和12個屬性[1]:
>>> from gensim import corpora, models, similarities
>>>
>>> corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
>>> [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
>>> [(1, 1.0), (3, 1.0), (4, 1.0), (7, 1.0)],
>>> [(0, 1.0), (4, 2.0), (7, 1.0)],
>>> [(3, 1.0), (5, 1.0), (6, 1.0)],
>>> [(9, 1.0)],
>>> [(9, 1.0), (10, 1.0)],
>>> [(9, 1.0), (10, 1.0), (11, 1.0)],
>>> [(8, 1.0), (10, 1.0), (11, 1.0)]]

在gensim中語料庫只是一個對象,我們能夠通過不斷迭代從中取出用稀疏向量代表的文檔。在這里,我們使用元組列表。如果你不熟悉向量空間模型,我們將會在下一個教程《語料庫與向量空間》填平原始字符串語料庫稀疏向量之間的鴻溝。

如果你熟悉向量空間模型,你可能會知道解析文檔并將其轉換為向量的方式對后續應用程序的質量有重大影響。

在這個例子中,整個語料作為一個Python List被存在內存中。但是,語料庫接口僅僅規定一個語料庫必須支持迭代取出其文檔。對于特別大的語料庫,最好將整個語料庫存在硬盤上,并且按序一次取出一篇文檔。所有的操作和轉換通過一種語料庫大小無關的方式實現,內存依賴較低。

接下來,讓我們初始化一個轉換
>>> tfidf = models.TfidfModel(corpus)

轉換就是將文檔的一種向量表示方式轉換為另一種向量表示方式(以便我們從特定的角度更好地分析數據):
>>> vec = [(0, 1), (4, 1)]
>>> print(tfidf[vec])
[(0, 0.8075244), (4, 0.5898342)]

在此,我們使用了Tf-Idf,這是一種簡單的轉換。它要求輸入的文檔用帶有詞頻的詞袋(bag-of-words)的方法表示,可以用來降低常用詞的權重(相對地提高了罕見詞的權重)。它還會把結果向量的長度調整為單位長度(指歐幾里得范數)。

轉化方法詳情,請看教程主題與轉換

為了將整個語料庫通過Tf-idf轉化并索引,以便相似度查詢,需要做如下準備:
>>> index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=12)

為了查詢我們需要的向量vec相對于其他所有文檔的相似度,需要:
>>> sims = index[tfidf[vec]]
>>> print(list(enumerate(sims)))
[(0, 0.4662244), (1, 0.19139354), (2, 0.24600551), (3, 0.82094586), (4, 0.0), (5, 0.0), (6, 0.0), (7, 0.0), (8, 0.0)]

如何解釋這些輸出呢?文檔編號為零(第1個文檔)與vec的相似度為0.466=46.6%,第二個文檔與vec的相似度為19.1%,依次類推。 因此,根據Tfidf文檔表示方法和余弦相似度方法,與我們的查詢文檔vec最相似的文檔為3號文檔,相似度達到82.1%。注意:4-8號文檔與vec沒有任何公共的屬性,因此相似度為0.0。了解詳細請看《相似度查詢》教程。

[1] 這與Deerwester等人在 Deerwester et al. (1990): Indexing by Latent Semantic Analysis, Table2使用的語料庫相同。 [2] http://blog.csdn.net/questionfish/article/details/46725475K碼農提供了很多不同領域技術,包含人工智能,android,ios ,前端,后端,大數據,云計算,區塊鏈,物聯網等大量的技術:http://kmanong.top


【免責聲明】本文僅代表作者或發布者個人觀點,不代表SEO研究協會網(www.heffgx.live)及其所屬公司官方發聲,對文章觀點有疑義請先聯系作者或發布者本人修改,若內容涉及侵權或違法信息,請先聯系發布者或作者刪除,若需我們協助請聯系平臺管理員,郵箱[email protected](本平臺不支持其他投訴反饋渠道,謝謝合作)。若需要學習以上相關知識請到巨推學院觀看視頻教程,網址www.jutuiedu.com。

暈倒

感動

大哭

驚呆

口水
已有 0 人參與

會員評論

推薦閱讀

    2019-11-13 02:22
  • 作者:cuiyatao

    抖音賣貨端口開放啦!抖音小程序目前市場前景如何?

    近年來,小程序可以說是一個風口級的話題,但也可以說是一些企業家瞄準創業的機會。對于缺乏技術的企業家來說,代理抖音小程序是進入這個市場的最佳機會。小程序的代理成本很低,可以從平臺上得到各種支持。越來越多

  • 2019-11-13 01:41
  • 作者:花少尊者

    超級臺風,來了!驚濤駭浪似災難片,日本遭天災“三連擊”…

    12日傍晚,今年第19號臺風“海貝思”在日本靜岡縣的伊豆半島登陸,造成大面積破壞。當地時間13日12時許,臺風“海貝思”已抵達日本東北地區近海。截至當地時間13日中午,“海貝思”已導致日本國內12人死亡,26人失蹤

  • 2019-11-13 01:15
  • 作者:半夏微涼

    客廳和餐廳隔斷效果圖 來看設計師巧妙的一分為二

    客廳和餐廳之間,很多業主為了劃分空間都會選擇在中間做一個隔斷,然而有時候隔斷沒選好,導致空間美感大打折扣,這就得不償失了。那么,客廳和餐廳之間的隔斷應該怎么做呢?下面,小編準備了一些客廳和餐廳隔斷效果

  • 2019-11-13 01:14
  • 作者:小黎

    留學出國中介機構哪家評價比較好?

    留學出國中介機構哪家評價比較好?今天給大家具體分析一下市面上的幾家知名留學中介吧。優越留學——申請范圍:優越留學,從他們的官網可以看出是主做英國留學申請,偶爾看到香港地區、澳洲、美國的,加上總部設立在

  • 2019-11-13 01:07
  • 作者:merryhan

    羅永浩秘密內測新社交軟件“聊天寶”,或替代子彈短信

    據Tech星球,羅永浩團隊正在秘密內測一款能賺錢的聊天工具名為「聊天寶」,經體驗發現,這款軟件和「子彈短信」有著千絲萬縷的聯系。目前由于「聊天寶」并未上架主流應用商店,下載體驗方式有兩種:一是通過網絡下載

  • 2019-11-13 01:04
  • 作者:cuiyatao

    工程建設流程有哪些 工程項目建設程序

    一般來說,一個樓盤項目工程從開始計劃到后期建設的完成,是經過很多程序的,比如開始階段的策劃準備、中期的施工、后期的驗收等等,這一系列的流程,可能很多人都不太了解。那工程建設流程有哪些?主要程序是怎樣的

  • 2019-11-13 01:03
  • 作者:crystalelf

    拍了一條短視頻300多萬贊、7000多萬播放量的小視頻

    移動互聯網時代,短視頻的迅速躥紅勢不可擋,沒有產品宣傳,沒有產品運營,更沒有明星效應,反而因為短視頻誕生了一大批“明星”。短視頻平臺的出現,給了所有人表現自己的機會。本期人物專訪,我們采訪到了一位漂亮

  • 2019-11-13 00:49
  • 作者:power

    IT外包淺析:藍盟告訴你五大優勢,讓你愛上Office 365

        伴隨著微軟新的戰略“云為先,移動為先”,微軟金牌合作伙伴你上海藍盟這樣扎根于上海IT外包服務市場的公司,一直在客戶身邊提供第三方IT外包網管服務,終于等到了微軟客戶策略的轉變,短短幾年的時間里,藍

  • 2019-11-13 00:46
  • 作者:Rosalind

    今年消防工程師考試這么難的原因找到了……

    11月11日,中國消防協會官網公布2019年度全國一級注冊消防工程師資格考試情況,指出今年報考人數達90余萬人,再創歷史新高,終于知道今年一級消防工程師考試為何這么難了。2019年一級消防工程師考區照片以下為消防協

  • 2019-11-13 00:42
  • 作者:樸者

    警惕!“消防培訓”變洗腦推銷,這樣的手段千萬別信

    2019年每個人都卯足了勁在年底沖業績騙子們也不例外!各種套路層出不窮真可謂是“沒有做不到,只有想不到”其實近年來電信詐騙手法不斷翻新利用社保、郵局、銀行、醫院等等名義實施有針對性的詐騙行為屢見不鮮其中冒

文章排行

TOP ARTICLES

返回頂部
幸运飞艇公式规律