Generated with sparks and insights from 6 sources
Introduction
-
Difyは、ウェブクローリングを通じて情報を収集し、RAG(Retrieval-Augmented Generation)技術を用いてAIアプリを構築するためのツールです。
-
FireCrawlというサービスを使用して、ウェブサイト全体の情報を効率的に収集し、Markdown形式に変換します。
-
FireCrawlの設定には、APIキーの取得と設定、クロールするURLの指定、クロールの深さや除外パスの設定などが含まれます。
-
Difyのバージョン0.6.11以降では、FireCrawlとの連携が可能になり、ウェブからのスクレイピング情報を知識ベースとして利用できます。
-
FireCrawlの設定項目には、Crawl sub-pages、Limit、Exclude paths、Include only paths、Max Depth、Extract only main contentなどがあります。
FireCrawlの概要 [1]
-
FireCrawlは、ウェブサイトをクローリングし、LLM(Large Language Model)で処理しやすいMarkdown形式に変換するAPIサービスです。
-
ウェブサイト全体の情報を効率的に収集できるため、Difyの知識ベース構築に最適です。
-
FireCrawlは、特定のURLを入力すると、そのURLからサイト内をクロールし、内容をベクトルDBに格納します。
-
FireCrawlの設定には、APIキーの取得と設定が必要です。
-
FireCrawlは、SaaS版とOSS版があり、SaaS版は無料で500回のリクエスト制限がありますが、OSS版は無制限でリクエストが可能です。
FireCrawlの設定方法 [1]
-
FireCrawlを使用するには、まずAPIキーを取得し、設定画面に貼り付けて保存します。
-
APIキーの取得は、FireCrawlのアカウントを作成し、右上の「Account」から行います。
-
FireCrawlの設定画面では、クロールするURLを指定し、オプションでクロールの深さや除外パスなどを設定します。
-
FireCrawlの設定項目には、Crawl sub-pages、Limit、Exclude paths、Include only paths、Max Depth、Extract only main contentなどがあります。
-
設定が完了したら、Runをクリックしてクローリングを開始します。
クロールの設定項目 [1]
-
Crawl sub-pages: 配下のサブページもクロールするかどうかを指定します。
-
Limit: クロールするページの最大数を指定します(デフォルトは10)。
-
Exclude paths: クロールしないパスを指定します(例: blog/, about/)。
-
Include only paths: クロールするパスを指定します(例: articles/*)。
-
Max Depth: クロールの深さを指定します。深さはURLの階層で表現され、入力したURLを起点として相対的に指定します。
-
Extract only main content: メインコンテンツのみを抽出するかどうかを指定します(ヘッダー、ナビゲーション、フッターなどを除外)。
DifyとFireCrawlの連携 [2]
-
Difyのバージョン0.6.11以降では、FireCrawlとの連携が可能になりました。
-
FireCrawlを使用することで、ウェブからのスクレイピング情報を知識ベースとして利用できます。
-
FireCrawlの設定には、APIキーの取得と設定、クロールするURLの指定、クロールの深さや除外パスの設定などが含まれます。
-
FireCrawlは、特定のURLを入力すると、そのURLからサイト内をクロールし、内容をベクトルDBに格納します。
-
FireCrawlの設定項目には、Crawl sub-pages、Limit、Exclude paths、Include only paths、Max Depth、Extract only main contentなどがあります。
知識ベースの構築
-
Difyの知識ベース構築には、FireCrawlを使用してウェブサイトから情報を収集し、Markdown形式に変換します。
-
FireCrawlの設定には、APIキーの取得と設定、クロールするURLの指定、クロールの深さや除外パスの設定などが含まれます。
-
クロールの設定項目には、Crawl sub-pages、Limit、Exclude paths、Include only paths、Max Depth、Extract only main contentなどがあります。
-
知識ベースの構築には、Difyの「ナレッジ」画面から「データソース」を選択し、FireCrawlを設定します。
-
FireCrawlを使用することで、ウェブからのスクレイピング情報を効率的に収集し、知識ベースとして利用できます。
Related Videos
<br><br>
<div class="-md-ext-youtube-widget"> { "title": "Dify\u3067\u4f7f\u3048\u308b\u7d44\u307f\u8fbc\u307f\u30c4\u30fc\u30eb\u5168\u7a2e\u985e\u3092\u30c1\u30a7\u30c3\u30af\uff06\u8003\u5bdf\u3057\u3066\u307f\u305f", "link": "https://www.youtube.com/watch?v=gekyVsRyyb8", "channel": { "name": ""}, "published_date": "May 6, 2024", "length": "" }</div>
<div class="-md-ext-youtube-widget"> { "title": "\u3010Dify\u306e\u4f7f\u3044\u65b9\u3011\u521d\u5fc3\u8005\u3067\u3082\u3053\u308c\u898b\u308c\u3070\u51fa\u6765\u308b\u3010Docker\u5c0e\u5165 ...", "link": "https://www.youtube.com/watch?v=qnDkTJ-WV8c", "channel": { "name": ""}, "published_date": "May 9, 2024", "length": "" }</div>
<div class="-md-ext-youtube-widget"> { "title": "Is Dify the easiest way to build AI Applications?", "link": "https://www.youtube.com/watch?v=yXAJwDtAbLo", "channel": { "name": ""}, "published_date": "2 weeks ago", "length": "" }</div>