Extracting URLs from a HTML snippet in R -
निम्न उदाहरण को देखते हुए:
साइटों = c ('साइट 1', 'साइट 2 ') लिंक = सी (' & lt; a href = "http://example.com/path" & gt; यह वेबसाइट & lt; / a & gt; ',' & lt; a href = "http://example.com/path2 "& Gt; उस वेबसाइट & lt; / a & gt; ') w = डेटा.फ्रेम (लिंक, साइटें) लिंक लिंक साइट & lt; a href =" http://example.com/path "& gt; यह वेबसाइट & lt; / a & gt; साइट 1 & lt; a href = "http://example.com/path2" & gt; वह वेबसाइट & lt; / a & gt; साइट 2 मैं एक नियमित अभिव्यक्ति कैसे लागू करूं जो कि यूआरएल और लिंक पाठ को निकालने के लिए html स्निपेट को पार्स करेगा और उन्हें एक डेटा फ्रेम में अलग-अलग कॉलम में पॉप करेगा? इसलिए उदाहरण के लिए, ऊपर दिए गए उदाहरण को देखते हुए, मुझे एक ऐसा डेटा फ्रेम बनाने के लिए क्या करना चाहिए, जो दिखता है:
url नाम साइटें http://example.com/path इस वेबसाइट साइट 1 http://example.com/path2 उस वेबसाइट साइट 2
यहां है htmlTreeParse फ़ंक्शन से संकुल XML (अर्थात, बिना किसी अभिव्यक्ति के) का उपयोग करके एक समाधान R & gt; लाइब्रेरी ("XML") आर & gt; एचटीपी & lt; - htmlTreeParse (लिंक) आर & gt; टी (sapply (seq_along (link), + फ़ंक्शन (i) c (url = unname (htp $ children $ html [[1]] [[i]] $ विशेषताएँ, + name = htp $ children $ html [[1 ]] [[I]] $ बच्चों $ पाठ $ मूल्य, + साइटों = साइटों [i]))) यूआरएल नाम साइटें [1,] "http://example.com/path" "यह वेबसाइट" "साइट 1" [2,] "http://example.com/path2" "उस वेबसाइट" "साइट 2"
Comments
Post a Comment