RobertDeMilo

Ранжирование по релевантностии

Oct 21st, 2023
86
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 5.11 KB | None | 0 0
  1. #include <algorithm>
  2. #include <iostream>
  3. #include <set>
  4. #include <string>
  5. #include <utility>
  6. #include <vector>
  7.  
  8. using namespace std;
  9.  
  10. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  11.  
  12. string ReadLine() {
  13.     string s;
  14.     getline(cin, s);
  15.     return s;
  16. }
  17.  
  18. int ReadLineWithNumber() {
  19.     int result = 0;
  20.     cin >> result;
  21.     ReadLine();
  22.     return result;
  23. }
  24.  
  25. vector<string> SplitIntoWords(const string& text) {
  26.     vector<string> words;
  27.     string word;
  28.     for (const char c : text) {
  29.         if (c == ' ') {
  30.             if (!word.empty()) {
  31.                 words.push_back(word);
  32.                 word.clear();
  33.             }
  34.         } else {
  35.             word += c;
  36.         }
  37.     }
  38.     if (!word.empty()) {
  39.         words.push_back(word);
  40.     }
  41.  
  42.     return words;
  43. }
  44.  
  45. set<string> ParseStopWords(const string& text) {
  46.     set<string> stop_words;
  47.     for (const string& word : SplitIntoWords(text)) {
  48.         stop_words.insert(word);
  49.     }
  50.     return stop_words;
  51. }
  52.  
  53. vector<string> SplitIntoWordsNoStop(const string& text, const set<string>& stop_words) {
  54.     vector<string> words;
  55.     for (const string& word : SplitIntoWords(text)) {
  56.         if (stop_words.count(word) == 0) {
  57.             words.push_back(word);
  58.         }
  59.     }
  60.     return words;
  61. }
  62.  
  63. void AddDocument(vector<pair<int, vector<string>>>& documents, const set<string>& stop_words,
  64.                  int document_id, const string& document) {
  65.     const vector<string> words = SplitIntoWordsNoStop(document, stop_words);
  66.     documents.push_back(pair<int, vector<string>>{document_id, words});
  67. }
  68.  
  69. set<string> ParseQuery(const string& text, const set<string>& stop_words) {
  70.     set<string> query_words;
  71.     for (const string& word : SplitIntoWordsNoStop(text, stop_words)) {
  72.         query_words.insert(word);
  73.     }
  74.     return query_words;
  75. }
  76.  
  77. int MatchDocument(const pair<int, vector<string>>& content, const set<string>& query_words) {
  78.     if (query_words.empty()) {
  79.         return 0;
  80.     }
  81.     set<string> matched_words;
  82.     for (const string& word : content.second) {
  83.         if (matched_words.count(word) != 0) {
  84.             continue;
  85.         }
  86.         if (query_words.count(word) != 0) {
  87.             matched_words.insert(word);
  88.         }
  89.     }
  90.     return static_cast<int>(matched_words.size());
  91. }
  92.  
  93. // Для каждого документа возвращает его релевантность и id
  94. vector<pair<int, int>> FindAllDocuments(const vector<pair<int, vector<string>>>& documents,
  95.                                         const set<string>& query_words) {
  96.     vector<pair<int, int>> matched_documents;
  97.     for (const auto& document : documents) {
  98.         const int relevance = MatchDocument(document, query_words);
  99.         if (relevance > 0) {
  100.             matched_documents.push_back({relevance, document.first});
  101.         }
  102.     }
  103.     return matched_documents;
  104. }
  105.  
  106. // Возвращает топ-5 самых релевантных документов в виде пар: {id, релевантность}
  107. vector<pair<int, int>> FindTopDocuments(const vector<pair<int, vector<string>>>& documents,
  108.                                         const set<string>& stop_words, const string& raw_query) {
  109.     const set<string> query_words = ParseQuery(raw_query, stop_words);
  110.     auto matched_documents = FindAllDocuments(documents, query_words);
  111.  
  112.     // Сортируем документы по возрастанию релевантности и id
  113.     sort(matched_documents.begin(), matched_documents.end());
  114.     // Меняем порядок следования документов, чтобы вначале оказались самые релевантные
  115.     reverse(matched_documents.begin(), matched_documents.end());
  116.  
  117.     // Оставляем MAX_RESULT_DOCUMENT_COUNT самых релевантных документов
  118.     if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  119.         matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  120.     }
  121.     // Массив matched_documents содержит пары {релевантность, id}
  122.     // FindTopDocuments должна вернуть пары {id, релевантность}
  123.     // Поэтому нужно обменять элементы пар, перед тем как вернуть результат
  124.     for (auto& matched_document : matched_documents) {
  125.         swap(matched_document.first, matched_document.second);
  126.     }
  127.     return matched_documents;
  128. }
  129.  
  130. int main() {
  131.     const string stop_words_joined = ReadLine();
  132.     const set<string> stop_words = ParseStopWords(stop_words_joined);
  133.  
  134.     // Read documents
  135.     vector<pair<int, vector<string>>> documents;
  136.     const int document_count = ReadLineWithNumber();
  137.     for (int document_id = 0; document_id < document_count; ++document_id) {
  138.         AddDocument(documents, stop_words, document_id, ReadLine());
  139.     }
  140.  
  141.     const string query = ReadLine();
  142.     for (auto [document_id, relevance] : FindTopDocuments(documents, stop_words, query)) {
  143.         cout << "{ document_id = "s << document_id << ", relevance = "s << relevance << " }"s
  144.              << endl;
  145.     }
  146. }
Add Comment
Please, Sign In to add comment